パスワードを忘れた? アカウント作成
14969912 story
人工知能

失われた言語で書かれた文書を解読するアルゴリズム 55

ストーリー by headless
解読 部門より
既に失われた言語で書かれた文書を機械学習により解読するアルゴリズムをMIT CSAILなどの研究グループが開発し、研究成果を発表している(CSAILのニュース記事論文: PDF)。

失われた言語の解読は人間の専門家がしばしば数十年の時をかけて骨の折れる作業の末に実現されてきた。研究グループのうち3名は昨年、ウガリット語や線文字Bといった失われた言語をアルゴリズムが解読できることを示しているが、対象言語の語族がわかっていることや、単語の境界が示されていることが前提となっていた。

これらの前提を2つとも満たさない未解読の言語として、イベリア語が挙げられる。イベリア語の文書では単語同士が必ずしも分離されておらず、近縁の言語についても研究者の意見が一致していない。今回のアルゴリズムはこういった前提条件を緩和し、主に言語的制約を手掛かりとして解読を行う。

言語的制約はこれまでも利用されていたが、研究グループは言語の進化の過程で特定の音韻が失われた場合には類似した音韻に置き換えられる可能性が高く、全く異なる音韻に置き換えられる可能性は低いといった言語的制約を追加。これにより、文書を単語単位に分割し、近い関係にある言語の同根語に割り当てることが可能となる。

新しいアルゴリズムはイベリア語のほか、既に解読されているゴート語やウガリット語を使用した検証を行い、単語間の分割が不十分な言語を効果的に解読できることが示された。副産物として、失われた言語の語族を検出できることも確認されている。また、アルゴリズムが各音韻の特徴を多次元的にマッピングするため、失われた言語の発音の復元に向けた出発点になることも期待されるとのことだ。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 仮面ライダークウガに出て来た、あの謎の古代文字解読ソフトが実用化されたと云う事なのか??

  • by Landie(GRG) (6950) on 2020年10月25日 14時23分 (#3912816) ホームページ

    とっかかりが無くってもいけるのかなぁ。

    ……頭上注意だっけ?

    • by Anonymous Coward

      星新一が思いついたものの作品にできず、エッセー集の「できそこない博物館」に収録したネタでしたっけ、確か。

  • 光瀬龍の「たそがれに還る」のようですな。
    --
    kubochan
  • by Anonymous Coward on 2020年10月25日 10時05分 (#3912733)

    これで線文字Aが解読できたらチューリング賞に該当するんでしょうか?

  • by Anonymous Coward on 2020年10月25日 10時17分 (#3912738)

    まず資料も圧倒的に豊富にある現代の言語をまともに解読できるようになったら起こしてくれ

    • by Anonymous Coward on 2020年10月25日 12時56分 (#3912776)

      解読した結果をあなたに伝えるにはどうすればいいのでしょう?
      現代語以外での伝達は困難だと思いますが。

      親コメント
      • by Anonymous Coward

        あなたの皮肉が通じる相手とは思えませんね。

        • by Anonymous Coward

          皮で包まれた(筋)肉を活用した肉体言語ならどうでしょうか?

    • by Anonymous Coward

      どこまで無精なんだよ
      そのくらい自分でやれよな。草生えるわ。
      資料も圧倒的に豊富にあるんだろ。おまけに発音もわかってんだろ。
      こんな簡単な仕事があるかい。

      それともお前さんにとって現代の言語がまだまだ未解読な言語だという主張なのかい?

      それならこのアルゴリズムが十分に役に立つだろうよ。
      もっとも、それはあんたさんが何を言っているのかを解読する方向になるんじゃないかな?

      # 面白いことを言ったつもりだった、に1024ペリカ

      • by Anonymous Coward

        自分で書いた2週間前のメモが悪筆すぎて読めなかった経験はお前さんにはないのかい?

        #書いた内容を覚えているうちは読めるが、時間が経つと読めなくなる時限式メモ。

        • by Anonymous Coward

          2週間も判読可能ならもういいだろ!それ以上保存するならそんなメモランダム捨ててnotepadに書いて保存しとけ!

          私なんか一時間前に書いたpostitだって読めずに、色を見て書いた時を思い出して、内容を思い出す多段階方式なんだぞ
          だからパスワードもpostitに書いてモニタに張ってもわからんから完全暗記だ。
          うーん、自慢にもなっとらん。

          # やむを得ない場合はすごい大きな字でゆっくり書かないと自分で本当に分からない悪筆
          # 打合せ時のホワイトボードにはいろいろ書くけど文字でなくポンチ絵だけ

          ところで、この指摘は解読というより判読だから別のOCR技術だと思う。
          ストーリに沿ってないと思う。

          負けず嫌いじゃないぞう

        • by Anonymous Coward

          それって鉄板ネタみたいだけど全く身に覚えがないわ

          ただ手を動かしながら脳内復唱してるだけで、文字を書いたわけじゃないんだろ
          そんなもん本人が思い出すためのキーアイテムであってメモじゃないから解読も無理

          • by Anonymous Coward

            それは、そもそも貴方の字が上手だからでしょう。
            世の中には、自分でも判別できなくなるほど字が下手な人もいるのです。orz

            # 特に、うろ覚えの漢字をごまかすように書いたときは酷い。

      • by Anonymous Coward

        元コメはこれを翻訳エンジンに転用しろって主張でしょ

      • by Anonymous Coward

        機械翻訳が顕著だが会話文の解釈等の受け掛かり分析もイマイチな現状を知らんのか。
        まぁ分析対象文の前提情報がフレーム問題になってるから完璧ってのはまず無理だが。

        人類は今居る人類の事すら意外と分かっていない。

        • by Anonymous Coward

          面白い考え方だからぜひ教えてほしいと思ったのがあなたと#3912780さん。

          二名も出てきたので是非お伺いしたいのですが、なんで現時点で既知の言語と失われてしまった言語を同一に扱えるアルゴリズムの研究なんだと思ったのかが興味ある。

          端的に言えば、同一に扱えなくても、同一に扱えるようになったら起こせっていう言いがかりまでつけてこの研究を貶めるってどういう思考の構造から出てくるのか特に知りたい。

          たとえばあなたが好きである、ことと思うが、代表例として挙げてくださった係り受け。
          (ごめん、受け掛かり分析という用語は寡聞にして知らんので係り受けと仮定し

          • by Anonymous Coward

            怠惰な暇人が、噛みつけるところに安直に噛みついたってだけの事でしょう。
            あなたは、人間とはどういうものか、集団中にどんな性質がどんな幅で見られるのか考えてみるといいと思います。

            • by Anonymous Coward

              集団中にどんな性質がどんな幅で見られるのか考えてみるといいと思います。

              あなたは驚くかもしれませんが、自説を掲げる人、それにかみつく人、かみつかれて逆上する人、それを見て茶々を入れる人、岡目八目横からほっとけ達観せよ、等々、主義主張が書き込まれ、話題が盛り上がり(場合によっては炎上して)ストーリーが活発になることによって、広告収入にもつながり、sradが成立しているのかもしれない、という点を考えてみるといいと思います。

              短フレーズで言えばこうなるかと:
              「それをいっちゃあおしめぇよ」

              • by Anonymous Coward

                アプリッツに登録する人材が増えれば、アドブロックユーザだらけのサイトで広告収入すらなくてもいいという仕組みを考えてみましょうね

          • by Anonymous Coward

            用語の間違いは置いといて、既知の言語の解釈も難しいのに未知の言語でまともな解釈ができるのかってのは当然の疑問でしょうに。
            あと「人類で誰もわからんわって言語」はこの研究でも無理でしょ。
            どの言語に近いのかすら分からん、に適用出来るって話の筈。

            現状の人工知能に夢見すぎ。

    • by Anonymous Coward

      文字の分析と文字が分かった上での意味の分析は全然違うお仕事だから寝てていいよ

  • by Anonymous Coward on 2020年10月25日 10時23分 (#3912743)

    プログラムの話かと思った

    • by Anonymous Coward

      もっと先には視野に入ってるんじゃないかな。
      バイナリコードから元のプログラム言語に自然に変換したり、コードから設計仕様を抽出してもとの設計仕様との齟齬を見つけたり。
      少し前までは夢物語だったけど、ここ2年のTransformer、BERTを出発点とした自然言語処理の発展を見ると10年後は分からない。

      • by Anonymous Coward

        今回の件に対応するのは、インストラクションセットが現存していないマシン語でも挙動を理解できるって話かと。

        • by Anonymous Coward

          ポケコンの謎CPUのインストラクションセット解析やったなあ
          ポケコンのBasicに
          peek poke callがあって
          メモリマップドレジスタだったから
          1バイト書き込んでcallしてRetっぽいコード見つけて
          次に命令長調べてさらにBasicで半自動化学習型逆アセンブラ作って
          海外向けにはそのCPUのデータシートが存在してたことを知ったけど
          いいんだ無駄な作業でも楽しかったから

  • by Anonymous Coward on 2020年10月25日 10時53分 (#3912749)

    越後製菓

    じゃなくて解読したアウトプットが正しいってどうやって確認すんの?
    まあ、人力による解読や歴史の研究にもつきまとう問題だけど。

    • by Anonymous Coward

      火山が噴火したとか○○王が結婚したとかそういう記述を見つけたら既知の記録と突合せるんじゃね

      • by Anonymous Coward

        記憶と合わすをやるとマンデラエフェクトが!
        最近のまとめサイトは事象に対するタイトルが故意に歪めれていて人間様でも非常に困る。
        Yahoo! Japan 他のニュースタイトルもミスリードで読んでもらおうとしてるし。

        • by Anonymous Coward

          その点スラドはミスリードではなくミスで読んでもらおうとするところが他とは一線を画しているよな

      • by Anonymous Coward

        太陽が暗くなった
        空に新しい星が出現した
        とかだと、隔絶された文明でも照合可能ですね。

    • by Anonymous Coward

      科学全般に言えるイチャモンだな
      どれだけ体系のつじつまが合ってるか、現実をよく説明できるかにすぎない

    • by Anonymous Coward

      造水機が故障した

  • by Anonymous Coward on 2020年10月25日 11時18分 (#3912753)

    さすがに同じアルゴリズムで日本語を英語に解読出来たら、すごいと思うが、所詮、ラテン系の類縁言語だけに有効なものでしょう?

    • by Anonymous Coward

      戦後すぐまでに書かれた達筆な崩し字も判読していただきたい。

      • by Anonymous Coward on 2020年10月25日 11時41分 (#3912759)

        それはすでにあります

        くずし字OCR(AIくずし字認識)
        http://codh.rois.ac.jp/char-shape/OCR/ [rois.ac.jp]

        親コメント
      • by Anonymous Coward

        そっちは凸版印刷が既にやってる

      • by Anonymous Coward

        「達筆な崩し字」は、慣れると簡単に読めるんです。ホントです。
        読むだけでなく、現代でもボールペン字の生徒募集で美しい崩し字の書き方なんて売り文句があったりします。

        問題は、大方の現代日本人から見てどちらも同じ崩し字のように見えても、実は単に字がへたくそなだけで、当時でもコレ読めねえよ、って字を書く人が相当数いたことです。

        そういう人が書いた文書を解読するには、同じ日本語なのにさっぱりわからん文書を書いた本人のその当時の生活環境とか書くに至った経緯とか、そっちのほうの情報を取り出す方法論とか、また別の研究テーマになりそう。

  • by Anonymous Coward on 2020年10月25日 11時59分 (#3912765)

    COBOL「私は不滅です」

    • Re: (スコア:0, おもしろおかしい)

      by Anonymous Coward

      ははあ、これは20世紀後半から21世紀初頭に流行した脳死状態におけるCOBOLdisり症ですねえ。
      最近珍しい症例ですなあ。

      この病気の困るところは、このCOBOLが代表例ですが、いくらdisったところで、どんな言語でも、そのソースコードの一行一行は、ぜんぜん、ちっとも、まるで、超、すごく、明らかに、明確すぎるほど、同じ意味しか持たない、別の解釈なんかできようがない、まさしく「プログラム」、そう、単なる「手順」であることが理解できないのがね・・・いやはや。

      そこまで明確すぎる処理手順を見ても、それでもなお、(声を張り上げながら)当時の事情が分からないから、何を意図していたのかが分からないのが、古(巻き舌で)い言語を使ったシステムの問題なのがぜーんぜん理解できてませんね。

      # 大和田常務編

      • by Anonymous Coward

        どんな言語でも、そのソースコードの一行一行は、ぜんぜん、ちっとも、まるで、超、すごく、明らかに、明確すぎるほど、同じ意味しか持たない、別の解釈なんかできようがない、まさしく「プログラム」、そう、単なる「手順」であることが理解できないのがね・・・

        (特に初期の)COBOLは、処理系毎・実行環境毎に方言差が大きく、ソースコードの所々が、同じ意味を持たない、別の解釈されてしまい、ハングアップならまだしも、異常動作すらされ得る事が、普通にあると聞いていたのだが。

        • by Anonymous Coward

          聞けて良かったじゃないの。

          (特に初期の)Cは、処理系毎・実行環境毎に方言差が大きく、ソースコードの所々が、同じ意味を持たない、別の解釈されてしまい、ハングアップならまだしも、異常動作すらされ得る事が、普通にあると聞いていたのだが。

          あーら不思議。OBOLを抜いただけなのに応用が利くわね。

  • by Anonymous Coward on 2020年10月25日 16時37分 (#3912870)

    論理記号が2つしかなくて関係代名詞が13重になっていても人間の言葉に翻訳できるのだろうか

  • by Anonymous Coward on 2020年10月26日 1時39分 (#3913024)

    解読出来たりして

    #オカルト的な内容より、筆者の黒歴史的な内容の方が公表しづらそう

  • by Anonymous Coward on 2020年10月26日 3時27分 (#3913034)

    ウガリト語なんて粘土板が発見されて三年ほどで完全解読された、楔形文字アルファベットの分かりやすい言語。

    未解読のものはそもそも音韻が不明。
    統計的手法で頻出音や頻出形態素を割り出すのは第一次世界大戦の時代からされている。
    まあそれを機械学習にやらせようってのだけが新規な部分。

typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...