失われた言語で書かれた文書を解読するアルゴリズム

失われた言語で書かれた文書を解読するアルゴリズム 55

ストーリー by headless 2020年10月25日 9時58分
解読部門より

既に失われた言語で書かれた文書を機械学習により解読するアルゴリズムをMIT CSAILなどの研究グループが開発し、研究成果を発表している(CSAILのニュース記事、論文: PDF)。

失われた言語の解読は人間の専門家がしばしば数十年の時をかけて骨の折れる作業の末に実現されてきた。研究グループのうち3名は昨年、ウガリット語や線文字Bといった失われた言語をアルゴリズムが解読できることを示しているが、対象言語の語族がわかっていることや、単語の境界が示されていることが前提となっていた。

これらの前提を2つとも満たさない未解読の言語として、イベリア語が挙げられる。イベリア語の文書では単語同士が必ずしも分離されておらず、近縁の言語についても研究者の意見が一致していない。今回のアルゴリズムはこういった前提条件を緩和し、主に言語的制約を手掛かりとして解読を行う。

言語的制約はこれまでも利用されていたが、研究グループは言語の進化の過程で特定の音韻が失われた場合には類似した音韻に置き換えられる可能性が高く、全く異なる音韻に置き換えられる可能性は低いといった言語的制約を追加。これにより、文書を単語単位に分割し、近い関係にある言語の同根語に割り当てることが可能となる。

新しいアルゴリズムはイベリア語のほか、既に解読されているゴート語やウガリット語を使用した検証を行い、単語間の分割が不十分な言語を効果的に解読できることが示された。副産物として、失われた言語の語族を検出できることも確認されている。また、アルゴリズムが各音韻の特徴を多次元的にマッピングするため、失われた言語の発音の復元に向けた出発点になることも期待されるとのことだ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索55コメント Log In/Create an Account

つまり、約20年ごしで…… (スコア:2)

by Takahiro_Chou (21972) on 2020年10月25日 13時43分 (#3912789) 日記

仮面ライダークウガに出て来た、あの謎の古代文字解読ソフトが実用化されたと云う事なのか??
- Re: (スコア:0)
  
  by Anonymous Coward
  
  最近 Youtube でクウガ観てるんですが、修論で忙しいという桜子さんの発言でそういう設定だったなと。
  https://mantan-web.jp/article/20200911dog00m200023000c.html [mantan-web.jp]
足元注意 (スコア:1)

by Landie(GRG) (6950) on 2020年10月25日 14時23分 (#3912816) ホームページ

とっかかりが無くってもいけるのかなぁ。
……頭上注意だっけ？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  星新一が思いついたものの作品にできず、エッセー集の「できそこない博物館」に収録したネタでしたっけ、確か。
電子頭脳で未知の言語を解読するのは (スコア:1)

by kubochan (4065) on 2020年10月26日 10時42分 (#3913109)

光瀬龍の「たそがれに還る」のようですな。

--
kubochan
何賞？ (スコア:0)

by Anonymous Coward on 2020年10月25日 10時05分 (#3912733)

これで線文字Aが解読できたらチューリング賞に該当するんでしょうか？
- Re:何賞？ (スコア:2)
  
  by Takahiro_Chou (21972) on 2020年10月25日 13時48分 (#3912794) 日記
  
  まずは、クリンゴン語を解読出来るか?? と云うテストをやってみるとか……
  
  シェア
  
  親コメント
  - Re:何賞？ (スコア:1)
    
    by nekopon (1483) on 2020年10月26日 8時45分 (#3913066) 日記
    
    アレは解読するには語彙がアレゲすぎる、じゃなかったっけ
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ノーベル文学賞。
古代言語なんかいいから (スコア:0)

by Anonymous Coward on 2020年10月25日 10時17分 (#3912738)

まず資料も圧倒的に豊富にある現代の言語をまともに解読できるようになったら起こしてくれ
- Re:古代言語なんかいいから (スコア:1)
  
  by Anonymous Coward on 2020年10月25日 12時56分 (#3912776)
  
  解読した結果をあなたに伝えるにはどうすればいいのでしょう？
  現代語以外での伝達は困難だと思いますが。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    あなたの皮肉が通じる相手とは思えませんね。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      皮で包まれた（筋）肉を活用した肉体言語ならどうでしょうか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  どこまで無精なんだよ
  そのくらい自分でやれよな。草生えるわ。
  資料も圧倒的に豊富にあるんだろ。おまけに発音もわかってんだろ。
  こんな簡単な仕事があるかい。
  それともお前さんにとって現代の言語がまだまだ未解読な言語だという主張なのかい？
  それならこのアルゴリズムが十分に役に立つだろうよ。
  もっとも、それはあんたさんが何を言っているのかを解読する方向になるんじゃないかな？
  # 面白いことを言ったつもりだった、に1024ペリカ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    自分で書いた2週間前のメモが悪筆すぎて読めなかった経験はお前さんにはないのかい？
    ＃書いた内容を覚えているうちは読めるが、時間が経つと読めなくなる時限式メモ。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      2週間も判読可能ならもういいだろ！それ以上保存するならそんなメモランダム捨ててnotepadに書いて保存しとけ！
      私なんか一時間前に書いたpostitだって読めずに、色を見て書いた時を思い出して、内容を思い出す多段階方式なんだぞ
      だからパスワードもpostitに書いてモニタに張ってもわからんから完全暗記だ。
      うーん、自慢にもなっとらん。
      # やむを得ない場合はすごい大きな字でゆっくり書かないと自分で本当に分からない悪筆
      # 打合せ時のホワイトボードにはいろいろ書くけど文字でなくポンチ絵だけ
      ところで、この指摘は解読というより判読だから別のOCR技術だと思う。
      ストーリに沿ってないと思う。
      負けず嫌いじゃないぞう
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      それって鉄板ネタみたいだけど全く身に覚えがないわ
      ただ手を動かしながら脳内復唱してるだけで、文字を書いたわけじゃないんだろ
      そんなもん本人が思い出すためのキーアイテムであってメモじゃないから解読も無理
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        それは、そもそも貴方の字が上手だからでしょう。
        世の中には、自分でも判別できなくなるほど字が下手な人もいるのです。orz
        # 特に、うろ覚えの漢字をごまかすように書いたときは酷い。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    元コメはこれを翻訳エンジンに転用しろって主張でしょ
    - Re:古代言語なんかいいから (スコア:1)
      
      by Anonymous Coward on 2020年10月25日 15時22分 (#3912838)
      
      なにを主張したかったにせよ、傲慢な享受者は袋叩きされて然るべき
      
      シェア
      
      親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    機械翻訳が顕著だが会話文の解釈等の受け掛かり分析もイマイチな現状を知らんのか。
    まぁ分析対象文の前提情報がフレーム問題になってるから完璧ってのはまず無理だが。
    人類は今居る人類の事すら意外と分かっていない。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      面白い考え方だからぜひ教えてほしいと思ったのがあなたと#3912780さん。
      二名も出てきたので是非お伺いしたいのですが、なんで現時点で既知の言語と失われてしまった言語を同一に扱えるアルゴリズムの研究なんだと思ったのかが興味ある。
      端的に言えば、同一に扱えなくても、同一に扱えるようになったら起こせっていう言いがかりまでつけてこの研究を貶めるってどういう思考の構造から出てくるのか特に知りたい。
      たとえばあなたが好きである、ことと思うが、代表例として挙げてくださった係り受け。
      (ごめん、受け掛かり分析という用語は寡聞にして知らんので係り受けと仮定し
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        怠惰な暇人が、噛みつけるところに安直に噛みついたってだけの事でしょう。
        あなたは、人間とはどういうものか、集団中にどんな性質がどんな幅で見られるのか考えてみるといいと思います。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        集団中にどんな性質がどんな幅で見られるのか考えてみるといいと思います。
        
        あなたは驚くかもしれませんが、自説を掲げる人、それにかみつく人、かみつかれて逆上する人、それを見て茶々を入れる人、岡目八目横からほっとけ達観せよ、等々、主義主張が書き込まれ、話題が盛り上がり(場合によっては炎上して)ストーリーが活発になることによって、広告収入にもつながり、sradが成立しているのかもしれない、という点を考えてみるといいと思います。
        短フレーズで言えばこうなるかと:
        「それをいっちゃあおしめぇよ」
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        アプリッツに登録する人材が増えれば、アドブロックユーザだらけのサイトで広告収入すらなくてもいいという仕組みを考えてみましょうね
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        用語の間違いは置いといて、既知の言語の解釈も難しいのに未知の言語でまともな解釈ができるのかってのは当然の疑問でしょうに。
        あと「人類で誰もわからんわって言語」はこの研究でも無理でしょ。
        どの言語に近いのかすら分からん、に適用出来るって話の筈。
        現状の人工知能に夢見すぎ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  文字の分析と文字が分かった上での意味の分析は全然違うお仕事だから寝てていいよ
逆アセ (スコア:0)

by Anonymous Coward on 2020年10月25日 10時23分 (#3912743)

プログラムの話かと思った
- Re: (スコア:0)
  
  by Anonymous Coward
  
  もっと先には視野に入ってるんじゃないかな。
  バイナリコードから元のプログラム言語に自然に変換したり、コードから設計仕様を抽出してもとの設計仕様との齟齬を見つけたり。
  少し前までは夢物語だったけど、ここ2年のTransformer、BERTを出発点とした自然言語処理の発展を見ると10年後は分からない。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    今回の件に対応するのは、インストラクションセットが現存していないマシン語でも挙動を理解できるって話かと。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ポケコンの謎CPUのインストラクションセット解析やったなあ
      ポケコンのBasicに
      peek poke callがあって
      メモリマップドレジスタだったから
      1バイト書き込んでcallしてRetっぽいコード見つけて
      次に命令長調べてさらにBasicで半自動化学習型逆アセンブラ作って
      海外向けにはそのCPUのデータシートが存在してたことを知ったけど
      いいんだ無駄な作業でも楽しかったから
正解は？ (スコア:0)

by Anonymous Coward on 2020年10月25日 10時53分 (#3912749)

越後製菓
じゃなくて解読したアウトプットが正しいってどうやって確認すんの？
まあ、人力による解読や歴史の研究にもつきまとう問題だけど。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  火山が噴火したとか○○王が結婚したとかそういう記述を見つけたら既知の記録と突合せるんじゃね
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    記憶と合わすをやるとマンデラエフェクトが！
    最近のまとめサイトは事象に対するタイトルが故意に歪めれていて人間様でも非常に困る。
    Yahoo! Japan 他のニュースタイトルもミスリードで読んでもらおうとしてるし。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      その点スラドはミスリードではなくミスで読んでもらおうとするところが他とは一線を画しているよな
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    太陽が暗くなった
    空に新しい星が出現した
    とかだと、隔絶された文明でも照合可能ですね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  科学全般に言えるイチャモンだな
  どれだけ体系のつじつまが合ってるか、現実をよく説明できるかにすぎない
- Re: (スコア:0)
  
  by Anonymous Coward
  
  造水機が故障した
どうせラテン系言語だけでしょう？ (スコア:0)

by Anonymous Coward on 2020年10月25日 11時18分 (#3912753)

さすがに同じアルゴリズムで日本語を英語に解読出来たら、すごいと思うが、所詮、ラテン系の類縁言語だけに有効なものでしょう？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  戦後すぐまでに書かれた達筆な崩し字も判読していただきたい。
  - Re:どうせラテン系言語だけでしょう？ (スコア:1)
    
    by Anonymous Coward on 2020年10月25日 11時41分 (#3912759)
    
    それはすでにあります
    くずし字OCR（AIくずし字認識）
    http://codh.rois.ac.jp/char-shape/OCR/ [rois.ac.jp]
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    そっちは凸版印刷が既にやってる
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    「達筆な崩し字」は、慣れると簡単に読めるんです。ホントです。
    読むだけでなく、現代でもボールペン字の生徒募集で美しい崩し字の書き方なんて売り文句があったりします。
    問題は、大方の現代日本人から見てどちらも同じ崩し字のように見えても、実は単に字がへたくそなだけで、当時でもコレ読めねえよ、って字を書く人が相当数いたことです。
    そういう人が書いた文書を解読するには、同じ日本語なのにさっぱりわからん文書を書いた本人のその当時の生活環境とか書くに至った経緯とか、そっちのほうの情報を取り出す方法論とか、また別の研究テーマになりそう。
COBOL (スコア:0)

by Anonymous Coward on 2020年10月25日 11時59分 (#3912765)

COBOL「私は不滅です」
- Re: (スコア:0, おもしろおかしい)
  
  by Anonymous Coward
  
  ははあ、これは20世紀後半から21世紀初頭に流行した脳死状態におけるCOBOLdisり症ですねえ。
  最近珍しい症例ですなあ。
  この病気の困るところは、このCOBOLが代表例ですが、いくらdisったところで、どんな言語でも、そのソースコードの一行一行は、ぜんぜん、ちっとも、まるで、超、すごく、明らかに、明確すぎるほど、同じ意味しか持たない、別の解釈なんかできようがない、まさしく「プログラム」、そう、単なる「手順」であることが理解できないのがね・・・いやはや。
  そこまで明確すぎる処理手順を見ても、それでもなお、(声を張り上げながら)当時の事情が分からないから、何を意図していたのかが分からないのが、古(巻き舌で)い言語を使ったシステムの問題なのがぜーんぜん理解できてませんね。
  # 大和田常務編
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    どんな言語でも、そのソースコードの一行一行は、ぜんぜん、ちっとも、まるで、超、すごく、明らかに、明確すぎるほど、同じ意味しか持たない、別の解釈なんかできようがない、まさしく「プログラム」、そう、単なる「手順」であることが理解できないのがね・・・
    （特に初期の）COBOLは、処理系毎・実行環境毎に方言差が大きく、ソースコードの所々が、同じ意味を持たない、別の解釈されてしまい、ハングアップならまだしも、異常動作すらされ得る事が、普通にあると聞いていたのだが。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      聞けて良かったじゃないの。
      （特に初期の）Cは、処理系毎・実行環境毎に方言差が大きく、ソースコードの所々が、同じ意味を持たない、別の解釈されてしまい、ハングアップならまだしも、異常動作すらされ得る事が、普通にあると聞いていたのだが。
      あーら不思議。OBOLを抜いただけなのに応用が利くわね。
神狩り (スコア:0)

by Anonymous Coward on 2020年10月25日 16時37分 (#3912870)

論理記号が2つしかなくて関係代名詞が13重になっていても人間の言葉に翻訳できるのだろうか
ヴォイニッチ手稿 (スコア:0)

by Anonymous Coward on 2020年10月26日 1時39分 (#3913024)

解読出来たりして
#オカルト的な内容より、筆者の黒歴史的な内容の方が公表しづらそう
手法自体の新規性は無いが (スコア:0)

by Anonymous Coward on 2020年10月26日 3時27分 (#3913034)

ウガリト語なんて粘土板が発見されて三年ほどで完全解読された、楔形文字アルファベットの分かりやすい言語。
未解読のものはそもそも音韻が不明。
統計的手法で頻出音や頻出形態素を割り出すのは第一次世界大戦の時代からされている。
まあそれを機械学習にやらせようってのだけが新規な部分。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

つまり、約20年ごしで…… (スコア:2)

Re: (スコア:0)

足元注意 (スコア:1)

Re: (スコア:0)

電子頭脳で未知の言語を解読するのは (スコア:1)

何賞？ (スコア:0)

Re:何賞？ (スコア:2)

Re:何賞？ (スコア:1)

Re: (スコア:0)

古代言語なんかいいから (スコア:0)

Re:古代言語なんかいいから (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:古代言語なんかいいから (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

逆アセ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

正解は？ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

どうせラテン系言語だけでしょう？ (スコア:0)

Re: (スコア:0)

Re:どうせラテン系言語だけでしょう？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

COBOL (スコア:0)

Re: (スコア:0, おもしろおかしい)

Re: (スコア:0)

Re: (スコア:0)

神狩り (スコア:0)

ヴォイニッチ手稿 (スコア:0)

手法自体の新規性は無いが (スコア:0)