
失われた言語で書かれた文書を解読するアルゴリズム 55
ストーリー by headless
解読 部門より
解読 部門より
既に失われた言語で書かれた文書を機械学習により解読するアルゴリズムをMIT CSAILなどの研究グループが開発し、研究成果を発表している(CSAILのニュース記事、 論文: PDF)。
失われた言語の解読は人間の専門家がしばしば数十年の時をかけて骨の折れる作業の末に実現されてきた。研究グループのうち3名は昨年、ウガリット語や線文字Bといった失われた言語をアルゴリズムが解読できることを示しているが、対象言語の語族がわかっていることや、単語の境界が示されていることが前提となっていた。
これらの前提を2つとも満たさない未解読の言語として、イベリア語が挙げられる。イベリア語の文書では単語同士が必ずしも分離されておらず、近縁の言語についても研究者の意見が一致していない。今回のアルゴリズムはこういった前提条件を緩和し、主に言語的制約を手掛かりとして解読を行う。
言語的制約はこれまでも利用されていたが、研究グループは言語の進化の過程で特定の音韻が失われた場合には類似した音韻に置き換えられる可能性が高く、全く異なる音韻に置き換えられる可能性は低いといった言語的制約を追加。これにより、文書を単語単位に分割し、近い関係にある言語の同根語に割り当てることが可能となる。
新しいアルゴリズムはイベリア語のほか、既に解読されているゴート語やウガリット語を使用した検証を行い、単語間の分割が不十分な言語を効果的に解読できることが示された。副産物として、失われた言語の語族を検出できることも確認されている。また、アルゴリズムが各音韻の特徴を多次元的にマッピングするため、失われた言語の発音の復元に向けた出発点になることも期待されるとのことだ。
失われた言語の解読は人間の専門家がしばしば数十年の時をかけて骨の折れる作業の末に実現されてきた。研究グループのうち3名は昨年、ウガリット語や線文字Bといった失われた言語をアルゴリズムが解読できることを示しているが、対象言語の語族がわかっていることや、単語の境界が示されていることが前提となっていた。
これらの前提を2つとも満たさない未解読の言語として、イベリア語が挙げられる。イベリア語の文書では単語同士が必ずしも分離されておらず、近縁の言語についても研究者の意見が一致していない。今回のアルゴリズムはこういった前提条件を緩和し、主に言語的制約を手掛かりとして解読を行う。
言語的制約はこれまでも利用されていたが、研究グループは言語の進化の過程で特定の音韻が失われた場合には類似した音韻に置き換えられる可能性が高く、全く異なる音韻に置き換えられる可能性は低いといった言語的制約を追加。これにより、文書を単語単位に分割し、近い関係にある言語の同根語に割り当てることが可能となる。
新しいアルゴリズムはイベリア語のほか、既に解読されているゴート語やウガリット語を使用した検証を行い、単語間の分割が不十分な言語を効果的に解読できることが示された。副産物として、失われた言語の語族を検出できることも確認されている。また、アルゴリズムが各音韻の特徴を多次元的にマッピングするため、失われた言語の発音の復元に向けた出発点になることも期待されるとのことだ。
つまり、約20年ごしで…… (スコア:2)
仮面ライダークウガに出て来た、あの謎の古代文字解読ソフトが実用化されたと云う事なのか??
Re: (スコア:0)
最近 Youtube でクウガ観てるんですが、修論で忙しいという桜子さんの発言でそういう設定だったなと。
https://mantan-web.jp/article/20200911dog00m200023000c.html [mantan-web.jp]
足元注意 (スコア:1)
とっかかりが無くってもいけるのかなぁ。
……頭上注意だっけ?
Re: (スコア:0)
星新一が思いついたものの作品にできず、エッセー集の「できそこない博物館」に収録したネタでしたっけ、確か。
電子頭脳で未知の言語を解読するのは (スコア:1)
kubochan
何賞? (スコア:0)
これで線文字Aが解読できたらチューリング賞に該当するんでしょうか?
Re:何賞? (スコア:2)
まずは、クリンゴン語を解読出来るか?? と云うテストをやってみるとか……
Re:何賞? (スコア:1)
Re: (スコア:0)
ノーベル文学賞。
古代言語なんかいいから (スコア:0)
まず資料も圧倒的に豊富にある現代の言語をまともに解読できるようになったら起こしてくれ
Re:古代言語なんかいいから (スコア:1)
解読した結果をあなたに伝えるにはどうすればいいのでしょう?
現代語以外での伝達は困難だと思いますが。
Re: (スコア:0)
あなたの皮肉が通じる相手とは思えませんね。
Re: (スコア:0)
皮で包まれた(筋)肉を活用した肉体言語ならどうでしょうか?
Re: (スコア:0)
どこまで無精なんだよ
そのくらい自分でやれよな。草生えるわ。
資料も圧倒的に豊富にあるんだろ。おまけに発音もわかってんだろ。
こんな簡単な仕事があるかい。
それともお前さんにとって現代の言語がまだまだ未解読な言語だという主張なのかい?
それならこのアルゴリズムが十分に役に立つだろうよ。
もっとも、それはあんたさんが何を言っているのかを解読する方向になるんじゃないかな?
# 面白いことを言ったつもりだった、に1024ペリカ
Re: (スコア:0)
自分で書いた2週間前のメモが悪筆すぎて読めなかった経験はお前さんにはないのかい?
#書いた内容を覚えているうちは読めるが、時間が経つと読めなくなる時限式メモ。
Re: (スコア:0)
2週間も判読可能ならもういいだろ!それ以上保存するならそんなメモランダム捨ててnotepadに書いて保存しとけ!
私なんか一時間前に書いたpostitだって読めずに、色を見て書いた時を思い出して、内容を思い出す多段階方式なんだぞ
だからパスワードもpostitに書いてモニタに張ってもわからんから完全暗記だ。
うーん、自慢にもなっとらん。
# やむを得ない場合はすごい大きな字でゆっくり書かないと自分で本当に分からない悪筆
# 打合せ時のホワイトボードにはいろいろ書くけど文字でなくポンチ絵だけ
ところで、この指摘は解読というより判読だから別のOCR技術だと思う。
ストーリに沿ってないと思う。
負けず嫌いじゃないぞう
Re: (スコア:0)
それって鉄板ネタみたいだけど全く身に覚えがないわ
ただ手を動かしながら脳内復唱してるだけで、文字を書いたわけじゃないんだろ
そんなもん本人が思い出すためのキーアイテムであってメモじゃないから解読も無理
Re: (スコア:0)
それは、そもそも貴方の字が上手だからでしょう。
世の中には、自分でも判別できなくなるほど字が下手な人もいるのです。orz
# 特に、うろ覚えの漢字をごまかすように書いたときは酷い。
Re: (スコア:0)
元コメはこれを翻訳エンジンに転用しろって主張でしょ
Re:古代言語なんかいいから (スコア:1)
なにを主張したかったにせよ、傲慢な享受者は袋叩きされて然るべき
Re: (スコア:0)
機械翻訳が顕著だが会話文の解釈等の受け掛かり分析もイマイチな現状を知らんのか。
まぁ分析対象文の前提情報がフレーム問題になってるから完璧ってのはまず無理だが。
人類は今居る人類の事すら意外と分かっていない。
Re: (スコア:0)
面白い考え方だからぜひ教えてほしいと思ったのがあなたと#3912780さん。
二名も出てきたので是非お伺いしたいのですが、なんで現時点で既知の言語と失われてしまった言語を同一に扱えるアルゴリズムの研究なんだと思ったのかが興味ある。
端的に言えば、同一に扱えなくても、同一に扱えるようになったら起こせっていう言いがかりまでつけてこの研究を貶めるってどういう思考の構造から出てくるのか特に知りたい。
たとえばあなたが好きである、ことと思うが、代表例として挙げてくださった係り受け。
(ごめん、受け掛かり分析という用語は寡聞にして知らんので係り受けと仮定し
Re: (スコア:0)
怠惰な暇人が、噛みつけるところに安直に噛みついたってだけの事でしょう。
あなたは、人間とはどういうものか、集団中にどんな性質がどんな幅で見られるのか考えてみるといいと思います。
Re: (スコア:0)
あなたは驚くかもしれませんが、自説を掲げる人、それにかみつく人、かみつかれて逆上する人、それを見て茶々を入れる人、岡目八目横からほっとけ達観せよ、等々、主義主張が書き込まれ、話題が盛り上がり(場合によっては炎上して)ストーリーが活発になることによって、広告収入にもつながり、sradが成立しているのかもしれない、という点を考えてみるといいと思います。
短フレーズで言えばこうなるかと:
「それをいっちゃあおしめぇよ」
Re: (スコア:0)
アプリッツに登録する人材が増えれば、アドブロックユーザだらけのサイトで広告収入すらなくてもいいという仕組みを考えてみましょうね
Re: (スコア:0)
用語の間違いは置いといて、既知の言語の解釈も難しいのに未知の言語でまともな解釈ができるのかってのは当然の疑問でしょうに。
あと「人類で誰もわからんわって言語」はこの研究でも無理でしょ。
どの言語に近いのかすら分からん、に適用出来るって話の筈。
現状の人工知能に夢見すぎ。
Re: (スコア:0)
文字の分析と文字が分かった上での意味の分析は全然違うお仕事だから寝てていいよ
逆アセ (スコア:0)
プログラムの話かと思った
Re: (スコア:0)
もっと先には視野に入ってるんじゃないかな。
バイナリコードから元のプログラム言語に自然に変換したり、コードから設計仕様を抽出してもとの設計仕様との齟齬を見つけたり。
少し前までは夢物語だったけど、ここ2年のTransformer、BERTを出発点とした自然言語処理の発展を見ると10年後は分からない。
Re: (スコア:0)
今回の件に対応するのは、インストラクションセットが現存していないマシン語でも挙動を理解できるって話かと。
Re: (スコア:0)
ポケコンの謎CPUのインストラクションセット解析やったなあ
ポケコンのBasicに
peek poke callがあって
メモリマップドレジスタだったから
1バイト書き込んでcallしてRetっぽいコード見つけて
次に命令長調べてさらにBasicで半自動化学習型逆アセンブラ作って
海外向けにはそのCPUのデータシートが存在してたことを知ったけど
いいんだ無駄な作業でも楽しかったから
正解は? (スコア:0)
越後製菓
じゃなくて解読したアウトプットが正しいってどうやって確認すんの?
まあ、人力による解読や歴史の研究にもつきまとう問題だけど。
Re: (スコア:0)
火山が噴火したとか○○王が結婚したとかそういう記述を見つけたら既知の記録と突合せるんじゃね
Re: (スコア:0)
記憶と合わすをやるとマンデラエフェクトが!
最近のまとめサイトは事象に対するタイトルが故意に歪めれていて人間様でも非常に困る。
Yahoo! Japan 他のニュースタイトルもミスリードで読んでもらおうとしてるし。
Re: (スコア:0)
その点スラドはミスリードではなくミスで読んでもらおうとするところが他とは一線を画しているよな
Re: (スコア:0)
太陽が暗くなった
空に新しい星が出現した
とかだと、隔絶された文明でも照合可能ですね。
Re: (スコア:0)
科学全般に言えるイチャモンだな
どれだけ体系のつじつまが合ってるか、現実をよく説明できるかにすぎない
Re: (スコア:0)
造水機が故障した
どうせラテン系言語だけでしょう? (スコア:0)
さすがに同じアルゴリズムで日本語を英語に解読出来たら、すごいと思うが、所詮、ラテン系の類縁言語だけに有効なものでしょう?
Re: (スコア:0)
戦後すぐまでに書かれた達筆な崩し字も判読していただきたい。
Re:どうせラテン系言語だけでしょう? (スコア:1)
それはすでにあります
くずし字OCR(AIくずし字認識)
http://codh.rois.ac.jp/char-shape/OCR/ [rois.ac.jp]
Re: (スコア:0)
そっちは凸版印刷が既にやってる
Re: (スコア:0)
「達筆な崩し字」は、慣れると簡単に読めるんです。ホントです。
読むだけでなく、現代でもボールペン字の生徒募集で美しい崩し字の書き方なんて売り文句があったりします。
問題は、大方の現代日本人から見てどちらも同じ崩し字のように見えても、実は単に字がへたくそなだけで、当時でもコレ読めねえよ、って字を書く人が相当数いたことです。
そういう人が書いた文書を解読するには、同じ日本語なのにさっぱりわからん文書を書いた本人のその当時の生活環境とか書くに至った経緯とか、そっちのほうの情報を取り出す方法論とか、また別の研究テーマになりそう。
COBOL (スコア:0)
COBOL「私は不滅です」
Re: (スコア:0, おもしろおかしい)
ははあ、これは20世紀後半から21世紀初頭に流行した脳死状態におけるCOBOLdisり症ですねえ。
最近珍しい症例ですなあ。
この病気の困るところは、このCOBOLが代表例ですが、いくらdisったところで、どんな言語でも、そのソースコードの一行一行は、ぜんぜん、ちっとも、まるで、超、すごく、明らかに、明確すぎるほど、同じ意味しか持たない、別の解釈なんかできようがない、まさしく「プログラム」、そう、単なる「手順」であることが理解できないのがね・・・いやはや。
そこまで明確すぎる処理手順を見ても、それでもなお、(声を張り上げながら)当時の事情が分からないから、何を意図していたのかが分からないのが、古(巻き舌で)い言語を使ったシステムの問題なのがぜーんぜん理解できてませんね。
# 大和田常務編
Re: (スコア:0)
どんな言語でも、そのソースコードの一行一行は、ぜんぜん、ちっとも、まるで、超、すごく、明らかに、明確すぎるほど、同じ意味しか持たない、別の解釈なんかできようがない、まさしく「プログラム」、そう、単なる「手順」であることが理解できないのがね・・・
(特に初期の)COBOLは、処理系毎・実行環境毎に方言差が大きく、ソースコードの所々が、同じ意味を持たない、別の解釈されてしまい、ハングアップならまだしも、異常動作すらされ得る事が、普通にあると聞いていたのだが。
Re: (スコア:0)
聞けて良かったじゃないの。
(特に初期の)Cは、処理系毎・実行環境毎に方言差が大きく、ソースコードの所々が、同じ意味を持たない、別の解釈されてしまい、ハングアップならまだしも、異常動作すらされ得る事が、普通にあると聞いていたのだが。
あーら不思議。OBOLを抜いただけなのに応用が利くわね。
神狩り (スコア:0)
論理記号が2つしかなくて関係代名詞が13重になっていても人間の言葉に翻訳できるのだろうか
ヴォイニッチ手稿 (スコア:0)
解読出来たりして
#オカルト的な内容より、筆者の黒歴史的な内容の方が公表しづらそう
手法自体の新規性は無いが (スコア:0)
ウガリト語なんて粘土板が発見されて三年ほどで完全解読された、楔形文字アルファベットの分かりやすい言語。
未解読のものはそもそも音韻が不明。
統計的手法で頻出音や頻出形態素を割り出すのは第一次世界大戦の時代からされている。
まあそれを機械学習にやらせようってのだけが新規な部分。