失われた言語で書かれた文書を解読するアルゴリズム 55
ストーリー by headless
解読 部門より
解読 部門より
既に失われた言語で書かれた文書を機械学習により解読するアルゴリズムをMIT CSAILなどの研究グループが開発し、研究成果を発表している(CSAILのニュース記事、 論文: PDF)。
失われた言語の解読は人間の専門家がしばしば数十年の時をかけて骨の折れる作業の末に実現されてきた。研究グループのうち3名は昨年、ウガリット語や線文字Bといった失われた言語をアルゴリズムが解読できることを示しているが、対象言語の語族がわかっていることや、単語の境界が示されていることが前提となっていた。
これらの前提を2つとも満たさない未解読の言語として、イベリア語が挙げられる。イベリア語の文書では単語同士が必ずしも分離されておらず、近縁の言語についても研究者の意見が一致していない。今回のアルゴリズムはこういった前提条件を緩和し、主に言語的制約を手掛かりとして解読を行う。
言語的制約はこれまでも利用されていたが、研究グループは言語の進化の過程で特定の音韻が失われた場合には類似した音韻に置き換えられる可能性が高く、全く異なる音韻に置き換えられる可能性は低いといった言語的制約を追加。これにより、文書を単語単位に分割し、近い関係にある言語の同根語に割り当てることが可能となる。
新しいアルゴリズムはイベリア語のほか、既に解読されているゴート語やウガリット語を使用した検証を行い、単語間の分割が不十分な言語を効果的に解読できることが示された。副産物として、失われた言語の語族を検出できることも確認されている。また、アルゴリズムが各音韻の特徴を多次元的にマッピングするため、失われた言語の発音の復元に向けた出発点になることも期待されるとのことだ。
失われた言語の解読は人間の専門家がしばしば数十年の時をかけて骨の折れる作業の末に実現されてきた。研究グループのうち3名は昨年、ウガリット語や線文字Bといった失われた言語をアルゴリズムが解読できることを示しているが、対象言語の語族がわかっていることや、単語の境界が示されていることが前提となっていた。
これらの前提を2つとも満たさない未解読の言語として、イベリア語が挙げられる。イベリア語の文書では単語同士が必ずしも分離されておらず、近縁の言語についても研究者の意見が一致していない。今回のアルゴリズムはこういった前提条件を緩和し、主に言語的制約を手掛かりとして解読を行う。
言語的制約はこれまでも利用されていたが、研究グループは言語の進化の過程で特定の音韻が失われた場合には類似した音韻に置き換えられる可能性が高く、全く異なる音韻に置き換えられる可能性は低いといった言語的制約を追加。これにより、文書を単語単位に分割し、近い関係にある言語の同根語に割り当てることが可能となる。
新しいアルゴリズムはイベリア語のほか、既に解読されているゴート語やウガリット語を使用した検証を行い、単語間の分割が不十分な言語を効果的に解読できることが示された。副産物として、失われた言語の語族を検出できることも確認されている。また、アルゴリズムが各音韻の特徴を多次元的にマッピングするため、失われた言語の発音の復元に向けた出発点になることも期待されるとのことだ。