数学特化の大規模言語モデル「WizardMath」

数学特化の大規模言語モデル「WizardMath」 19

ストーリー by nagazou 2023年08月29日 13時32分
特化部門より

米Microsoftと中国科学院の研究者が「WizardMath」という大規模な数学特化の言語モデルを開発した（論文、ITmedia）。このモデルは、数学的な推論能力を向上させることを目指している。このモデルは、オープンソースの事前学習済み大規模言語モデル（LLM）である「Llama-2」に対して適用することで実現する。Llamaモデルシリーズはオープンソースの大規模言語モデルで、クローズドソースのモデルとの差を縮める役割を果たしているが、数学や科学のような多段階の推論が求められる場面には課題があったとされる。

研究ではこの問題点に着目し、Llama-2の数学的推論能力を向上させる手法「WizardMath」を提案。「Reinforcement Learning from Evol-Instruct Feedback」（RLEIF）という新しい手法を用いてLlama-2の数学的推論能力を向上させたという。実験の結果、WizardMathは数学的推論ベンチマークであるGSM8kとMATHにおいて、他のオープンソースの言語モデルを大きく上回る性能を示したそうだ。具体的には、GSM8kでは+24.8、MATHでは+9.2の向上が見られたとのこと。また、OpenAIのChatGPT-3.5やAnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルに比べても、特にGSM8kの成績においてはWizardMathは優れた性能を発揮していたとしている。

Kuritsukasa 曰く、

AGIに近づいているかと思われていたAI開発だけど、ここに来て数学特化型のLLMが登場

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索19コメント Log In/Create an Account

アピリッツはもう始めているだろうか？ (スコア:0)

by Anonymous Coward on 2023年08月29日 14時05分 (#4518989)

アレゲ特化の大規模言語モデル「GojiBanzai」
- Re: (スコア:0)
  
  by Anonymous Coward
  
  hylomが第1世代で、nagazouが第2世代だぞ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    第１世代のほうが質が高かったような気もする…
証明とかできるのかな (スコア:0)

by Anonymous Coward on 2023年08月29日 14時23分 (#4519000)

たとえば宇宙際タイヒミュラー理論を証明してみるとか
こういうの (スコア:0)

by Anonymous Coward on 2023年08月29日 15時09分 (#4519023)

数学の自動定理証明はNP問題だからできないだの、形式証明では不十分で数学者の直感的な理解が重要だので、結局人間がやらないといけないとか言われてたね。
大規模言語モデルがあればその辺解決すると期待できる。
なにより普通のLLMなら話していてかなり人間的な思考をしてるように見えるから、数学でもやってくれそう。
学習元データはあるし仮にも数学者が「論文を学習させんな」とは言わないだろう。
出力は大抵ゴミだろうけど、定理検証アルゴリズムにまで通せるくらいなら数うちゃ当たる。
24時間大量に廻せばその内すごいのを証明してくれる。
頑張れ！数学者を首にしてしまえ！
- Re:こういうの (スコア:2)
  
  by TarZ (28055) on 2023年08月29日 15時29分 (#4519033) 日記
  
  。o 〇（証明は人間に代わってAIがやってくれるようになるかもしれないけど、新しい問題を創る方もお任せできそうなのかしら）
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    横だがAI自体が新たな問題で（色々な意味で）
- Re: (スコア:0)
  
  by Anonymous Coward
  
  個数を数えたり計算が苦手なイメージがあるけど実用になるんだろうか？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    この前スラドで話題になった女性宅の暗証番号ボタンに透明塗料、特殊な光あて4桁を特定 [security.srad.jp]の話で、4桁の数字の組み合わせがどれだけあるか議論になって
    4桁それぞれ数字が違う場合はすぐに解けるのだけど、2つ3つ同じ数字がある場合はすこしもめてた。
    ChatGPT3.5に解かせたらさんざんな結果 [srad.jp]だったので、同じくChatGPT3.5使った
- Re: (スコア:0)
  
  by Anonymous Coward
  
  NPで済むなら不完全性定理なんて成り立たなかったね
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    P=NP? 問題は対角線論法で解けないから不完全性定理は関係ないだろ。NPで済むはずないのは正しいが(「決定不可能」クラス)
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    証明可能な定理に関しては、証明文の長さをnとしてNP問題だね。
    証明不可能なものは最悪永遠に分からない。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    そもそもNPって決定問題のクラスだから出力はYes/Noなわけで、自動証明ってのを証明の文字列を出力することと解釈するとまるで別物だったり
GPT-4に負けてる (スコア:0)

by Anonymous Coward on 2023年08月29日 16時02分 (#4519043)

専門特化したモデルより優秀な汎用モデルってすごいな。
いまのところ、GPT-3.5に比肩するモデルは複数登場しているが、GPT-4を超えたモデルは誰も開発できていないように見える。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  いや、例えばGPT-4はエロ表現が禁止だから、そういう点で部分的にGPT-4を超えたモデルはたくさんあるでしょう。
  (ここを禁止すると相当色々なものがスポイルされると思うけど…)
  - - Re: (スコア:0)
      
      by Anonymous Coward
      
      いや、横からだが、否定から入りたくなる事はあるよな。内容によっては
- Re: (スコア:0)
  
  by Anonymous Coward
  
  OpenAI自身ですら、GPT-4のモデルを更新したら前より馬鹿になったと言われてるし
Llama-2はオープンソースではない (スコア:0)

by Anonymous Coward on 2023年08月29日 17時43分 (#4519092)

ITmediaの記事でもオープンソースを連呼しているが、いろいろ制約がついていてOSDに適合するオープンソースには程遠い。
Metaでさえこの調子だから、てっきりAI界隈ではこれが常識なんだと思って前のストーリーでは主語を大きくしてしまったので東京大学松尾研究室が過ちを認めたのは結構意外だった

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

アピリッツはもう始めているだろうか？ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

証明とかできるのかな (スコア:0)

こういうの (スコア:0)

Re:こういうの (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

GPT-4に負けてる (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Llama-2はオープンソースではない (スコア:0)