数学特化の大規模言語モデル「WizardMath」 19
ストーリー by nagazou
特化 部門より
特化 部門より
米Microsoftと中国科学院の研究者が「WizardMath」という大規模な数学特化の言語モデルを開発した(論文、ITmedia)。
このモデルは、数学的な推論能力を向上させることを目指している。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。Llamaモデルシリーズはオープンソースの大規模言語モデルで、クローズドソースのモデルとの差を縮める役割を果たしているが、数学や科学のような多段階の推論が求められる場面には課題があったとされる。
研究ではこの問題点に着目し、Llama-2の数学的推論能力を向上させる手法「WizardMath」を提案。「Reinforcement Learning from Evol-Instruct Feedback」(RLEIF)という新しい手法を用いてLlama-2の数学的推論能力を向上させたという。実験の結果、WizardMathは数学的推論ベンチマークであるGSM8kとMATHにおいて、他のオープンソースの言語モデルを大きく上回る性能を示したそうだ。具体的には、GSM8kでは+24.8、MATHでは+9.2の向上が見られたとのこと。また、OpenAIのChatGPT-3.5やAnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルに比べても、特にGSM8kの成績においてはWizardMathは優れた性能を発揮していたとしている。
Kuritsukasa 曰く、
研究ではこの問題点に着目し、Llama-2の数学的推論能力を向上させる手法「WizardMath」を提案。「Reinforcement Learning from Evol-Instruct Feedback」(RLEIF)という新しい手法を用いてLlama-2の数学的推論能力を向上させたという。実験の結果、WizardMathは数学的推論ベンチマークであるGSM8kとMATHにおいて、他のオープンソースの言語モデルを大きく上回る性能を示したそうだ。具体的には、GSM8kでは+24.8、MATHでは+9.2の向上が見られたとのこと。また、OpenAIのChatGPT-3.5やAnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルに比べても、特にGSM8kの成績においてはWizardMathは優れた性能を発揮していたとしている。
Kuritsukasa 曰く、
AGIに近づいているかと思われていたAI開発だけど、ここに来て数学特化型のLLMが登場
アピリッツはもう始めているだろうか? (スコア:0)
アレゲ特化の大規模言語モデル「GojiBanzai」
Re: (スコア:0)
hylomが第1世代で、nagazouが第2世代だぞ
Re: (スコア:0)
第1世代のほうが質が高かったような気もする…
証明とかできるのかな (スコア:0)
たとえば宇宙際タイヒミュラー理論を証明してみるとか
こういうの (スコア:0)
数学の自動定理証明はNP問題だからできないだの、形式証明では不十分で数学者の直感的な理解が重要だので、結局人間がやらないといけないとか言われてたね。
大規模言語モデルがあればその辺解決すると期待できる。
なにより普通のLLMなら話していてかなり人間的な思考をしてるように見えるから、数学でもやってくれそう。
学習元データはあるし仮にも数学者が「論文を学習させんな」とは言わないだろう。
出力は大抵ゴミだろうけど、定理検証アルゴリズムにまで通せるくらいなら数うちゃ当たる。
24時間大量に廻せばその内すごいのを証明してくれる。
頑張れ!数学者を首にしてしまえ!
Re:こういうの (スコア:2)
。o 〇(証明は人間に代わってAIがやってくれるようになるかもしれないけど、新しい問題を創る方もお任せできそうなのかしら)
Re: (スコア:0)
横だがAI自体が新たな問題で(色々な意味で)
Re: (スコア:0)
個数を数えたり計算が苦手なイメージがあるけど実用になるんだろうか?
Re: (スコア:0)
この前スラドで話題になった女性宅の暗証番号ボタンに透明塗料、特殊な光あて4桁を特定 [security.srad.jp]の話で、4桁の数字の組み合わせがどれだけあるか議論になって
4桁それぞれ数字が違う場合はすぐに解けるのだけど、2つ3つ同じ数字がある場合はすこしもめてた。
ChatGPT3.5に解かせたらさんざんな結果 [srad.jp]だったので、同じくChatGPT3.5使った
Re: (スコア:0)
NPで済むなら不完全性定理なんて成り立たなかったね
Re: (スコア:0)
P=NP? 問題は対角線論法で解けないから不完全性定理は関係ないだろ。NPで済むはずないのは正しいが(「決定不可能」クラス)
Re: (スコア:0)
証明可能な定理に関しては、証明文の長さをnとしてNP問題だね。
証明不可能なものは最悪永遠に分からない。
Re: (スコア:0)
そもそもNPって決定問題のクラスだから出力はYes/Noなわけで、自動証明ってのを証明の文字列を出力することと解釈するとまるで別物だったり
GPT-4に負けてる (スコア:0)
専門特化したモデルより優秀な汎用モデルってすごいな。
いまのところ、GPT-3.5に比肩するモデルは複数登場しているが、GPT-4を超えたモデルは誰も開発できていないように見える。
Re: (スコア:0)
いや、例えばGPT-4はエロ表現が禁止だから、そういう点で部分的にGPT-4を超えたモデルはたくさんあるでしょう。
(ここを禁止すると相当色々なものがスポイルされると思うけど…)
Re: (スコア:0)
いや、横からだが、否定から入りたくなる事はあるよな。内容によっては
Re: (スコア:0)
OpenAI自身ですら、GPT-4のモデルを更新したら前より馬鹿になったと言われてるし
Llama-2はオープンソースではない (スコア:0)
ITmediaの記事でもオープンソースを連呼しているが、いろいろ制約がついていてOSDに適合するオープンソースには程遠い。
Metaでさえこの調子だから、てっきりAI界隈ではこれが常識なんだと思って前のストーリーでは主語を大きくしてしまったので東京大学松尾研究室が過ちを認めたのは結構意外だった