私のグループと共同研究者は、MMLU、MATH、APPSなど、長年にわたって多くの人気のあるベンチマークを開発してきました---最新のベンチマークであるOMEGA Ωに非常に興奮しています。 🔍LLMは本当に数学で既成概念にとらわれずに考えることができますか? 一般化の3つの軸を調査する新しいベンチマーク: 1️(2)探索的 2️(2)コンポジション 3️(2)トランスフォーマティブ 今日のフロンティアAIとRLトレーニングの限界を、これらの一般化の次元で示しています。 ボーデンの創造性の類型学に触発されたオメガは、正確な制御と豊かな多様性を兼ね備えたプログラムによって生成されたデータセットにより、以前のベンチマークを超えて進歩しています。幅広い数学的領域にまたがり、一般化と創造的推論の異なる軸を評価するように明示的に設計されています。 OMEGAは、きめ細かな故障モードを分離して定量化することで、LLMを機械的な熟練度を超えた真の数学的創造性へと前進させるための基盤を提供します。 プロジェクトを率いるポスドク@YiyouSun @UCBerkeley、素晴らしい協力者、@nouhadziri @HannaHajishirzi @allen_ai、その他の共著者に心から感謝します。
Nouha Dziri
Nouha Dziri2025年6月25日
📢 LLMは本当に数学の枠外で推論できますか?それとも、おなじみの戦略をリミックスしているだけなのでしょうか? DeepSeek R1、o1は、オリンピアードレベルの数学で私たちに感銘を与えましたが、単純な算術😬でも失敗していたことを思い出してください OMEGA Ω→を見つけるためのベンチマークを構築しました 📐 💥 RLは非常に強力ですが、スキルを構成したり、トレーニング中には見られなかった新しい戦略を革新したりするのに苦労していることがわかりました。👇 @UCBerkeley @allen_aiの仕事 私たちが学んだ🧵ことのスレッド
20.7K