多年来,我的团队和合作者开发了许多流行的基准测试,例如 MMLU、MATH、APPS---对我们最新的基准测试 OMEGA Ω感到非常兴奋: 🔍法学硕士真的能在数学中跳出框框思考吗? 探测 3 个概括轴的新基准: 1️⃣ 探索性 2️⃣ 构图 3️⃣ 变革性 显示了当今前沿人工智能和 RL 训练在这些泛化维度上的局限性。 受博登创造力类型的启发,欧米茄通过编程生成的数据集超越了以前的基准,该数据集将精确控制与丰富的多样性相结合。它跨越广泛的数学领域,明确设计用于评估不同的概括和创造性推理轴。 通过分离和量化细粒度故障模式,OMEGA 为推动 LLM 实现真正的数学创造力奠定了基础,超越了机械熟练程度。 非常感谢我的博士后@YiyouSun @UCBerkeley领导这个项目,以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者!
Nouha Dziri
Nouha Dziri2025年6月25日
📢 法学硕士真的能在数学中跳出框框推理吗?或者他们只是重新混合了熟悉的策略? 请记住,DeepSeek R1、o1 在奥林匹克水平的数学上给我们留下了深刻的印象,但他们在简单的算术😬方面也失败了 我们建立了一个基准,以找出欧米茄→Ω 📐 💥 我们发现,尽管 RL 非常强大,但在制定技能和创新新策略方面却很困难,而这些策略在训练中是没有看到的。👇 工作 w. @UCBerkeley @allen_ai 关于我们学到🧵的线索
20.75K