热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
多年来,我的团队和合作者开发了许多流行的基准测试,例如 MMLU、MATH、APPS---对我们最新的基准测试 OMEGA Ω感到非常兴奋:
🔍法学硕士真的能在数学中跳出框框思考吗?
探测 3 个概括轴的新基准:
1️⃣ 探索性
2️⃣ 构图
3️⃣ 变革性
显示了当今前沿人工智能和 RL 训练在这些泛化维度上的局限性。
受博登创造力类型的启发,欧米茄通过编程生成的数据集超越了以前的基准,该数据集将精确控制与丰富的多样性相结合。它跨越广泛的数学领域,明确设计用于评估不同的概括和创造性推理轴。
通过分离和量化细粒度故障模式,OMEGA 为推动 LLM 实现真正的数学创造力奠定了基础,超越了机械熟练程度。
非常感谢我的博士后@YiyouSun @UCBerkeley领导这个项目,以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者!

2025年6月25日
📢 法学硕士真的能在数学中跳出框框推理吗?或者他们只是重新混合了熟悉的策略?
请记住,DeepSeek R1、o1 在奥林匹克水平的数学上给我们留下了深刻的印象,但他们在简单的算术😬方面也失败了
我们建立了一个基准,以找出欧米茄→Ω 📐
💥 我们发现,尽管 RL 非常强大,但在制定技能和创新新策略方面却很困难,而这些策略在训练中是没有看到的。👇
工作 w. @UCBerkeley @allen_ai
关于我们学到🧵的线索

20.75K
热门
排行
收藏