📢 LLM真的能在数学上跳出框框思考吗?还是说它们只是重新组合熟悉的策略? 记得DeepSeek R1,o1在奥林匹克级别的数学上给我们留下了深刻印象,但它们在简单的算术上却也失败了😬 我们建立了一个基准来找出答案→OMEGA Ω 📐 💥 我们发现,尽管非常强大,RL在组合技能和创新未在训练中见过的新策略方面仍然存在困难。👇 与@UCBerkeley @allen_ai合作 关于我们所学到的内容的讨论🧵
🤯 我们注意到,许多失败并非源于知识的缺乏,而是由于过度思考。模型通常在链式推理的早期找到正确答案,但却陷入自我修正,放弃了正确的解决方案。这挑战了一个假设: 更多的链式推理 ≠ 更好的结果 有时,模型的自我修正机制可能会无意中适得其反。
🔁 强化学习能否有效地从简单问题推广到困难问题?我们发现早期有显著的提升,但随着任务复杂度的增加,推广效果趋于平稳。 在1-4级的训练对领域内问题提供了很大的提升,例如在1级(📈 0.45 → 0.80经过强化学习)。 但是当我们增加难度时, 📉 在同一问题家族上的表现下降。 ⚠️ 学习到的策略有其伸展的极限。
🧠 变革性概括? 仍然遥不可及。当成功依赖于发明新的解决策略(例如,巧妙的对称而不是蛮力)时,模型即使在强化学习(RL)之后也会持续失败。 强化学习可以显著提高在训练期间观察到的熟悉模式下的任务表现,但当成功依赖于创造性洞察或未在数据中明确展示的推理策略时,它却显得力不从心。
170.12K