一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

📢 LLM真的能在数学上跳出框框思考吗？还是说它们只是重新组合熟悉的策略？记得DeepSeek R1，o1在奥林匹克级别的数学上给我们留下了深刻印象，但它们在简单的算术上却也失败了😬 我们建立了一个基准来找出答案→OMEGA Ω 📐 💥 我们发现，尽管非常强大，RL在组合技能和创新未在训练中见过的新策略方面仍然存在困难。👇 与@UCBerkeley @allen_ai合作关于我们所学到的内容的讨论🧵

🤯 我们注意到，许多失败并非源于知识的缺乏，而是由于过度思考。模型通常在链式推理的早期找到正确答案，但却陷入自我修正，放弃了正确的解决方案。这挑战了一个假设：更多的链式推理 ≠ 更好的结果有时，模型的自我修正机制可能会无意中适得其反。

🔁 强化学习能否有效地从简单问题推广到困难问题？我们发现早期有显著的提升，但随着任务复杂度的增加，推广效果趋于平稳。在1-4级的训练对领域内问题提供了很大的提升，例如在1级（📈 0.45 → 0.80经过强化学习）。但是当我们增加难度时， 📉 在同一问题家族上的表现下降。 ⚠️ 学习到的策略有其伸展的极限。

🧠 变革性概括？仍然遥不可及。当成功依赖于发明新的解决策略（例如，巧妙的对称而不是蛮力）时，模型即使在强化学习（RL）之后也会持续失败。强化学习可以显著提高在训练期间观察到的熟悉模式下的任务表现，但当成功依赖于创造性洞察或未在数据中明确展示的推理策略时，它却显得力不从心。

170.12K