一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

多年来，我的团队和合作者开发了许多流行的基准测试，例如 MMLU、MATH、APPS---对我们最新的基准测试 OMEGA Ω感到非常兴奋： 🔍法学硕士真的能在数学中跳出框框思考吗？探测 3 个概括轴的新基准： 1️⃣ 探索性 2️⃣ 构图 3️⃣ 变革性显示了当今前沿人工智能和 RL 训练在这些泛化维度上的局限性。受博登创造力类型的启发，欧米茄通过编程生成的数据集超越了以前的基准，该数据集将精确控制与丰富的多样性相结合。它跨越广泛的数学领域，明确设计用于评估不同的概括和创造性推理轴。通过分离和量化细粒度故障模式，OMEGA 为推动 LLM 实现真正的数学创造力奠定了基础，超越了机械熟练程度。非常感谢我的博士后@YiyouSun @UCBerkeley领导这个项目，以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者！