多年來,我的團隊和合作者開發了許多流行的基準測試,例如 MMLU、MATH、APPS---對我們最新的基準 OMEGA Ω感到非常興奮: 🔍法學碩士真的可以在數學中跳出框框思考嗎? 一個探測 3 個泛化軸的新基準: 1️⃣ 探索性 2️⃣ 構圖 3️⃣ 變革性 顯示了當今前沿人工智慧和 RL 訓練在這些泛化維度上的局限性。 受到博登創造力類型的啟發,歐米茄通過編程生成的數據集超越了先前的基準,該數據集將精確控制與豐富的多樣性相結合。它跨越廣泛的數學領域,專門設計用於評估不同的概括和創造性推理軸。 透過隔離和量化細粒度故障模式,OMEGA 為推動法學碩士實現真正的數學創造力奠定了基礎,超越了機械熟練程度。 非常感謝我的博士後@YiyouSun @UCBerkeley領導這個項目,以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者!
Nouha Dziri
Nouha Dziri2025年6月25日
📢 法學碩士真的可以在數學中跳出框框推理嗎?或者他們只是重新混合了熟悉的策略? 請記住 DeepSeek R1、o1 在奧林匹克級別的數學上給我們留下了深刻的印象,但他們在簡單的算術😬上也失敗了 我們建立了一個基準來了解歐米茄→Ω 📐 💥 我們發現,儘管 RL 非常強大,但在編寫技能和創新新策略方面卻很困難,而這些策略在訓練中是看不到的。👇 工作 w. @UCBerkeley @allen_ai 關於我們學到🧵的線索
20.75K