熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
多年來,我的團隊和合作者開發了許多流行的基準測試,例如 MMLU、MATH、APPS---對我們最新的基準 OMEGA Ω感到非常興奮:
🔍法學碩士真的可以在數學中跳出框框思考嗎?
一個探測 3 個泛化軸的新基準:
1️⃣ 探索性
2️⃣ 構圖
3️⃣ 變革性
顯示了當今前沿人工智慧和 RL 訓練在這些泛化維度上的局限性。
受到博登創造力類型的啟發,歐米茄通過編程生成的數據集超越了先前的基準,該數據集將精確控制與豐富的多樣性相結合。它跨越廣泛的數學領域,專門設計用於評估不同的概括和創造性推理軸。
透過隔離和量化細粒度故障模式,OMEGA 為推動法學碩士實現真正的數學創造力奠定了基礎,超越了機械熟練程度。
非常感謝我的博士後@YiyouSun @UCBerkeley領導這個項目,以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者!

2025年6月25日
📢 法學碩士真的可以在數學中跳出框框推理嗎?或者他們只是重新混合了熟悉的策略?
請記住 DeepSeek R1、o1 在奧林匹克級別的數學上給我們留下了深刻的印象,但他們在簡單的算術😬上也失敗了
我們建立了一個基準來了解歐米茄→Ω 📐
💥 我們發現,儘管 RL 非常強大,但在編寫技能和創新新策略方面卻很困難,而這些策略在訓練中是看不到的。👇
工作 w. @UCBerkeley @allen_ai
關於我們學到🧵的線索

20.75K
熱門
排行
收藏