Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Grup & kolaborator saya telah mengembangkan banyak tolok ukur populer selama bertahun-tahun, misalnya, MMLU, MATH, APPS---sangat bersemangat dengan benchmark terbaru kami OMEGA Ω:
🔍Bisakah LLM benar-benar berpikir di luar kotak dalam matematika?
Tolok ukur baru yang menyelidiki 3 sumbu generalisasi:
1️⃣ Eksplorasi
2️⃣ Komposisi
3️⃣ Transformatif
menunjukkan keterbatasan AI perbatasan saat ini dan pelatihan RL dalam dimensi generalisasi ini.
Terinspirasi oleh tipologi kreativitas Boden, OMEGA maju melampaui tolok ukur sebelumnya dengan kumpulan data yang dihasilkan secara terprogram yang menggabungkan kontrol yang tepat dengan keragaman yang kaya. Mencakup berbagai domain matematika, ini secara eksplisit dirancang untuk mengevaluasi sumbu generalisasi dan penalaran kreatif yang berbeda.
Dengan mengisolasi dan mengukur mode kegagalan yang terperinci, OMEGA memberikan dasar untuk memajukan LLM menuju kreativitas matematika yang asli—di luar kemahiran mekanis.
Terima kasih banyak kepada postdoc saya @YiyouSun @UCBerkeley memimpin proyek ini, dan kolaborator luar biasa @nouhadziri @HannaHajishirzi @allen_ai dan rekan penulis lainnya!

25 Jun 2025
📢 Bisakah LLM benar-benar bernalar di luar kotak dalam matematika? Atau apakah mereka hanya mencampur ulang strategi yang sudah dikenal?
Ingat DeepSeek R1, o1 telah mengesankan kami dalam matematika tingkat Olimpiade tetapi juga mereka gagal dalam aritmatika 😬 sederhana
Kami membangun tolok ukur untuk mengetahui → OMEGA Ω 📐
💥 Kami menemukan bahwa meskipun sangat kuat, RL berjuang untuk menyusun keterampilan dan berinovasi strategi baru yang tidak terlihat selama pelatihan. 👇
Bekerja dengan @UCBerkeley @allen_ai
Utas tentang apa yang kami pelajari 🧵

20,75K
Teratas
Peringkat
Favorit