Moje skupina a spolupracovníci v průběhu let vyvinuli mnoho populárních benchmarků, např. MMLU, MATH, APPS---jsme nadšeni z našeho nejnovějšího benchmarku OMEGA Ω: 🔍Mohou LLM skutečně myslet mimo rámec v matematice? Nový benchmark zkoumající 3 osy zobecnění: 1️⃣ Průzkumné 2️⃣ Kompoziční 3️⃣ Transformační což ukazuje omezení dnešní hraniční umělé inteligence a trénování RL v těchto dimenzích zobecnění. Inspirována Bodenovou typologií kreativity, OMEGA překračuje předchozí benchmarky s programově generovanou datovou sadou, která kombinuje přesné ovládání s bohatou rozmanitostí. Pokrývá širokou škálu matematických domén a je výslovně navržen tak, aby hodnotil odlišné osy zobecnění a tvůrčího uvažování. Izolací a kvantifikací jemně odstupňovaných způsobů selhání poskytuje OMEGA základ pro posun LLM směrem ke skutečné matematické kreativitě – za hranicemi mechanických znalostí. Obrovské díky mému postdoktorandovi @YiyouSun @UCBerkeley vedení projektu a úžasným spolupracovníkům @nouhadziri @HannaHajishirzi @allen_ai a dalším spoluautorům!
Nouha Dziri
Nouha Dziri25. 6. 2025
📢 Mohou LLM skutečně uvažovat mimo rámec v matematice? Nebo jen remixují známé strategie? Vzpomeňte si na DeepSeek R1, o1 na nás zapůsobili v matematice na úrovni olympiády, ale také selhávali v jednoduché aritmetice 😬 Vytvořili jsme benchmark, abychom zjistili, → OMEGA Ω 📐 💥 Zjistili jsme, že i když je RL velmi silný, má potíže se skládáním dovedností a inovacemi nových strategií, které nebyly během tréninku k vidění. 👇 práce s @UCBerkeley @allen_ai Vlákno o tom, co jsme se naučili 🧵
20,6K