Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Moje skupina a spolupracovníci v průběhu let vyvinuli mnoho populárních benchmarků, např. MMLU, MATH, APPS---jsme nadšeni z našeho nejnovějšího benchmarku OMEGA Ω:
🔍Mohou LLM skutečně myslet mimo rámec v matematice?
Nový benchmark zkoumající 3 osy zobecnění:
1️⃣ Průzkumné
2️⃣ Kompoziční
3️⃣ Transformační
což ukazuje omezení dnešní hraniční umělé inteligence a trénování RL v těchto dimenzích zobecnění.
Inspirována Bodenovou typologií kreativity, OMEGA překračuje předchozí benchmarky s programově generovanou datovou sadou, která kombinuje přesné ovládání s bohatou rozmanitostí. Pokrývá širokou škálu matematických domén a je výslovně navržen tak, aby hodnotil odlišné osy zobecnění a tvůrčího uvažování.
Izolací a kvantifikací jemně odstupňovaných způsobů selhání poskytuje OMEGA základ pro posun LLM směrem ke skutečné matematické kreativitě – za hranicemi mechanických znalostí.
Obrovské díky mému postdoktorandovi @YiyouSun @UCBerkeley vedení projektu a úžasným spolupracovníkům @nouhadziri @HannaHajishirzi @allen_ai a dalším spoluautorům!

25. 6. 2025
📢 Mohou LLM skutečně uvažovat mimo rámec v matematice? Nebo jen remixují známé strategie?
Vzpomeňte si na DeepSeek R1, o1 na nás zapůsobili v matematice na úrovni olympiády, ale také selhávali v jednoduché aritmetice 😬
Vytvořili jsme benchmark, abychom zjistili, → OMEGA Ω 📐
💥 Zjistili jsme, že i když je RL velmi silný, má potíže se skládáním dovedností a inovacemi nových strategií, které nebyly během tréninku k vidění. 👇
práce s @UCBerkeley @allen_ai
Vlákno o tom, co jsme se naučili 🧵

20,6K
Top
Hodnocení
Oblíbené