Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📢 Могут ли LLM действительно мыслить нестандартно в математике? Или они просто смешивают знакомые стратегии?
Помните DeepSeek R1, o1, которые впечатлили нас математикой на уровне Олимпиады, но также они не справлялись с простой арифметикой 😬
Мы создали эталон для выяснения → OMEGA Ω 📐
💥 Мы обнаружили, что, хотя они очень мощные, RL испытывает трудности с композицией навыков и инновациями новых стратегий, которые не были замечены во время обучения. 👇
работаем с @UCBerkeley @allen_ai
Нить о том, что мы узнали 🧵

🤯 Мы заметили, что многие неудачи происходят не из-за недостатка знаний, а из-за чрезмерного размышления. Модели часто находят правильный ответ на ранних этапах CoT, но впадают в самокоррекцию и отказываются от правильных решений. Это ставит под сомнение предположение:
Больше CoT ≠ лучшие результаты
Иногда механизмы самокоррекции моделей могут непреднамеренно сработать против них.

🔁 Может ли RL эффективно обобщать от простых к сложным задачам? Мы находим сильные ранние достижения, но обобщение достигает плато с увеличением сложности задачи.
Обучение на уровнях 1–4 дает солидный прирост на задачах в своей области, например, на уровне 1 (📈 0.45 → 0.80 после RL).
НО когда мы увеличиваем сложность
📉 производительность падает на той же группе задач.
⚠️ Существуют пределы того, насколько далеко могут растягиваться изученные стратегии.

🧠 Преобразующая обобщение?
Все еще недоступно. Когда успех зависит от изобретения новой стратегии решения (например, умная симметрия вместо грубой силы), модели постоянно терпят неудачу даже после RL.
RL может существенно улучшить производительность в задачах, которые следуют знакомым шаблонам, наблюдаемым во время обучения, но испытывает трудности, когда успех зависит от творческого понимания или стратегий рассуждения, которые не были явно продемонстрированы в данных.

170,18K
Топ
Рейтинг
Избранное