📢 Os LLMs podem realmente raciocinar fora da caixa em matemática? Ou eles estão apenas remixando estratégias familiares? Lembre-se de que o DeepSeek R1, o1 nos impressionou em matemática de nível olímpico, mas também estava falhando em aritmética 😬 simples Construímos um benchmark para descobrir → a OMEGA Ω 📐 💥 Descobrimos que, embora muito poderoso, o RL luta para compor habilidades e inovar novas estratégias que não foram vistas durante o treinamento. 👇 trabalho w. @UCBerkeley @allen_ai Um tópico sobre o que aprendemos 🧵
🤯 Percebemos que muitos fracassos não decorrem da falta de conhecimento, mas do excesso de pensamento. Os modelos geralmente encontram a resposta certa no início do CoT, mas entram em autocorreções e abandonam as soluções corretas. Isso desafia a suposição: Mais CoT ≠ melhores resultados Às vezes, os mecanismos de autocorreção dos modelos podem inadvertidamente sair pela culatra
🔁 A RL pode efetivamente generalizar de problemas fáceis para difíceis? Encontramos fortes ganhos iniciais, mas a generalização se estabiliza com a complexidade da tarefa O treinamento nos níveis 1–4 dá um impulso sólido em problemas de domínio, por exemplo, no nível 1 (📈 0,45 → 0,80 após RL). MAS quando aumentamos a dificuldade 📉 o desempenho cai na mesma família de problemas. ⚠️ Existem limites para o quão longe as estratégias aprendidas podem se estender
🧠 Generalização transformadora? Ainda fora de alcance. quando o sucesso depende da invenção de uma nova estratégia de solução (por exemplo, simetria inteligente em vez de força bruta), os modelos falham consistentemente mesmo após RL. A RL pode melhorar substancialmente o desempenho em tarefas que seguem padrões familiares observados durante o treinamento, ela luta quando o sucesso depende de insights criativos ou estratégias de raciocínio não explicitamente demonstradas nos dados.
170,19K