Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📢 Será que os LLMs conseguem realmente raciocinar fora da caixa em matemática? Ou estão apenas remixando estratégias familiares?
Lembre-se do DeepSeek R1, o1 nos impressionou em matemática de nível Olimpíada, mas também falhou em aritmética simples 😬
Construímos um benchmark para descobrir → OMEGA Ω 📐
💥 Descobrimos que, embora sejam muito poderosos, os RL têm dificuldades em compor habilidades e inovar novas estratégias que não foram vistas durante o treinamento. 👇
trabalhe com @UCBerkeley @allen_ai
Um fio sobre o que aprendemos 🧵

🤯 Notámos que muitas falhas não decorrem da falta de conhecimento, mas sim do excesso de reflexão. Os modelos muitas vezes encontram a resposta certa cedo no CoT, mas entram em espirais de autocorreções e abandonam soluções corretas. Isso desafia a suposição:
Mais CoT ≠ melhores resultados
Às vezes, os mecanismos de autocorreção dos modelos podem, inadvertidamente, ter o efeito oposto.

🔁 A RL pode efetivamente generalizar de problemas fáceis para difíceis? Encontramos fortes ganhos iniciais, mas a generalização atinge um platô com a complexidade da tarefa.
Treinar nos níveis 1–4 dá um impulso sólido em problemas dentro do domínio, por exemplo, no nível 1 (📈 0.45 → 0.80 após RL).
MAS quando aumentamos a dificuldade
📉 o desempenho cai na mesma família de problemas.
⚠️ Existem limites para até onde as estratégias aprendidas podem se estender.

🧠 Generalização transformadora?
Ainda fora de alcance. Quando o sucesso depende da invenção de uma nova estratégia de solução (por exemplo, simetria inteligente em vez de força bruta), os modelos falham consistentemente mesmo após o RL.
O RL pode melhorar substancialmente o desempenho em tarefas que seguem padrões familiares observados durante o treinamento, mas tem dificuldades quando o sucesso depende de insights criativos ou estratégias de raciocínio não explicitamente demonstradas nos dados.

170,18K
Top
Classificação
Favoritos