Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📢 ¿Pueden los LLM realmente razonar fuera de la caja en matemáticas? ¿O simplemente están remezclando estrategias conocidas?
Recuerde que DeepSeek R1, o1 nos ha impresionado en matemáticas de nivel olímpico, pero también estaban fallando en aritmética 😬 simple
Construimos un punto de referencia para descubrir → OMEGA Ω 📐
💥 Descubrimos que, a pesar de ser muy poderoso, RL tiene dificultades para componer habilidades e innovar nuevas estrategias que no se vieron durante el entrenamiento. 👇
Trabajo con @UCBerkeley @allen_ai
Un hilo sobre lo que aprendimos 🧵

🤯 Nos dimos cuenta de que muchos fracasos no se deben a la falta de conocimiento, sino a pensar demasiado. Los modelos a menudo encuentran la respuesta correcta al principio de la CoT, pero caen en una espiral de autocorrecciones y abandonan las soluciones correctas. Esto desafía la suposición:
Más CoT ≠ mejores resultados
A veces, los mecanismos de autocorrección de los modelos pueden ser contraproducentes inadvertidamente

🔁 ¿Puede RL generalizar efectivamente de problemas fáciles a difíciles? Encontramos fuertes ganancias iniciales, pero la generalización se estanca con la complejidad de la tarea
El entrenamiento en los niveles 1 a 4 da un impulso sólido en los problemas dentro del dominio, por ejemplo, en el nivel 1 (📈 0,45 → 0,80 después de RL).
PERO cuando aumentamos la dificultad
📉 El rendimiento disminuye en la misma familia de problemas.
⚠️ Hay límites en cuanto a hasta dónde pueden llegar las estrategias aprendidas

🧠 ¿Generalización transformadora?
Todavía fuera de su alcance. cuando el éxito depende de la invención de una nueva estrategia de solución (por ejemplo, una simetría inteligente en lugar de la fuerza bruta), los modelos fallan sistemáticamente incluso después de RL.
RL puede mejorar sustancialmente el rendimiento en tareas que siguen patrones familiares observados durante el entrenamiento, tiene dificultades cuando el éxito depende de la visión creativa o de estrategias de razonamiento que no se demuestran explícitamente en los datos.

170.12K
Populares
Ranking
Favoritas