📢 Les LLM peuvent-ils vraiment raisonner en dehors des sentiers battus en mathématiques ? Ou ne font-ils que remixer des stratégies familières ? Rappelez-vous que DeepSeek R1, o1 nous a impressionnés avec des mathématiques de niveau Olympiade, mais ils échouaient aussi à des calculs simples 😬 Nous avons construit un benchmark pour le découvrir → OMEGA Ω 📐 💥 Nous avons découvert que, bien que très puissants, les RL ont du mal à composer des compétences et à innover de nouvelles stratégies qui n'avaient pas été vues pendant l'entraînement. 👇 travail avec @UCBerkeley @allen_ai Un fil sur ce que nous avons appris 🧵
🤯 Nous avons remarqué que de nombreux échecs ne proviennent pas d'un manque de connaissances, mais d'une réflexion excessive. Les modèles trouvent souvent la bonne réponse tôt dans le CoT, mais s'engagent dans des auto-corrections et abandonnent des solutions correctes. Cela remet en question l'hypothèse : Plus de CoT ≠ meilleurs résultats Parfois, les mécanismes d'auto-correction des modèles peuvent involontairement se retourner contre eux.
🔁 L'IA peut-elle généraliser efficacement des problèmes faciles à des problèmes difficiles ? Nous constatons de forts gains précoces, mais la généralisation se stabilise avec la complexité des tâches. S'entraîner sur les niveaux 1 à 4 donne un solide coup de pouce sur les problèmes en domaine, par exemple au niveau 1 (📈 0,45 → 0,80 après l'IA). MAIS lorsque nous augmentons la difficulté 📉 les performances chutent sur la même famille de problèmes. ⚠️ Il y a des limites à la distance que les stratégies apprises peuvent atteindre.
🧠 Généralisation transformative ? Toujours hors de portée. Lorsque le succès dépend de l'invention d'une nouvelle stratégie de solution (par exemple, une symétrie astucieuse au lieu de la force brute), les modèles échouent systématiquement même après l'apprentissage par renforcement. L'apprentissage par renforcement peut améliorer considérablement les performances sur des tâches qui suivent des schémas familiers observés pendant l'entraînement, mais il peine lorsque le succès dépend d'une intuition créative ou de stratégies de raisonnement non explicitement démontrées dans les données.
170,17K