📢 هل يمكن لطلاب القانون حقا التفكير خارج الصندوق في الرياضيات؟ أم أنهم مجرد إعادة مزج استراتيجيات مألوفة؟ تذكر أن DeepSeek R1 ، o1 قد أثارت إعجابنا في الرياضيات على مستوى الأولمبياد ولكنهم أيضا كانوا يفشلون في الحساب 😬 البسيط لقد قمنا ببناء معيار لمعرفة → أوميغا Ω 📐 💥 وجدنا أنه على الرغم من قوته الشديدة، إلا أن RL يكافح من أجل تكوين المهارات وابتكار استراتيجيات جديدة لم يتم رؤيتها أثناء التدريب. 👇 العمل مع @UCBerkeley @allen_ai خيط حول ما تعلمناه 🧵
🤯 لاحظنا أن العديد من الإخفاقات لا تنبع من نقص المعرفة ولكن من الإفراط في التفكير. غالبا ما تجد النماذج الإجابة الصحيحة في وقت مبكر من CoT ، ولكنها تدور في التصحيحات الذاتية وتتخلى عن الحلول الصحيحة. هذا يتحدى الافتراض: المزيد من CoT ≠ نتائج أفضل في بعض الأحيان ، يمكن أن تأتي آليات التصحيح الذاتي للنماذج بنتائج عكسية عن غير قصد
🔁 هل يمكن أن يعمم RL بشكل فعال من المشاكل السهلة إلى الصعبة؟ نجد مكاسب مبكرة قوية ، لكن التعميم يستقر مع تعقيد المهمة يعطي التدريب على المستويات 1-4 دفعة قوية للمشاكل داخل المجال ، على سبيل المثال في المستوى 1 (📈 0.45 → 0.80 بعد RL). ولكن عندما نزيد من الصعوبة 📉 ينخفض الأداء على نفس عائلة المشكلة. ⚠️ هناك حدود لمدى امتداد الاستراتيجيات المكتسبة
🧠 التعميم التحويلي؟ لا يزال بعيد المنال. عندما يعتمد النجاح على اختراع استراتيجية حل جديدة (على سبيل المثال ، التماثل الذكي بدلا من القوة الغاشمة) ، تفشل النماذج باستمرار حتى بعد RL. يمكن أن يعزز RL الأداء بشكل كبير في المهام التي تتبع أنماطا مألوفة لوحظت أثناء التدريب ، فهي تكافح عندما يعتمد النجاح على البصيرة الإبداعية أو استراتيجيات التفكير غير الموضحة صراحة في البيانات.
‏‎170.16‏K