المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📢 هل يمكن لطلاب القانون حقا التفكير خارج الصندوق في الرياضيات؟ أم أنهم مجرد إعادة مزج استراتيجيات مألوفة؟
تذكر أن DeepSeek R1 ، o1 قد أثارت إعجابنا في الرياضيات على مستوى الأولمبياد ولكنهم أيضا كانوا يفشلون في الحساب 😬 البسيط
لقد قمنا ببناء معيار لمعرفة → أوميغا Ω 📐
💥 وجدنا أنه على الرغم من قوته الشديدة، إلا أن RL يكافح من أجل تكوين المهارات وابتكار استراتيجيات جديدة لم يتم رؤيتها أثناء التدريب. 👇
العمل مع @UCBerkeley @allen_ai
خيط حول ما تعلمناه 🧵

🤯 لاحظنا أن العديد من الإخفاقات لا تنبع من نقص المعرفة ولكن من الإفراط في التفكير. غالبا ما تجد النماذج الإجابة الصحيحة في وقت مبكر من CoT ، ولكنها تدور في التصحيحات الذاتية وتتخلى عن الحلول الصحيحة. هذا يتحدى الافتراض:
المزيد من CoT ≠ نتائج أفضل
في بعض الأحيان ، يمكن أن تأتي آليات التصحيح الذاتي للنماذج بنتائج عكسية عن غير قصد

🔁 هل يمكن أن يعمم RL بشكل فعال من المشاكل السهلة إلى الصعبة؟ نجد مكاسب مبكرة قوية ، لكن التعميم يستقر مع تعقيد المهمة
يعطي التدريب على المستويات 1-4 دفعة قوية للمشاكل داخل المجال ، على سبيل المثال في المستوى 1 (📈 0.45 → 0.80 بعد RL).
ولكن عندما نزيد من الصعوبة
📉 ينخفض الأداء على نفس عائلة المشكلة.
⚠️ هناك حدود لمدى امتداد الاستراتيجيات المكتسبة

🧠 التعميم التحويلي؟
لا يزال بعيد المنال. عندما يعتمد النجاح على اختراع استراتيجية حل جديدة (على سبيل المثال ، التماثل الذكي بدلا من القوة الغاشمة) ، تفشل النماذج باستمرار حتى بعد RL.
يمكن أن يعزز RL الأداء بشكل كبير في المهام التي تتبع أنماطا مألوفة لوحظت أثناء التدريب ، فهي تكافح عندما يعتمد النجاح على البصيرة الإبداعية أو استراتيجيات التفكير غير الموضحة صراحة في البيانات.

170.16K
الأفضل
المُتصدِّرة
التطبيقات المفضلة