منشور مدونة جديد! هذا هو واحد نظري بحت يحاول تحديد السبب المركزي وراء معاناة LLMs من انهيار الوضع في RL والفشل في توليد مخرجات جديدة أو متنوعة حقا. إنها في الواقع مشكلة أكثر تعقيدا مما تعتقد! إن تشجيع الاستكشاف بسذاجة عن طريق درجات الحرارة المرتفعة ، وتنظيم إنتروبيا الإخراج ، ومقاييس pass@k وما إلى ذلك ، ليس كافيا لتجنب استكشاف عنق الزجاجة أثناء RL. يقترح المقال نظرية جديدة حول سبب حدوث ذلك وكيفية حلها ، أي باستخدام التعلم المعزز اللامركزي لإنشاء "نظام بيئي" من النماذج بدلا من مجرد مثيل مركزي واحد.