المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
منشور مدونة جديد! هذا هو واحد نظري بحت يحاول تحديد السبب المركزي وراء معاناة LLMs من انهيار الوضع في RL والفشل في توليد مخرجات جديدة أو متنوعة حقا. إنها في الواقع مشكلة أكثر تعقيدا مما تعتقد!
إن تشجيع الاستكشاف بسذاجة عن طريق درجات الحرارة المرتفعة ، وتنظيم إنتروبيا الإخراج ، ومقاييس pass@k وما إلى ذلك ، ليس كافيا لتجنب استكشاف عنق الزجاجة أثناء RL.
يقترح المقال نظرية جديدة حول سبب حدوث ذلك وكيفية حلها ، أي باستخدام التعلم المعزز اللامركزي لإنشاء "نظام بيئي" من النماذج بدلا من مجرد مثيل مركزي واحد.

الأفضل
المُتصدِّرة
التطبيقات المفضلة

