Posting blog baru! Yang ini adalah teoritis murni yang mencoba mengidentifikasi alasan utama mengapa LLM menderita runtuhnya mode di RL dan gagal menghasilkan output baru atau benar-benar beragam. Ini sebenarnya masalah yang jauh lebih rumit daripada yang Anda pikirkan! Secara naif mendorong eksplorasi dengan suhu yang lebih tinggi, regulasi entropi keluaran, metrik pass@k, dll. tidak cukup untuk menghindari eksplorasi kemacetan selama RL. Artikel ini mengusulkan teori baru mengapa hal ini terjadi dan bagaimana menyelesaikannya, yaitu dengan menggunakan pembelajaran penguatan terdesentralisasi untuk menciptakan "ekosistem" model daripada hanya satu contoh terpusat.