.@willccbb (Pemimpin Penelitian, Prime Intellect) tentang cara kerja lingkungan RL:
"Lingkungan pada dasarnya adalah eval. Anda memiliki tugas input, harness, dan pada akhirnya menilai bagaimana kinerja model atau agen Anda. Itulah pengaturan yang kami gunakan untuk pelatihan eval dan RL."
Dia menambahkan bahwa masa depan bukan hanya tentang "mendapatkan 100.000 GPU dalam satu cluster raksasa."
Saya telah mengembangkan lingkungan selama seminggu terakhir ini. Saya percaya ini dapat memperbaiki kebutuhan lingkungan RL massa. Ada banyak hal menarik dan keren untuk diuji, termasuk lingkungan proofing Lean4 multi-putaran yang terinspirasi StepRunProver yang telah saya buat.