Meta baru saja menjatuhkan makalah ini yang menumpahkan saus rahasia pembelajaran penguatan (RL) pada LLM. Ini menjabarkan resep RL, menggunakan 400.000 jam GPU dan mengemukakan hukum penskalaan untuk kinerja dengan lebih banyak komputasi di RL, seperti hukum penskalaan prapelatihan klasik. Harus dibaca untuk kutu buku AI.
Sumber:
95,07K