Meta ha appena pubblicato questo documento che svela il segreto della reinforcement learning (RL) sugli LLM. Presenta una ricetta per la RL, utilizza 400.000 ore GPU e propone una legge di scalabilità per le prestazioni con più calcolo nella RL, simile alle classiche leggi di scalabilità del pre-addestramento. Da leggere assolutamente per gli appassionati di AI.
Fonte:
95,06K