Meta刚刚发布了一篇论文,揭示了强化学习(RL)在大型语言模型(LLMs)上的秘密配方。 它列出了一个RL配方,使用了400,000个GPU小时,并提出了一个关于在RL中随着计算能力增加而提升性能的扩展法则,类似于经典的预训练扩展法则。 对于AI爱好者来说,必读。
来源:
95.07K