在我看来,rl 只是一个更可接受的说法,用来描述合成数据,而两年前我开始进行拒绝采样以制作 Hermes 1 时,大家并不喜欢这种数据。 合成数据(包括半合成数据)自从 ChatGPT 发布以来就一直存在。
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/10月15日 14:33
那些模糊且没有解释地说“RL 不是未来”的人总是让我感到困惑。 这就像把“无监督学习”视为不是未来一样。
@gregcoppola5d @kalomaze 为了清楚起见,我们只需要大约 25 平方英尺的样本就能打破那个记录,显然 grok 为了实现这一点进行了大量且昂贵的强化学习。
@niklassheth @kalomaze 目前有效的都是围绕数据验证者或资格审查者的推广。这样一来,一切皆有可能。在线 rl 部分只是效率的提升。
10.11K