热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
在我看来,rl 只是一个更可接受的说法,用来描述合成数据,而两年前我开始进行拒绝采样以制作 Hermes 1 时,大家并不喜欢这种数据。
合成数据(包括半合成数据)自从 ChatGPT 发布以来就一直存在。

10月15日 14:33
那些模糊且没有解释地说“RL 不是未来”的人总是让我感到困惑。
这就像把“无监督学习”视为不是未来一样。
@gregcoppola5d @kalomaze 为了清楚起见,我们只需要大约 25 平方英尺的样本就能打破那个记录,显然 grok 为了实现这一点进行了大量且昂贵的强化学习。
@niklassheth @kalomaze 目前有效的都是围绕数据验证者或资格审查者的推广。这样一来,一切皆有可能。在线 rl 部分只是效率的提升。
10.11K
热门
排行
收藏