一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

在我看来，rl 只是一个更可接受的说法，用来描述合成数据，而两年前我开始进行拒绝采样以制作 Hermes 1 时，大家并不喜欢这种数据。合成数据（包括半合成数据）自从 ChatGPT 发布以来就一直存在。

@gregcoppola5d @kalomaze 为了清楚起见，我们只需要大约 25 平方英尺的样本就能打破那个记录，显然 grok 为了实现这一点进行了大量且昂贵的强化学习。

@niklassheth @kalomaze 目前有效的都是围绕数据验证者或资格审查者的推广。这样一来，一切皆有可能。在线 rl 部分只是效率的提升。

10.11K

热门

排行

收藏