一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

在我看來，rl 只是對合成數據的一種更可接受的說法，而兩年前我開始進行拒絕取樣以製作 Hermes 1 時，大家對此並不感興趣。合成數據（包括半合成數據）自從 ChatGPT 出現以來就一直存在。

@gregcoppola5d @kalomaze 為了清楚起見，我們只需要約 25 sft 樣本就能打破那個紀錄，這肯定是 grok 進行了大量且昂貴的 rl 才達成的。

@niklassheth @kalomaze 目前有效的都是圍繞著數據的驗證者或資格者的推廣。這樣一來，所有事情都是可能的。線上的 RL 部分只是效率的提升。

10.59K

熱門

排行

收藏