在我看來,rl 只是對合成數據的一種更可接受的說法,而兩年前我開始進行拒絕取樣以製作 Hermes 1 時,大家對此並不感興趣。 合成數據(包括半合成數據)自從 ChatGPT 出現以來就一直存在。
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/10月15日 14:33
那些模糊且不加解釋地說「RL 不是未來」的人總是讓我感到困惑 這就像把「無監督學習」視為不是未來一樣。
@gregcoppola5d @kalomaze 為了清楚起見,我們只需要約 25 sft 樣本就能打破那個紀錄,這肯定是 grok 進行了大量且昂貴的 rl 才達成的。
@niklassheth @kalomaze 目前有效的都是圍繞著數據的驗證者或資格者的推廣。這樣一來,所有事情都是可能的。線上的 RL 部分只是效率的提升。
10.59K