從我的角度來看,rl 只是對合成數據的一種更可接受的說法,而兩年前我開始進行拒絕取樣以製作 Hermes 1 時,大家並不喜歡這種說法。 合成數據(包括半合成數據)自從 ChatGPT 出現以來就一直存在。