从我的角度来看,rl 只是一个更可接受的说法,用来描述两年前我开始进行拒绝采样以制作 Hermes 1 时大家并不喜欢的合成数据。 合成数据(包括半合成数据)自 ChatGPT 发布以来就一直存在。