私の将来の rl は、2 年前に私が Hermes 1 を作るために拒絶サンプリングを始めたとき、誰もがファンではなかった合成データのより許容できる言い方です。 合成データ(半合成データを含む)は、ChatGPTが登場して以来存在しています。