私の観点からすると、rl は、2 年前に Hermes 1 を作るために拒否サンプリングを始めたとき、誰もがファンではなかった合成データのより許容できる言い方です。 合成データ(半合成データを含む)は、ChatGPTが登場して以来存在しています。
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/10月15日 14:33
漠然と、説明もなく、RLは未来ではないと言う人々は、いつも私を混乱させます それは「教師なし学習」を「未来ではない」と片付けるようなものです
@gregcoppola5d @kalomaze わかりやすくするために、grokが達成するために強烈で高価なrlを達成した記録を破るのに必要なのは~25 sftのサンプルだけでした
@niklassheth @kalomaze 機能しているものはすべて、データの検証者または修飾子を使用した回転的なロールアウトです。それがあれば、すべてのことが可能になります。オンラインのrl部分は単なる効率向上です
10.6K