トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
私の観点からすると、rl は、2 年前に Hermes 1 を作るために拒否サンプリングを始めたとき、誰もがファンではなかった合成データのより許容できる言い方です。
合成データ(半合成データを含む)は、ChatGPTが登場して以来存在しています。

10月15日 14:33
漠然と、説明もなく、RLは未来ではないと言う人々は、いつも私を混乱させます
それは「教師なし学習」を「未来ではない」と片付けるようなものです
@gregcoppola5d @kalomaze わかりやすくするために、grokが達成するために強烈で高価なrlを達成した記録を破るのに必要なのは~25 sftのサンプルだけでした
@niklassheth @kalomaze 機能しているものはすべて、データの検証者または修飾子を使用した回転的なロールアウトです。それがあれば、すべてのことが可能になります。オンラインのrl部分は単なる効率向上です
10.6K
トップ
ランキング
お気に入り