トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新しい投稿:nanochat ミニシリーズ v1
LLMを正しく考えるのは、単一のモデルに最適化しているのではなく、単一のダイヤル(あなたが使いたい計算量)で制御するファミリーモデルに対して最適化しているということです。単調により良い結果を得るために。これにより、スケーリング法則の慎重な科学的検証が可能になり、「大きなラン」に支払った際にその外挿がうまく機能し、お金が有効に使われるという自信が得られます。nanochatの最初の公開リリースでは、LLMパイプライン全体とそのステージを動かすエンドツーエンドパイプラインに焦点を当てました。さっき数回YOLOを経験した後、今回は急いで進めた部分を肉付けするために戻ってきています。もちろん、まずは計算負荷が高く、これらのモデルにおける知性と知識の基盤として重要なプレトレーニングから始めます。
ローカルでいくつかのハイパーパラメータを調整した後、FLOPの予算を修正していくつかのモデルをスイープアウトしました。(すべてのFLOPターゲットに対して、小さなモデルを長期間、大きなモデルを短期間訓練できます。)実はnanochatは非常に良いスケーリング法則に従い、基本的にチンチラの紙プロットを再現しています:
これはチンチラのこのプロットの赤ちゃん版に過ぎません:
非常に重要で希望になるのは、N(パラメータ)とD(トークン)の指数が~=0.5で等しいため、Chinchillaのようにモデルサイズとトークンのトレーニング範囲を関連付ける単一の(計算に依存しない)定数が得られる点です。チンチラでは20と測定されました。nanochatでは8のようです!
計算最適モデルの訓練ができるようになったら、d10からd20までのミニシリーズをスイープしました。d20はナノチャットサイズで、8XH100ノードで勾配蓄積なしで2*19~= 0.5Mバッチサイズを処理できます。各モデルサイズごとに、きれいな反復のないトレーニングプロットが得られます。
そして面白いのは、このミニシリーズv1をGPT-2やGPT-3のミニシリーズと関連付けて、正しい方向に進んでいることを確認することです。検証損失には多くの問題があり比較できないため、代わりにDCLMの論文に基づくCOREスコアを使います。GPT-2で計算し、GPT-3で見積もったことで、ナノチャットを同じスケールでうまく配置できるようになりました。
このミニシリーズの総制作費はわずか~$100(8XH100では~4時間)です。これらの実験は、すべてが比較的順調に動作しているという自信を与え、より多く支払えば(ダイヤルを回す)より良いモデルが手に入るという自信を与えてくれます。
要約:計算最適なミニシリーズを訓練し、客観的なCOREスコアを通じてGPT-2/3と関連付けることは可能ですが、さらなる改善は望ましく必要です。例えば、GPT-2を合わせるには現在~500ドル必要ですが、個人的にはもっと手間をかければ<$100で済むと思います。
詳細がより詳しい全文はこちらです:
そしてすべてのチューニングやコードはマスターされ、人々はscaling_laws .shやミニシリーズ、バッシュ脚本で再現.shできます。




トップ
ランキング
お気に入り
