新しい投稿:nanochat ミニシリーズ v1 LLMを正しく考えるのは、単一のモデルに最適化しているのではなく、単一のダイヤル(あなたが使いたい計算量)で制御するファミリーモデルに対して最適化しているということです。単調により良い結果を得るために。これにより、スケーリング法則の慎重な科学的検証が可能になり、「大きなラン」に支払った際にその外挿がうまく機能し、お金が有効に使われるという自信が得られます。nanochatの最初の公開リリースでは、LLMパイプライン全体とそのステージを動かすエンドツーエンドパイプラインに焦点を当てました。さっき数回YOLOを経験した後、今回は急いで進めた部分を肉付けするために戻ってきています。もちろん、まずは計算負荷が高く、これらのモデルにおける知性と知識の基盤として重要なプレトレーニングから始めます。 ローカルでいくつかのハイパーパラメータを調整した後、FLOPの予算を修正していくつかのモデルをスイープアウトしました。(すべてのFLOPターゲットに対して、小さなモデルを長期間、大きなモデルを短期間訓練できます。)実はnanochatは非常に良いスケーリング法則に従い、基本的にチンチラの紙プロットを再現しています: これはチンチラのこのプロットの赤ちゃん版に過ぎません: 非常に重要で希望になるのは、N(パラメータ)とD(トークン)の指数が~=0.5で等しいため、Chinchillaのようにモデルサイズとトークンのトレーニング範囲を関連付ける単一の(計算に依存しない)定数が得られる点です。チンチラでは20と測定されました。nanochatでは8のようです! 計算最適モデルの訓練ができるようになったら、d10からd20までのミニシリーズをスイープしました。d20はナノチャットサイズで、8XH100ノードで勾配蓄積なしで2*19~= 0.5Mバッチサイズを処理できます。各モデルサイズごとに、きれいな反復のないトレーニングプロットが得られます。 そして面白いのは、このミニシリーズv1をGPT-2やGPT-3のミニシリーズと関連付けて、正しい方向に進んでいることを確認することです。検証損失には多くの問題があり比較できないため、代わりにDCLMの論文に基づくCOREスコアを使います。GPT-2で計算し、GPT-3で見積もったことで、ナノチャットを同じスケールでうまく配置できるようになりました。 このミニシリーズの総制作費はわずか~$100(8XH100では~4時間)です。これらの実験は、すべてが比較的順調に動作しているという自信を与え、より多く支払えば(ダイヤルを回す)より良いモデルが手に入るという自信を与えてくれます。 要約:計算最適なミニシリーズを訓練し、客観的なCOREスコアを通じてGPT-2/3と関連付けることは可能ですが、さらなる改善は望ましく必要です。例えば、GPT-2を合わせるには現在~500ドル必要ですが、個人的にはもっと手間をかければ<$100で済むと思います。 詳細がより詳しい全文はこちらです: そしてすべてのチューニングやコードはマスターされ、人々はscaling_laws .shやミニシリーズ、バッシュ脚本で再現.shできます。