パリのご紹介 - 世界初の分散型トレーニング済みオープンウェイト拡散モデル。 私たちは、常に許可なく創作する人々の避難所であった街にちなんでパリと名付けました。 パリは研究および商業利用に開放されています。
パリはうまくいってはいけないことをします。 これは、完全に分離されたさまざまな大陸にまたがって、ゼロから事前トレーニングされた小規模な専門家の拡散モデルの組み合わせです。トレーニング中の相互の同期はまったくありません。 このゼロ通信プロトコルは、14×少ないデータと16×少ないコンピューティングを使用して、SOTA分散アプローチに匹敵する品質を実現します。 どう。以下の完全なテクニカルレポートとモデルの重量を参照してください。 テクニカルレポート全文: モデルの重み:
ここでは、私たちが違ったやり方をしました。 分散トレーニングでは、通常、データ並列処理、パイプライン並列処理、モデル並列処理などの並列処理手法を使用します。すべては、コンピューティングノード間の同期を必要とします。分散型フローマッチングにより、パリではこの要件を完全に削除しました。 トレーニング後、私たちは、ノイズの多い潜在物に基づいて推論の専門家を選択することを学習した、同じく完全に分離された軽量のDiTRouterを構築しました。
数字。 パリは、以下を使用しながら、SOTA 分散型アプローチに匹敵する結果を達成しました。 14×少ないトレーニングデータ(11M画像対158M画像) コンピューティングが 16× 少ない (A40 GPU 日数 120 日、A100 日数 ~1176 日) パリは、一枚岩のトレーニングベースラインに対しても勝利します。DiT-B/2 での Top-2 ルーティングは FID-50K の 22.60 に達し、単一モデル トレーニング (29.64) よりも 7.04 ポイント向上しています。
結果。 これらの画像は、トレーニング中にお互いに話したことのない8人の専門家からのものです。 このアプローチを拡張できれば、これがオープンソースの超知能への本当の第一歩になると信じています。しかし、そのためには、もっと本当に難しい問題を解決する必要があります。人生で最高のオープンソース作業を行いながら、これを達成するのを支援することに興味がある場合は、私たちと一緒に働きに来てください。
523.6K