Einführung von Paris - dem weltweit ersten dezentralen, trainierten Open-Weight-Diffusionsmodell. Wir haben es Paris genannt, nach der Stadt, die immer ein Zufluchtsort für diejenigen war, die ohne Erlaubnis schaffen. Paris steht für Forschungs- und kommerzielle Nutzung offen.
Paris macht etwas, das nicht funktionieren sollte. Es ist eine Kombination aus kleineren Experten-Diffusionsmodellen, die von Grund auf neu trainiert wurden, über verschiedene Kontinente hinweg in vollständiger Isolation. Absolut null Synchronisation untereinander während des Trainings. Dieses Null-Kommunikationsprotokoll erreicht eine vergleichbare Qualität zu SOTA-verteilten Ansätzen unter Verwendung von 14× weniger Daten und 16× weniger Rechenleistung. Wie? Siehe unseren vollständigen technischen Bericht und die Modellgewichte unten. Vollständiger technischer Bericht: Modellgewichte:
Hier ist, was wir anders gemacht haben. Verteiltes Training verwendet typischerweise Parallelitätstechniken wie Datenparallelität, Pipeline-Parallelität, Modellparallelität usw. Alle erfordern eine Synchronisation zwischen den Rechenknoten. Wir haben diese Anforderung vollständig mit Paris durch dezentrales Fluss-Matching entfernt. Nach dem Training haben wir einen leichten DiTRouter entwickelt, ebenfalls in vollständiger Isolation, der gelernt hat, Experten bei der Inferenz basierend auf verrauschten latenten Variablen auszuwählen.
Die Zahlen. Paris erzielte vergleichbare Ergebnisse zu SOTA-dezentralen Ansätzen, während es: 14× weniger Trainingsdaten verwendete (11M vs 158M Bilder) 16× weniger Rechenleistung benötigte (120 A40 GPU-Tage vs ~1176 A100-Tage) Paris gewinnt auch gegen monolithische Trainings-Baselines. Unser Top-2-Routing auf DiT-B/2 erreicht einen FID-50K von 22,60, eine Verbesserung um 7,04 Punkte gegenüber dem Training mit einem einzelnen Modell (29,64).
Die Ergebnisse. Diese Bilder stammen von 8 Experten, die während des Trainings nie miteinander gesprochen haben. Wir glauben, dass dies der erste echte Schritt in Richtung Open-Source-Superintelligenz ist, wenn wir diesen Ansatz skalieren können. Aber das erfordert die Lösung einiger wirklich, wirklich harter Probleme. Wenn Sie daran interessiert sind, uns zu helfen, dies zu erreichen, während Sie die beste Open-Source-Arbeit Ihres Lebens leisten, kommen Sie zu uns.
523,64K