Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przedstawiamy Paris - pierwszy na świecie zdecentralizowany model dyfuzji z otwartą wagą.
Nazwaliśmy go Paris na cześć miasta, które zawsze było schronieniem dla tych, którzy tworzą bez pozwolenia.
Paris jest otwarty na badania i komercyjne wykorzystanie.
Paryż robi coś, co nie powinno działać.
To połączenie mniejszych modeli dyfuzji ekspertów, które zostały wstępnie wytrenowane od podstaw, na różnych kontynentach w całkowitej izolacji. Absolutnie zero synchronizacji między sobą podczas treningu.
Ten protokół zerowej komunikacji osiąga porównywalną jakość do SOTA rozproszonych podejść, używając 14× mniej danych i 16× mniej mocy obliczeniowej.
Jak? Zobacz nasz pełny raport techniczny i wagi modelu poniżej.
Pełny raport techniczny:
Wagi modelu:

Oto co zrobiliśmy inaczej.
Rozproszone uczenie zazwyczaj wykorzystuje techniki równoległości, takie jak równoległość danych, równoległość potokowa, równoległość modeli itp. Wszystkie wymagają synchronizacji między węzłami obliczeniowymi. Całkowicie usunęliśmy ten wymóg dzięki Paris poprzez zdecentralizowane dopasowywanie przepływu.
Po treningu zbudowaliśmy lekkiego DiTRoutera, również w całkowitej izolacji, który nauczył się wybierać ekspertów podczas wnioskowania na podstawie szumowych latencji.

Liczby.
Paris osiągnął porównywalne wyniki z podejściami SOTA w zakresie zdecentralizowanych metod, używając:
14× mniej danych treningowych (11M vs 158M obrazów)
16× mniej mocy obliczeniowej (120 dni GPU A40 vs ~1176 dni A100)
Paris również wygrywa w porównaniu do monolitycznych bazowych modeli treningowych. Nasze Top-2 routowanie na DiT-B/2 osiąga FID-50K równy 22.60, co stanowi poprawę o 7.04 punktu w porównaniu do treningu z jednym modelem (29.64).


Wyniki.
Te obrazy pochodzą od 8 ekspertów, którzy nigdy nie rozmawiali ze sobą podczas szkolenia.
Wierzymy, że jeśli uda nam się skalować to podejście, będzie to pierwszy prawdziwy krok w kierunku otwartej superinteligencji. Ale to wymaga rozwiązania jeszcze kilku naprawdę trudnych problemów. Jeśli jesteś zainteresowany pomocą w osiągnięciu tego, wykonując najlepszą pracę open-source w swoim życiu, dołącz do nas,

523,66K
Najlepsze
Ranking
Ulubione

