Представляємо Paris - першу в світі децентралізовану навчену дифузійну модель з відкритою вагою. Ми назвали його Парижем на честь міста, яке завжди було прихистком для тих, хто творить без дозволу. Париж відкритий для досліджень і комерційного використання.
Париж робить те, що не повинно працювати. Це комбінація менших експертних дифузійних моделей, попередньо навчених з нуля, на різних континентах у повній ізоляції. Абсолютно нульова синхронізація між собою під час тренувань. Цей протокол нульового зв'язку досягає якості, порівнянної з розподіленими підходами SOTA, використовуючи на 14× менше даних і на 16× менше обчислень. Як? Дивіться наш повний технічний звіт та вагу моделі нижче. Повний технічний звіт: Вага моделі:
Ось що ми зробили по-іншому. Розподілене навчання зазвичай використовує методи паралелізму, такі як паралелізм даних, паралелізм конвеєрів, паралелізм моделей тощо. Всі вони вимагають синхронізації між обчислювальними вузлами. Ми повністю видалили цю вимогу з Парижем за допомогою децентралізованого узгодження потоків. Після навчання ми побудували легкий DiTRouter, також у повній ізоляції, який навчився відбирати експертів при висновках на основі зашумлених латент.
Цифри. Компанія Paris досягла порівнянних результатів з децентралізованими підходами SOTA, використовуючи такі можливості: 14× менше даних тренувань (11 млн проти 158 млн зображень) 16× менше обчислень (120 A40 GPU-днів проти ~1176 A100 днів) Париж також виграє у монолітних тренувальних баз. Наш Топ-2 маршрут на DiT-B/2 досягає FID-50K 22,60, що на 7,04 бала більше, ніж у тренуванні з однією моделлю (29,64).
Результати. Ці зображення надійшли від 8 експертів, які ніколи не розмовляли один з одним під час тренувань. Ми вважаємо, що якщо ми зможемо масштабувати цей підхід, це перший реальний крок до суперінтелекту з відкритим вихідним кодом. Але для цього потрібно вирішити ще кілька дійсно складних проблем. Якщо ви зацікавлені в тому, щоб допомогти нам досягти цього, виконуючи при цьому найкращу роботу з відкритим вихідним кодом у своєму житті, приходьте працювати з нами,
523,64K