Представляем Париж - первую в мире децентрализованную модель диффузии с открытыми весами. Мы назвали её Париж в честь города, который всегда был убежищем для тех, кто создает без разрешения. Париж открыт для исследований и коммерческого использования.
Париж делает то, что не должно работать. Это комбинация меньших экспертных диффузионных моделей, предварительно обученных с нуля, на разных континентах в полной изоляции. Абсолютно никакой синхронизации между собой во время обучения. Этот нулевой протокол связи достигает сопоставимого качества с SOTA распределенными подходами, используя в 14 раз меньше данных и в 16 раз меньше вычислительных ресурсов. Как? Смотрите наш полный технический отчет и веса модели ниже. Полный технический отчет: Веса модели:
Вот что мы сделали по-другому. Распределенное обучение обычно использует техники параллелизма, такие как параллелизм данных, конвейерный параллелизм, параллелизм модели и т.д. Все они требуют синхронизации между вычислительными узлами. Мы полностью убрали эту необходимость с помощью Paris через децентрализованное соответствие потоков. После обучения мы создали легковесный DiTRouter, также в полной изоляции, который научился выбирать экспертов на этапе вывода на основе шумных латентов.
Цифры. Paris достиг сопоставимых результатов с SOTA децентрализованными подходами, используя: в 14 раз меньше обучающих данных (11M против 158M изображений) в 16 раз меньше вычислительных ресурсов (120 A40 GPU-дней против ~1176 A100-дней) Paris также выигрывает у монолитных базовых моделей обучения. Наш Top-2 маршрутизация на DiT-B/2 достигает FID-50K в 22.60, что на 7.04 пункта лучше, чем обучение с использованием одной модели (29.64).
Результаты. Эти изображения были получены от 8 экспертов, которые никогда не общались друг с другом во время обучения. Мы считаем, что если мы сможем масштабировать этот подход, это будет первый настоящий шаг к открытой суперинтеллектуальности. Но для этого нужно решить еще несколько действительно сложных задач. Если вы заинтересованы в том, чтобы помочь нам достичь этого, выполняя лучшую работу с открытым исходным кодом в вашей жизни, приходите работать с нами,
523,59K