Presentamos París: el primer modelo de difusión de peso abierto entrenado descentralizado del mundo. Lo llamamos París en honor a la ciudad que siempre ha sido un refugio para quienes crean sin permiso. París está abierto para la investigación y el uso comercial.
Paris hace algo que no debería funcionar. Es una combinación de modelos de difusión expertos más pequeños preentrenados desde cero, en diferentes continentes en completo aislamiento. Absolutamente cero sincronización entre ellos durante el entrenamiento. Este protocolo de comunicación cero logra una calidad comparable a los enfoques distribuidos de SOTA utilizando un 14× menos de datos y un 16× menos de cómputo. ¿Cómo? Vea nuestro informe técnico completo y los pesos de los modelos a continuación. Informe técnico completo: Pesos del modelo:
Esto es lo que hicimos de manera diferente. El entrenamiento distribuido suele utilizar técnicas de paralelismo como paralelismo de datos, paralelismo de canalización, paralelismo de modelos, etc. Todos requieren sincronización entre nodos de proceso. Eliminamos este requisito por completo con Paris a través de la coincidencia de flujo descentralizada. Después del entrenamiento, construimos un DiTRouter liviano, también en completo aislamiento, que aprendió a seleccionar expertos en inferencia basados en latentes ruidosos.
Los números. París logró resultados comparables a los enfoques descentralizados de SOTA utilizando lo siguiente: 14× menos datos de entrenamiento (11 millones frente a 158 millones de imágenes) 16× menos de cómputo (120 días de GPU A40 frente a ~1176 días A100) Paris también gana contra líneas de base de entrenamiento monolíticas. Nuestro enrutamiento Top-2 en DiT-B/2 alcanza FID-50K de 22.60, una mejora de 7.04 puntos con respecto al entrenamiento de un solo modelo (29.64).
Los resultados. Estas imágenes provienen de 8 expertos que nunca se hablaron entre sí durante el entrenamiento. Creemos que si podemos escalar este enfoque, este es el primer paso real hacia la superinteligencia de código abierto. Pero eso requiere resolver algunos problemas más muy, muy difíciles. Si está interesado en ayudarnos a lograr esto mientras hace el mejor trabajo de código abierto de su vida, venga a trabajar con nosotros,
523.6K