Presentamos París: el primer modelo de difusión de pesos abiertos descentralizado del mundo. Lo llamamos París en honor a la ciudad que siempre ha sido un refugio para aquellos que crean sin permiso. París está abierto para investigación y uso comercial.
París hace algo que no debería funcionar. Es una combinación de modelos de difusión de expertos más pequeños preentrenados desde cero, en diferentes continentes en completa aislamiento. Absolutamente cero sincronización entre ellos durante el entrenamiento. Este protocolo de cero comunicación logra una calidad comparable a los enfoques distribuidos SOTA utilizando 14× menos datos y 16× menos computación. ¿Cómo? Consulta nuestro informe técnico completo y los pesos del modelo a continuación. Informe Técnico Completo: Pesos del Modelo:
Aquí está lo que hicimos de manera diferente. El entrenamiento distribuido típicamente utiliza técnicas de paralelismo como el paralelismo de datos, el paralelismo en tuberías, el paralelismo de modelos, etc. Todos requieren sincronización entre nodos de computación. Eliminamos este requisito por completo con Paris a través de la coincidencia de flujo descentralizada. Después del entrenamiento, construimos un DiTRouter ligero, también en completa aislamiento, que aprendió a seleccionar expertos en la inferencia basada en latentes ruidosos.
Los números. Paris logró resultados comparables a los enfoques descentralizados SOTA mientras utilizaba: 14× menos datos de entrenamiento (11M frente a 158M de imágenes) 16× menos computación (120 días de GPU A40 frente a ~1176 días de A100) Paris también supera a las líneas base de entrenamiento monolíticas. Nuestro enrutamiento Top-2 en DiT-B/2 alcanza un FID-50K de 22.60, una mejora de 7.04 puntos sobre el entrenamiento de un solo modelo (29.64).
Los resultados. Estas imágenes provienen de 8 expertos que nunca hablaron entre sí durante el entrenamiento. Creemos que si podemos escalar este enfoque, este es el primer paso real hacia la superinteligencia de código abierto. Pero eso requiere resolver algunos problemas realmente, realmente difíciles. Si estás interesado en ayudarnos a lograr esto mientras haces el mejor trabajo de código abierto de tu vida, ven a trabajar con nosotros,
523,67K