Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Présentation de Paris - le premier modèle de diffusion à poids ouverts décentralisé au monde.
Nous l'avons nommé Paris en hommage à la ville qui a toujours été un refuge pour ceux qui créent sans permission.
Paris est ouvert à la recherche et à l'utilisation commerciale.
Paris fait quelque chose qui ne devrait pas fonctionner.
C'est une combinaison de modèles de diffusion d'experts plus petits pré-entraînés depuis zéro, à travers différents continents en complète isolation. Absolument aucune synchronisation entre eux pendant l'entraînement.
Ce protocole de communication zéro atteint une qualité comparable aux approches distribuées SOTA en utilisant 14 fois moins de données et 16 fois moins de calcul.
Comment ? Consultez notre rapport technique complet et les poids du modèle ci-dessous.
Rapport technique complet :
Poids du modèle :

Voici ce que nous avons fait différemment.
L'entraînement distribué utilise généralement des techniques de parallélisme comme le parallélisme des données, le parallélisme en pipeline, le parallélisme des modèles, etc. Tous nécessitent une synchronisation entre les nœuds de calcul. Nous avons complètement supprimé cette exigence avec Paris grâce à l'appariement de flux décentralisé.
Après l'entraînement, nous avons construit un DiTRouter léger, également en complète isolation, qui a appris à sélectionner des experts lors de l'inférence en fonction de latents bruyants.

Les chiffres.
Paris a obtenu des résultats comparables aux approches décentralisées SOTA tout en utilisant :
14× moins de données d'entraînement (11M contre 158M d'images)
16× moins de calcul (120 jours GPU A40 contre ~1176 jours A100)
Paris l'emporte également contre les bases de formation monolithiques. Notre routage Top-2 sur DiT-B/2 atteint un FID-50K de 22,60, une amélioration de 7,04 points par rapport à l'entraînement d'un seul modèle (29,64).


Les résultats.
Ces images proviennent de 8 experts qui n'ont jamais communiqué entre eux pendant la formation.
Nous croyons que si nous pouvons étendre cette approche, c'est le premier véritable pas vers une superintelligence open source. Mais cela nécessite de résoudre encore quelques problèmes vraiment très difficiles. Si vous êtes intéressé à nous aider à atteindre cet objectif tout en réalisant le meilleur travail open source de votre vie, venez travailler avec nous,

523,66K
Meilleurs
Classement
Favoris

