Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apresentando Paris - o primeiro modelo de difusão de pesos abertos descentralizado do mundo.
Nomeamos de Paris em homenagem à cidade que sempre foi um refúgio para aqueles que criam sem permissão.
Paris está aberto para pesquisa e uso comercial.
Paris faz algo que não deveria funcionar.
É uma combinação de modelos de difusão de especialistas menores pré-treinados do zero, em diferentes continentes em completa isolamento. Absolutamente nenhuma sincronização entre si durante o treinamento.
Este protocolo de zero comunicação alcança qualidade comparável a abordagens distribuídas SOTA usando 14× menos dados e 16× menos computação.
Como? Veja nosso relatório técnico completo e pesos do modelo abaixo.
Relatório Técnico Completo:
Pesos do Modelo:

Aqui está o que fizemos de diferente.
O treinamento distribuído normalmente utiliza técnicas de paralelismo como paralelismo de dados, paralelismo em pipeline, paralelismo de modelo, etc. Todas exigem sincronização entre os nós de computação. Removemos essa exigência completamente com o Paris através do emparelhamento de fluxo descentralizado.
Após o treinamento, construímos um DiTRouter leve, também em completa isolação, que aprendeu a selecionar especialistas na inferência com base em latentes ruidosos.

Os números.
Paris alcançou resultados comparáveis aos métodos descentralizados SOTA enquanto usava:
14× menos dados de treino (11M vs 158M imagens)
16× menos computação (120 dias de GPU A40 vs ~1176 dias de A100)
Paris também vence em relação às linhas de base de treino monolíticas. O nosso roteamento Top-2 no DiT-B/2 atinge FID-50K de 22.60, uma melhoria de 7.04 pontos em relação ao treino de modelo único (29.64).


Os resultados.
Estas imagens vieram de 8 especialistas que nunca se falaram durante o treinamento.
Acreditamos que, se conseguirmos escalar esta abordagem, este é o primeiro passo real em direção à superinteligência de código aberto. Mas isso requer resolver alguns problemas realmente, realmente difíceis. Se você estiver interessado em nos ajudar a alcançar isso enquanto faz o melhor trabalho de código aberto da sua vida, venha trabalhar conosco,

523,59K
Top
Classificação
Favoritos