Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentiamo Paris - il primo modello di diffusione decentralizzato con pesi aperti al mondo.
L'abbiamo chiamato Paris in onore della città che è sempre stata un rifugio per coloro che creano senza permesso.
Paris è aperto per la ricerca e l'uso commerciale.
Parigi fa qualcosa che non dovrebbe funzionare.
È una combinazione di modelli di diffusione esperti più piccoli pre-addestrati da zero, su diversi continenti in completa isolamento. Assolutamente zero sincronizzazione tra di loro durante l'addestramento.
Questo protocollo di comunicazione zero raggiunge una qualità comparabile agli approcci distribuiti SOTA utilizzando 14× meno dati e 16× meno calcolo.
Come? Vedi il nostro rapporto tecnico completo e i pesi del modello qui sotto.
Rapporto Tecnico Completo:
Pesi del Modello:

Ecco cosa abbiamo fatto di diverso.
L'addestramento distribuito utilizza tipicamente tecniche di parallelismo come il parallelismo dei dati, il parallelismo a pipeline, il parallelismo del modello, ecc. Tutte richiedono sincronizzazione tra i nodi di calcolo. Abbiamo rimosso completamente questo requisito con Paris attraverso il matching del flusso decentralizzato.
Dopo l'addestramento, abbiamo costruito un DiTRouter leggero, anch'esso in completa isolamento, che ha imparato a selezionare esperti durante l'inferenza basandosi su latenti rumorosi.

I numeri.
Paris ha ottenuto risultati comparabili agli approcci decentralizzati SOTA utilizzando:
14× meno dati di addestramento (11M contro 158M immagini)
16× meno calcolo (120 giorni GPU A40 contro ~1176 giorni A100)
Paris vince anche contro le basi di addestramento monolitiche. Il nostro routing Top-2 su DiT-B/2 raggiunge un FID-50K di 22.60, un miglioramento di 7.04 punti rispetto all'addestramento con un singolo modello (29.64).


I risultati.
Queste immagini provengono da 8 esperti che non hanno mai parlato tra loro durante la formazione.
Crediamo che se possiamo scalare questo approccio, questo sia il primo vero passo verso la superintelligenza open source. Ma ciò richiede di risolvere alcuni problemi davvero, davvero difficili. Se sei interessato ad aiutarci a raggiungere questo obiettivo mentre fai il miglior lavoro open source della tua vita, vieni a lavorare con noi,

523,6K
Principali
Ranking
Preferiti