介紹巴黎 - 世界首個去中心化的訓練開放權重擴散模型。 我們以巴黎命名,因為這座城市一直是那些無需許可創作的人的避風港。 巴黎對研究和商業用途開放。
巴黎做了一件不應該成功的事情。 這是一種從零開始預訓練的小型專家擴散模型的組合,分佈在不同大陸,完全孤立。訓練過程中彼此之間絕對沒有同步。 這種零通信協議在使用14倍更少的數據和16倍更少的計算資源的情況下,達到了與SOTA分佈式方法相當的質量。 怎麼做到的?請參閱我們的完整技術報告和模型權重。 完整技術報告: 模型權重:
我們所做的不同之處在於。 分散式訓練通常使用平行技術,如數據平行、管道平行、模型平行等。所有這些都需要計算節點之間的同步。我們通過去中心化流匹配完全消除了這一要求。 訓練後,我們建立了一個輕量級的 DiTRouter,同樣在完全隔離的情況下,學會根據噪聲潛變量在推理時選擇專家。
數字。 巴黎在使用以下條件下達到了與SOTA去中心化方法相當的結果: 使用了14倍更少的訓練數據(11M對比158M圖像) 計算量少了16倍(120 A40 GPU天對比約1176 A100天) 巴黎在單一訓練基準上也表現更佳。我們在DiT-B/2上的Top-2路由達到了FID-50K的22.60,比單模型訓練(29.64)提高了7.04點。
結果。 這些圖像來自8位在訓練期間從未互相交談的專家。 我們相信,如果我們能擴展這種方法,這將是邁向開源超智能的第一步。但這需要解決一些更難的問題。如果你有興趣在做你一生中最好的開源工作時幫助我們實現這一目標,來和我們一起工作吧,
523.6K