介绍巴黎——全球首个去中心化的训练开放权重扩散模型。 我们将其命名为巴黎,以纪念这个一直是那些无须许可进行创造者的避风港的城市。 巴黎开放用于研究和商业用途。
巴黎做了一件不应该成功的事情。 这是一个从零开始预训练的小型专家扩散模型的组合,跨越不同的大陆,完全孤立。训练期间彼此之间绝对没有同步。 这种零通信协议在使用14倍更少的数据和16倍更少的计算资源的情况下,达到了与SOTA分布式方法相当的质量。 怎么做到的?请查看我们下面的完整技术报告和模型权重。 完整技术报告: 模型权重:
这是我们所做的不同之处。 分布式训练通常使用并行技术,如数据并行、流水线并行、模型并行等。所有这些都需要计算节点之间的同步。我们通过去中心化流匹配完全消除了这一要求。 训练后,我们在完全隔离的情况下构建了一个轻量级的 DiTRouter,它学习根据噪声潜变量在推理时选择专家。
这些数字。 巴黎在使用以下条件下取得了与SOTA去中心化方法相当的结果: 训练数据少了14倍(11M对158M图像) 计算量少了16倍(120 A40 GPU天对约1176 A100天) 巴黎在单一训练基准上也表现优于。我们在DiT-B/2上的Top-2路由达到了FID-50K的22.60,比单模型训练(29.64)提高了7.04点。
结果。 这些图像来自8位在训练期间从未互相交流的专家。 我们相信,如果我们能够扩展这种方法,这将是迈向开源超级智能的第一步。但这需要解决一些更为艰巨的问题。如果你有兴趣在做你一生中最好的开源工作时帮助我们实现这一目标,欢迎加入我们。
523.63K