Parallax 性能背后的秘密在于关键的服务器级优化: – 持续批处理:动态分组请求以最大化硬件利用率和吞吐量。 – 分页 KV-缓存:基于块的设计防止内存碎片化,处理数千个并发请求。 – 异构工作者:在 GPU 和 Mac 上实现最佳性能。 快速。可靠。完全分布式。
Gradient
Gradient2025年6月20日
与 Petals(类似 BitTorrent 的服务)相比,Parallax 在 2× RTX 5090s 上运行 Qwen2.5-72B 实现了: – 3.1 倍更低的端到端延迟,5.3 倍更快的跨令牌延迟 – 2.9 倍更快的首次令牌时间,3.1 倍更高的 I/O 吞吐量 结果一致,并显示出在不同输入配置下的良好可扩展性,而这仅仅是个开始。
66.51K