Bí mật đằng sau hiệu suất của Parallax nằm ở những tối ưu hóa cấp máy chủ chính: – Nhóm liên tục: nhóm động các yêu cầu để tối đa hóa việc sử dụng phần cứng và thông lượng. – Bộ nhớ đệm KV theo trang: thiết kế theo khối ngăn chặn phân mảnh bộ nhớ, xử lý hàng ngàn yêu cầu đồng thời. – Công nhân không đồng nhất: hiệu suất tối ưu trên các GPU và Mac. Nhanh chóng. Đáng tin cậy. Phân phối hoàn toàn.
Gradient
Gradient20 thg 6, 2025
Compared to Petals (BitTorrent-style serving), Parallax running Qwen2.5-72B on 2× RTX 5090s achieved: – 3.1× lower end-to-end latency, 5.3× faster inter-token latency – 2.9× faster time-to-first-token, 3.1× higher I/O throughput Results were consistent and showed great scalability across different input configurations, and this is just the beginning.
66,53K