O segredo por trás do desempenho do Parallax reside em otimizações chave de nível servidor: – Agrupamento contínuo: agrupa dinamicamente as solicitações para maximizar a utilização do hardware e a taxa de transferência. – KV-Cache paginado: design baseado em blocos que previne a fragmentação da memória, gerenciando milhares de solicitações simultâneas. – Trabalhadores heterogêneos: desempenho ideal em GPUs e Macs. Rápido. Fiável. Totalmente distribuído.
Gradient
Gradient20/06/2025
Compared to Petals (BitTorrent-style serving), Parallax running Qwen2.5-72B on 2× RTX 5090s achieved: – 3.1× lower end-to-end latency, 5.3× faster inter-token latency – 2.9× faster time-to-first-token, 3.1× higher I/O throughput Results were consistent and showed great scalability across different input configurations, and this is just the beginning.
66,57K