Le secret derrière la performance de Parallax réside dans des optimisations clés de niveau serveur : – Batching continu : regroupe dynamiquement les requêtes pour maximiser l'utilisation du matériel et le débit. – Cache KV paginé : conception par blocs qui empêche la fragmentation de la mémoire, gère des milliers de requêtes simultanées. – Travailleurs hétérogènes : performance optimale sur les GPU et les Macs. Rapide. Fiable. Entièrement distribué.
Gradient
Gradient20 juin 2025
Compared to Petals (BitTorrent-style serving), Parallax running Qwen2.5-72B on 2× RTX 5090s achieved: – 3.1× lower end-to-end latency, 5.3× faster inter-token latency – 2.9× faster time-to-first-token, 3.1× higher I/O throughput Results were consistent and showed great scalability across different input configurations, and this is just the beginning.
66,57K