El secreto detrás del rendimiento de Parallax radica en optimizaciones clave de nivel servidor: – Agrupación continua: agrupa dinámicamente las solicitudes para maximizar la utilización del hardware y el rendimiento. – KV-Cache paginado: diseño basado en bloques que previene la fragmentación de la memoria, maneja miles de solicitudes concurrentes. – Trabajadores heterogéneos: rendimiento óptimo en GPUs y Macs. Rápido. Fiable. Totalmente distribuido.
Gradient
Gradient20 jun 2025
En comparación con Petals (servicio de estilo BitTorrent), Parallax que ejecuta Qwen2.5-72B en 2× RTX 5090 logró: – 3,1× menor latencia de extremo a extremo, 5,3× latencia entre tokens más rápida – 2,9× tiempo hasta el primer token más rápido, 3,1× mayor rendimiento de E/S Los resultados fueron consistentes y mostraron una gran escalabilidad en diferentes configuraciones de entrada, y esto es solo el comienzo.
66,62K