Секрет производительности Parallax заключается в ключевых оптимизациях серверного уровня: – Непрерывная пакетная обработка: динамически группирует запросы для максимизации использования аппаратных ресурсов и пропускной способности. – Пагинированный KV-Cache: блочная структура предотвращает фрагментацию памяти, обрабатывает тысячи одновременных запросов. – Гетерогенные рабочие процессы: оптимальная производительность на GPU и Mac. Быстро. Надежно. Полностью распределенно.
Gradient
Gradient20 июн. 2025 г.
Compared to Petals (BitTorrent-style serving), Parallax running Qwen2.5-72B on 2× RTX 5090s achieved: – 3.1× lower end-to-end latency, 5.3× faster inter-token latency – 2.9× faster time-to-first-token, 3.1× higher I/O throughput Results were consistent and showed great scalability across different input configurations, and this is just the beginning.
66,59K