Parallaxin suorituskyvyn salaisuus piilee tärkeimmissä palvelintason optimoinneissa: – Jatkuva eräerä: ryhmittelee pyynnöt dynaamisesti laitteiston käytön ja suorituskyvyn maksimoimiseksi. – Paged KV-Cache: lohkopohjainen suunnittelu estää muistin pirstoutumisen, käsittelee tuhansia samanaikaisia pyyntöjä – Heterogeeniset työntekijät: optimaalinen suorituskyky GPU- ja Mac-tietokoneissa. Nopea. Luotettava. Täysin hajautettu.
Gradient
Gradient20.6.2025
Verrattuna Petalsiin (BitTorrent-tyylinen tarjoilu), Parallax, joka käyttää Qwen2.5-72B:tä 2 ×RTX 5090:llä, saavutti: – 3,1 × pienempi päästä päähän -latenssi, 5,3 × nopeampi tokenien välinen latenssi – 2,9 × nopeampi aika ensimmäiseen tokeniin, 3,1 × suurempi I/O-suorituskyky Tulokset olivat johdonmukaisia ja osoittivat suurta skaalautuvuutta eri syöttökokoonpanoissa, ja tämä on vasta alkua.
66,62K