Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir stellen Parallaxe vor, die erste vollständig verteilte Inferenz- und Serving-Engine für große Sprachmodelle.
Probieren Sie es jetzt aus: 🧵
KI stößt an einen Engpass.
LLMs verändern die Art und Weise, wie wir denken, bauen und kreieren, aber ihre Nachfrage nach Token übersteigt das, was eine zentralisierte Infrastruktur leisten kann. Chips gesättigt; Die Stromnetze sind angespannt; Die Intelligenz bleibt hinter kostenintensiven Silos verborgen.
Wir brauchen ein neues Paradigma.
Parallax stellt die Modellinferenz als globalen, kollaborativen Prozess neu vor, bei dem Modelle nicht mehr an eine zentralisierte Infrastruktur gekoppelt sind, sondern über ein globales Rechennetz neu zusammengesetzt, ausgeführt und verifiziert werden.
Die Engine führt 3 grundlegende Verschiebungen ein:
– Intelligenzsouveränität: Bedienen Sie Modelle von der Hardware aus, der Sie vertrauen
– Composable Inferenz: GPUs, Apple Silicon, Desktops arbeiten harmonisch zusammen
– Latent Compute: Aktivieren Sie die ungenutzte Datenverarbeitung der Welt
Die Parallax-Laufzeitschicht ist die zentrale Orchestrierungs-Engine für serverseitige LLM-Dienste mit hohem Durchsatz in verteilten, heterogenen Netzwerken.
Es bietet Optimierungen auf Serverniveau – von kontinuierlicher Batchverarbeitung bis hin zu ausgelagertem KV-Cache – und ist das erste MLX-basierte Framework, das professionelle Inferenz auf Apple Silicon ermöglicht.
Durch die Vereinheitlichung von NVIDIA-GPUs und Apple-Geräten in einer einzigen Compute Fabric bietet Parallax reibungslose dezentrale KI für alle.
Parallax läuft auf einer verteilten Architektur namens Swarm: ein dynamisches Netzwerk von Knoten, die LLMs gemeinsam bedienen.
Jede Eingabeaufforderung wird über heterogene Knoten hinweg verarbeitet, wobei jeder ein Segment des Modells verarbeitet.
Das Ergebnis: Echtzeit-Inferenz, die dezentral, fließend und überprüfbar ist.
Im Vergleich zu Petals (BitTorrent-ähnliche Bereitstellung) erreichte Parallax mit Qwen2.5-72B auf 2× RTX 5090s:
– 3,1 × geringere End-to-End-Latenz, 5,3 × schnellere Latenz zwischen Token
– 2,9 × schnellere Time-to-First-Token, 3,1 × höherer I/O-Durchsatz
Die Ergebnisse waren konsistent und zeigten eine hohe Skalierbarkeit über verschiedene Eingabekonfigurationen hinweg, und das ist erst der Anfang.
Jetzt live: ein Chatbot, der vollständig von Parallax unterstützt wird.
Jede Antwort wird Peer-to-Peer generiert, ohne dass ein zentraler Server beteiligt ist.
Erleben Sie dezentrale LLM-Inferenz:
Der Schwarm wächst.
Bewerben Sie sich für das Edge Host Pilot-Programm, um die Intelligenz der Welt zu skalieren:
68,13K
Top
Ranking
Favoriten