Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers erneut gepostet
Einführung von DeepConf: Tiefes Denken mit Vertrauen
🚀 Erste Methode, um 99,9 % bei AIME 2025 mit Open-Source-Modellen zu erreichen! Mit GPT-OSS-120B haben wir sogar ohne Werkzeuge diese nahezu perfekte Genauigkeit erreicht und dabei bis zu 85 % der generierten Tokens eingespart.
Es bietet auch viele starke Vorteile für paralleles Denken:
🔥 Leistungssteigerung: ~10 % Genauigkeit über Modelle & Datensätze
⚡ Ultra-effizient: Bis zu 85 % weniger generierte Tokens
🔧 Plug & Play: Funktioniert mit JEDEM bestehenden Modell - keine Schulung erforderlich (auch kein Hyperparameter-Tuning!)
⭐ Einfach zu implementieren: Nur ~50 Zeilen Code in vLLM (siehe PR unten)
📚 Papier:
🌐 Projekt:
gemeinsame Arbeit mit: @FuYichao123 , xuewei_wang, @tydsh
(siehe Details in den Kommentaren unten)
408,74K
Tim Dettmers erneut gepostet
Können wir die Speichergrenze für LLM-Inferenz durch die Rematerialisierung des KV-Caches durchbrechen?
🚨 Einführung von XQuant, das ungenutzte Recheneinheiten nutzt, um den Speicherengpass für LLM-Inferenz zu beseitigen!
• 10–12,5x Speicherersparnis im Vergleich zu FP16
• Nahezu kein Genauigkeitsverlust
• Übertrifft den Stand der Technik bei KV-Quantisierung🔥
Wichtige Erkenntnisse:
1. KV-Cache = Engpass → wächst linear mit der Kontextlänge + Batch-Größe.
2. Rechenleistung >> Speicher → GPUs bieten FLOPs, die um Größenordnungen schneller sind als die Speicherbandbreite.
3. Schlüsselidee → speichere KV nicht, berechne es einfach neu. 🧠
Da die LLM-Inferenz typischerweise speicherbandbreitengebunden ist, sind Recheneinheiten oft untätig und ungenutzt. Daher können wir diese verfügbare Rechenleistung ohne zusätzlichen Aufwand nutzen!
Die Trends in der GPU-Hardware zeigen, dass die Rechenfähigkeiten viel schneller skalieren als die Speicherbandbreite. Daher kann die Reduzierung von Speicheroperationen im Austausch für mehr Berechnung dazu beitragen, die LLM-Inferenz zu beschleunigen. Der KV-Cache wächst linear mit der Sequenzlänge und der Batch-Größe und verursacht während der LLM-Inferenz die Mehrheit der Speicheroperationen. Wenn wir zusätzliche Berechnungen eintauschen können, um das Laden und Speichern des KV-Caches zu umgehen, können wir die Inferenz beschleunigen!
XQuant nutzt diesen Hardware-Trend aus: 🧵 [1/7]
Papier:
Gemeinsame Arbeit mit: @coleman_hooper1 @mjlee_official von @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang von @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,45K
Top
Ranking
Favoriten