DApp Store | Web3 Hub für Ereignisse und Spiele

Entdecke das Web3-Giveaway und sichere dir spannende Prämien

Trend-Themen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-0,34 %

Boopa-9,06 %

PORK-1,1 %

Tim Dettmers

Tim Dettmers erneut gepostet

Sam Bowman28. Aug., 01:01

Früh diesen Sommer haben OpenAI und Anthropic zugestimmt, einige unserer besten bestehenden Tests für Fehlanpassungen an den Modellen des jeweils anderen auszuprobieren. Nachdem wir unsere Ergebnisse privat besprochen haben, teilen wir sie jetzt mit der Welt. 🧵

100,41K

Tim Dettmers erneut gepostet

Jiawei Zhao23. Aug., 04:00

Einführung von DeepConf: Tiefes Denken mit Vertrauen 🚀 Erste Methode, um 99,9 % bei AIME 2025 mit Open-Source-Modellen zu erreichen! Mit GPT-OSS-120B haben wir sogar ohne Werkzeuge diese nahezu perfekte Genauigkeit erreicht und dabei bis zu 85 % der generierten Tokens eingespart. Es bietet auch viele starke Vorteile für paralleles Denken: 🔥 Leistungssteigerung: ~10 % Genauigkeit über Modelle & Datensätze ⚡ Ultra-effizient: Bis zu 85 % weniger generierte Tokens 🔧 Plug & Play: Funktioniert mit JEDEM bestehenden Modell - keine Schulung erforderlich (auch kein Hyperparameter-Tuning!) ⭐ Einfach zu implementieren: Nur ~50 Zeilen Code in vLLM (siehe PR unten) 📚 Papier: 🌐 Projekt: gemeinsame Arbeit mit: @FuYichao123 , xuewei_wang, @tydsh (siehe Details in den Kommentaren unten)

408,74K

Tim Dettmers erneut gepostet

Aditya Tomar20. Aug., 14:07

Können wir die Speichergrenze für LLM-Inferenz durch die Rematerialisierung des KV-Caches durchbrechen? 🚨 Einführung von XQuant, das ungenutzte Recheneinheiten nutzt, um den Speicherengpass für LLM-Inferenz zu beseitigen! • 10–12,5x Speicherersparnis im Vergleich zu FP16 • Nahezu kein Genauigkeitsverlust • Übertrifft den Stand der Technik bei KV-Quantisierung🔥 Wichtige Erkenntnisse: 1. KV-Cache = Engpass → wächst linear mit der Kontextlänge + Batch-Größe. 2. Rechenleistung >> Speicher → GPUs bieten FLOPs, die um Größenordnungen schneller sind als die Speicherbandbreite. 3. Schlüsselidee → speichere KV nicht, berechne es einfach neu. 🧠 Da die LLM-Inferenz typischerweise speicherbandbreitengebunden ist, sind Recheneinheiten oft untätig und ungenutzt. Daher können wir diese verfügbare Rechenleistung ohne zusätzlichen Aufwand nutzen! Die Trends in der GPU-Hardware zeigen, dass die Rechenfähigkeiten viel schneller skalieren als die Speicherbandbreite. Daher kann die Reduzierung von Speicheroperationen im Austausch für mehr Berechnung dazu beitragen, die LLM-Inferenz zu beschleunigen. Der KV-Cache wächst linear mit der Sequenzlänge und der Batch-Größe und verursacht während der LLM-Inferenz die Mehrheit der Speicheroperationen. Wenn wir zusätzliche Berechnungen eintauschen können, um das Laden und Speichern des KV-Caches zu umgehen, können wir die Inferenz beschleunigen! XQuant nutzt diesen Hardware-Trend aus: 🧵 [1/7] Papier: Gemeinsame Arbeit mit: @coleman_hooper1 @mjlee_official von @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang von @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami