DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

elie

lfg, deepseek verwendet Muon im Ablationssetup ihres neuesten Papiers

70

elie12. Jan., 03:21

es ist ziemlich verrückt, dass diese spärliche Aufmerksamkeit so gut funktioniert, sie sparsifizieren einfach 50 % der MLA-Schichten im LongCat-Flash-Basis-Modell zur Mitte des Trainings und erzielen ähnliche Ergebnisse wie das Originalmodell. die Kalibrierung wählt aus, welche MLA-Schichten sie sparsifizieren. LongCat-Flash hat diese "komische" (nicht im negativen Sinne) Schichtstruktur, bei der es 2 Aufmerksamkeits-Schichten in einer Schicht gibt, es gibt keine Erwähnung einer anderen Behandlung für diese 2 Schichten, also gehe ich davon aus, dass sie den gleichen Prozess auf beide anwenden. Der Kalibrierungsschritt ist: output = a_i · output_dense + (1 - a_i) · output_sparse die machen Gradientenabstieg auf a_i (was pro Aufmerksamkeits-Schicht ist). Wenn a_i hoch ist => muss diese Schicht dicht sein, wenn nicht, kannst du sie sparsifizieren. Auf diese Weise sparsifizieren sie 50 % der Schichten (wir haben leider nicht die Verteilung der sparsifizierten Schichten). Dieser Kalibrierungsschritt hat einen verrückten Einfluss auf die Longeval. die spärliche Aufmerksamkeit ist ebenfalls sehr einfach, sie ist fest und nicht kontextbewusst wie deepseek DSA/NSA oder MiniCPM InfiLLMv2, es ist ein gleitendes Fenster mit 8 Blöcken von 128 Tokens (also Fenstergröße 1024), die ersten 128 Tokens und die letzten 896 Tokens. ich bin neugierig, ob zukünftige @Meituan_LongCat-Modelle dies in der Produktion verwenden werden und ob es robust gegenüber RL ist!

118

elie11. Jan., 03:13

Die meisten Webdaten in (sehr) ressourcenarmen Sprachen sind die Bibel und Wikipedia. Der Rest? Das @huggingface-Datenteam hat Gemma3 27B drei Monate lang ausgeführt, um es ins Englische zu übersetzen, um die Übersetzungsmodelle zu verbessern und kulturellen Kontext aus über 500 Sprachgemeinschaften in die englischen Trainingsdaten zu bringen. Hier ist die gesamte Pipeline

Guilherme Penedo10. Jan., 01:22

Wir veröffentlichen einen groß angelegten synthetischen Datensatz: 💬FineTranslations. Wir haben 🥂 FineWeb2, unseren mehrsprachigen Pre-Training-Datensatz, genommen und ihn mit Gemma3 27B ins Englische übersetzt. Das Ergebnis ist ein massives paralleles Korpus mit mehr als 1 Billion Tokens!

120

Top

Ranking

Favoriten

Deutsch 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Mehr über OKX Web3

Herunterladen Learn Über uns Karriere Kontakt Nutzungsbedingungen Datenschutzbestimmungen X (ehemals Twitter)

Produkt

Wallet-Dashboard Swap OKX NFT Earn Entdecken Entwickeln Explorer Sicherheit

Support

Support-Center Offizielle Verifizierung Ankündigungen DEX-Gebührenplan Mit OKX verbinden Bitcoin-Wallet Ethereum-Wallet Solana-Wallet