Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
es ist ziemlich verrückt, dass diese spärliche Aufmerksamkeit so gut funktioniert, sie sparsifizieren einfach 50 % der MLA-Schichten im LongCat-Flash-Basis-Modell zur Mitte des Trainings und erzielen ähnliche Ergebnisse wie das Originalmodell.
die Kalibrierung wählt aus, welche MLA-Schichten sie sparsifizieren. LongCat-Flash hat diese "komische" (nicht im negativen Sinne) Schichtstruktur, bei der es 2 Aufmerksamkeits-Schichten in einer Schicht gibt, es gibt keine Erwähnung einer anderen Behandlung für diese 2 Schichten, also gehe ich davon aus, dass sie den gleichen Prozess auf beide anwenden. Der Kalibrierungsschritt ist:
output = a_i · output_dense + (1 - a_i) · output_sparse
die machen Gradientenabstieg auf a_i (was pro Aufmerksamkeits-Schicht ist). Wenn a_i hoch ist => muss diese Schicht dicht sein, wenn nicht, kannst du sie sparsifizieren. Auf diese Weise sparsifizieren sie 50 % der Schichten (wir haben leider nicht die Verteilung der sparsifizierten Schichten). Dieser Kalibrierungsschritt hat einen verrückten Einfluss auf die Longeval.
die spärliche Aufmerksamkeit ist ebenfalls sehr einfach, sie ist fest und nicht kontextbewusst wie deepseek DSA/NSA oder MiniCPM InfiLLMv2, es ist ein gleitendes Fenster mit 8 Blöcken von 128 Tokens (also Fenstergröße 1024), die ersten 128 Tokens und die letzten 896 Tokens.
ich bin neugierig, ob zukünftige @Meituan_LongCat-Modelle dies in der Produktion verwenden werden und ob es robust gegenüber RL ist!

90
Die meisten Webdaten in (sehr) ressourcenarmen Sprachen sind die Bibel und Wikipedia. Der Rest? Das @huggingface-Datenteam hat Gemma3 27B drei Monate lang ausgeführt, um es ins Englische zu übersetzen, um die Übersetzungsmodelle zu verbessern und kulturellen Kontext aus über 500 Sprachgemeinschaften in die englischen Trainingsdaten zu bringen. Hier ist die gesamte Pipeline


Guilherme Penedo10. Jan., 01:22
Wir veröffentlichen einen groß angelegten synthetischen Datensatz: 💬FineTranslations.
Wir haben 🥂 FineWeb2, unseren mehrsprachigen Pre-Training-Datensatz, genommen und ihn mit Gemma3 27B ins Englische übersetzt.
Das Ergebnis ist ein massives paralleles Korpus mit mehr als 1 Billion Tokens!

99
Top
Ranking
Favoriten

