Bu az dikkat bu kadar iyi çalışması gerçekten inanılmaz, LongCat-Flash tabanındaki MLA katmanlarının %50'sini antrenman ortasında sıklıyorlar ve orijinal modele benzer sonuçlar alıyorlar
kalibrasyon, hangi MLA katmanlarını seyrekleştirdiklerini seçmektir. LongCat-Flash'ın "garip" (kötü bir anlamda değil) katman yapısı var; bir katmanda 2 dikkat katmanı var, bu iki katman için farklı bir işlem belirtilmiyor, bu yüzden aynı süreci her ikisine de uyguladıklarını varsayıyorum. Kalibrasyon adımı şudur:
çıktı = a_i · output_dense + (1 - a_i) · output_sparse
Ve a_i üzerinde gradyan inişi yapıyorlar (bu her dikkat katmanı için demek). a_i yüksekse => bu katmanın yoğun olması gerekir, değilse seyrek olabilir. Bu şekilde katmanların %50'sini seyrek yaparlar (maalesef seyrek katmanların dağılımıyız). Bu kalibrasyon adımı, uzun değerlendirme üzerinde çılgın bir etki yaratıyor
seyrek dikkat de çok basit, sabit ve Deepseek DSA/NSA veya MiniCPM InfiLLMv2 gibi bağlam farkında değil, 8 blok 128 token (yani pencere boyutu 1024), ilk 128 token ve son 896 token içeren bir kaydırma penceresi
Merak ediyorum, gelecekteki @Meituan_LongCat modelleri bunu üretimde kullanacak mı ve gerçek hayatta sağlam mı!
(Çok) düşük kaynaklı dillerdeki çoğu web verisi İncil ve Vikipedi'dir. Geri kalanı? @huggingface veri ekibi, Gemma3 27B'yi İngilizceye çevirmek, çeviri modellerini geliştirmek ve 500+ dil topluluğundan kültürel bağlamı İngilizce eğitim verilerine taşımak için 3 ay boyunca çalıştırdı. İşte tam ürün hattı
Büyük ölçekli sentetik bir veri seti yayınlıyoruz: 💬FineTranslations.
🥂 Çok dilli ön eğitim veri setimiz olan FineWeb2'yi aldık ve Gemma3 27B kullanarak İngilizceye çevirdik.
Sonuç, 1 trilyondan fazla tokena sahip devasa bir paralel korporatif ortaya çıktı!