Bu az dikkat bu kadar iyi çalışması gerçekten inanılmaz, LongCat-Flash tabanındaki MLA katmanlarının %50'sini antrenman ortasında sıklıyorlar ve orijinal modele benzer sonuçlar alıyorlar kalibrasyon, hangi MLA katmanlarını seyrekleştirdiklerini seçmektir. LongCat-Flash'ın "garip" (kötü bir anlamda değil) katman yapısı var; bir katmanda 2 dikkat katmanı var, bu iki katman için farklı bir işlem belirtilmiyor, bu yüzden aynı süreci her ikisine de uyguladıklarını varsayıyorum. Kalibrasyon adımı şudur: çıktı = a_i · output_dense + (1 - a_i) · output_sparse Ve a_i üzerinde gradyan inişi yapıyorlar (bu her dikkat katmanı için demek). a_i yüksekse => bu katmanın yoğun olması gerekir, değilse seyrek olabilir. Bu şekilde katmanların %50'sini seyrek yaparlar (maalesef seyrek katmanların dağılımıyız). Bu kalibrasyon adımı, uzun değerlendirme üzerinde çılgın bir etki yaratıyor seyrek dikkat de çok basit, sabit ve Deepseek DSA/NSA veya MiniCPM InfiLLMv2 gibi bağlam farkında değil, 8 blok 128 token (yani pencere boyutu 1024), ilk 128 token ve son 896 token içeren bir kaydırma penceresi Merak ediyorum, gelecekteki @Meituan_LongCat modelleri bunu üretimde kullanacak mı ve gerçek hayatta sağlam mı!