Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bu az dikkat bu kadar iyi çalışması gerçekten inanılmaz, LongCat-Flash tabanındaki MLA katmanlarının %50'sini antrenman ortasında sıklıyorlar ve orijinal modele benzer sonuçlar alıyorlar
kalibrasyon, hangi MLA katmanlarını seyrekleştirdiklerini seçmektir. LongCat-Flash'ın "garip" (kötü bir anlamda değil) katman yapısı var; bir katmanda 2 dikkat katmanı var, bu iki katman için farklı bir işlem belirtilmiyor, bu yüzden aynı süreci her ikisine de uyguladıklarını varsayıyorum. Kalibrasyon adımı şudur:
çıktı = a_i · output_dense + (1 - a_i) · output_sparse
Ve a_i üzerinde gradyan inişi yapıyorlar (bu her dikkat katmanı için demek). a_i yüksekse => bu katmanın yoğun olması gerekir, değilse seyrek olabilir. Bu şekilde katmanların %50'sini seyrek yaparlar (maalesef seyrek katmanların dağılımıyız). Bu kalibrasyon adımı, uzun değerlendirme üzerinde çılgın bir etki yaratıyor
seyrek dikkat de çok basit, sabit ve Deepseek DSA/NSA veya MiniCPM InfiLLMv2 gibi bağlam farkında değil, 8 blok 128 token (yani pencere boyutu 1024), ilk 128 token ve son 896 token içeren bir kaydırma penceresi
Merak ediyorum, gelecekteki @Meituan_LongCat modelleri bunu üretimde kullanacak mı ve gerçek hayatta sağlam mı!

En İyiler
Sıralama
Takip Listesi
