المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
من الجنون أن هذا الاهتمام المحدود يعمل بشكل جيد جدا، فهم فقط يخلصون 50٪ من طبقات MLA في قاعدة LongCat-Flash في منتصف التدريب ويحصلون على نتائج مشابهة للنموذج الأصلي
المعايرة هي اختيار طبقات MLA التي يتم تفريقها. LongCat-Flash لديه بنية طبقات "غريبة" (ليس بطريقة سيئة) حيث يوجد طبقتان من الانتباه في طبقة واحدة، ولا يوجد ذكر لمعالجة مختلفة لهذين الطبقتين، لذا أفترض أنهم يطبقون نفس العملية على كلتيهما. خطوة المعايرة هي:
الإخراج = a_i · output_dense + (1 - a_i) · output_sparse
وهم يقومون بالنزول التدرج على a_i (وهو لكل طبقة انتباه). إذا كان a_i مرتفعا => يجب أن تكون هذه الطبقة كثيفة، وإذا لم يكن كذلك يمكنك تقليصها. بهذه الطريقة يتم تقليل 50٪ من الطبقات (للأسف لا نملك توزيع الطبقات المتفرقة). هذه الخطوة في المعايرة لها تأثير كبير على العمر الطويل
الانتباه المتفرق بسيط جدا أيضا، ثابت وغير واع للسياق مثل deepseek DSA/NSA أو MiniCPM InfiLLMv2، إنه نافذة منزلقة تحتوي على 8 كتل تحتوي على 128 رمزا (أي حجم النافذة 1024)، أول 128 رمزا وآخر 896 رمزا
فضولي إذا كانت نماذج @Meituan_LongCat المستقبلية ستستخدم هذا في الإنتاج وهل هو قوي بالنسبة للواقع!

الأفضل
المُتصدِّرة
التطبيقات المفضلة
