معايير التضمين أصبحت رائجة مرة أخرى، ورقة رائعة من LongCat Flash، بالتزامن مع Engram من DeepSeek! الاختلافات مع إنغرام: -> لا يوجد تضمين لكل طبقة (جربوا التضمين لكل طبقة (PLE) لكن لم تحقق مكاسب حقيقية) -> دمج متوسط بسيط بدلا من بوابة Engram الديناميكية الواعية للسياق -> التضمينات فقط عند طبقة الإدخال (مقابل حقن الطبقة الأعمق من إنغرام) نفس الإنغرام: -> جداول تجزئة متعددة لتقليل التصادمات -> قانون تحجيم على شكل U مشابه لتخصيص MoE مقابل N-gram -> مفيد فقط عند الندرة العالية (عندما تحقق MoE عوائد متناقصة) نتائج رئيسية أخرى: -> النماذج الأوسع تستفيد أكثر؛ النماذج الأعمق تشهد عوائد متناقصة -يجب > تضخيم مخرجات التضمين (√D أو LayerNorm) لمنع الغرق بطبقة الانتباه الأولى -يجب > أن يتجنب حجم المفردات المضاعفات الصحيحة للمفردات الأساسية (نقاط التصادم) -> ≤50٪ من المعلمات إلى التضمينات، وإلا فإن MoE النقي يفوز -> تآزر جيد مع فك الترميز الافتراضي