المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
معايير التضمين أصبحت رائجة مرة أخرى، ورقة رائعة من LongCat Flash، بالتزامن مع Engram من DeepSeek!
الاختلافات مع إنغرام:
-> لا يوجد تضمين لكل طبقة (جربوا التضمين لكل طبقة (PLE) لكن لم تحقق مكاسب حقيقية)
-> دمج متوسط بسيط بدلا من بوابة Engram الديناميكية الواعية للسياق
-> التضمينات فقط عند طبقة الإدخال (مقابل حقن الطبقة الأعمق من إنغرام)
نفس الإنغرام:
-> جداول تجزئة متعددة لتقليل التصادمات
-> قانون تحجيم على شكل U مشابه لتخصيص MoE مقابل N-gram
-> مفيد فقط عند الندرة العالية (عندما تحقق MoE عوائد متناقصة)
نتائج رئيسية أخرى:
-> النماذج الأوسع تستفيد أكثر؛ النماذج الأعمق تشهد عوائد متناقصة
-يجب > تضخيم مخرجات التضمين (√D أو LayerNorm) لمنع الغرق بطبقة الانتباه الأولى
-يجب > أن يتجنب حجم المفردات المضاعفات الصحيحة للمفردات الأساسية (نقاط التصادم)
-> ≤50٪ من المعلمات إلى التضمينات، وإلا فإن MoE النقي يفوز
-> تآزر جيد مع فك الترميز الافتراضي

الأفضل
المُتصدِّرة
التطبيقات المفضلة
