це просто неймовірно, що така рідка увага працює так добре, вони просто розщеплюють 50% шарів MLA у LongCat-Flash на середині тренування і отримують подібні результати, як у оригінальній моделі калібрування полягає у виборі, які шари MLA вони розщеплюють. LongCat-Flash має «дивну» (не погану) структуру шарів, коли в одному шарі є два шари уваги, і немає згадки про якийсь інший підхід до цих двох шарів, тож я припускаю, що вони застосовують один і той самий процес до обох. Етап калібрування: вихід = a_i · output_dense + (1 - a_i) · output_sparse І вони виконують градієнтне спускання на a_i (це на шар уваги). Якщо a_i високий => цей шар має бути щільним, якщо ні — його можна розріджити. Таким чином, вони розріджують 50% шарів (на жаль, у нас немає розподілу розріджених шарів). Цей етап калібрування має шалений вплив на довговічність Sparse Attention теж дуже простий, він фіксований і не залежить від контексту, як deepseek DSA/NSA чи MiniCPM InfiLLMv2, це ковзне вікно з 8 блоками по 128 токенів (тобто розмір вікна 1024), першими 128 токенами і останніми 896 токенами Цікаво, чи майбутні моделі @Meituan_LongCat використовуватимуть це в виробництві і чи буде воно надійним до реального життя!