це просто неймовірно, що така рідка увага працює так добре, вони просто розщеплюють 50% шарів MLA у LongCat-Flash на середині тренування і отримують подібні результати, як у оригінальній моделі
калібрування полягає у виборі, які шари MLA вони розщеплюють. LongCat-Flash має «дивну» (не погану) структуру шарів, коли в одному шарі є два шари уваги, і немає згадки про якийсь інший підхід до цих двох шарів, тож я припускаю, що вони застосовують один і той самий процес до обох. Етап калібрування:
вихід = a_i · output_dense + (1 - a_i) · output_sparse
І вони виконують градієнтне спускання на a_i (це на шар уваги). Якщо a_i високий => цей шар має бути щільним, якщо ні — його можна розріджити. Таким чином, вони розріджують 50% шарів (на жаль, у нас немає розподілу розріджених шарів). Цей етап калібрування має шалений вплив на довговічність
Sparse Attention теж дуже простий, він фіксований і не залежить від контексту, як deepseek DSA/NSA чи MiniCPM InfiLLMv2, це ковзне вікно з 8 блоками по 128 токенів (тобто розмір вікна 1024), першими 128 токенами і останніми 896 токенами
Цікаво, чи майбутні моделі @Meituan_LongCat використовуватимуть це в виробництві і чи буде воно надійним до реального життя!
Більшість веб-даних (дуже) малоресурсними мовами — це Біблія та Вікіпедія. А решта? @huggingface команда даних запускала Gemma3 27B протягом 3 місяців, щоб перекласти його англійською, покращити моделі перекладу та внести культурний контекст із 500+ мовних спільнот у дані навчання англійської. Ось повний конвеєр
Ми випускаємо великомасштабний синтетичний набір даних: 💬FineTranslations.
Ми взяли 🥂 FineWeb2, наш багатомовний попередній набір даних, і переклали його англійською за допомогою Gemma3 27B.
Результатом стала величезна паралельна корпуса з понад 1 трильйоном токенів!