это довольно безумно, что это разреженное внимание работает так хорошо, они просто разрежают 50% слоев MLA в базе LongCat-Flash на среднем этапе обучения и получают аналогичные результаты с оригинальной моделью
калибровка выбирает, какие слои MLA они разрежают. LongCat-Flash имеет эту "странную" (не в плохом смысле) структуру слоев, где в одном слое находятся 2 слоя внимания, нет упоминания о каком-то другом обращении с этими 2 слоями, так что я предполагаю, что они применяют один и тот же процесс к обоим. Шаг калибровки:
output = a_i · output_dense + (1 - a_i) · output_sparse
и они делают градиентный спуск по a_i (который относится к каждому слою внимания). если a_i высокое => этот слой должен быть плотным, если нет, вы можете его разрежить. таким образом, они разрежают 50% слоев (к сожалению, у нас нет распределения разреженных слоев). Этот шаг калибровки имеет безумное влияние на longeval
разреженное внимание также очень простое, оно фиксированное и не учитывает контекст, как deepseek DSA/NSA или MiniCPM InfiLLMv2, это скользящее окно с 8 блоками по 128 токенов (так что размер окна 1024), первые 128 токенов и последние 896 токенов
интересно, будут ли будущие модели @Meituan_LongCat использовать это в продакшене и будет ли это устойчиво к RL!
Большинство веб-данных на (очень) языках с низкими ресурсами — это Библия и Википедия. Остальное? Команда данных @huggingface провела Gemma3 27B в течение 3 месяцев, чтобы перевести это на английский, улучшить модели перевода и привнести культурный контекст из более чем 500 языковых сообществ в данные для обучения на английском. Вот полный процесс.
Мы выпускаем крупномасштабный синтетический набор данных: 💬FineTranslations.
Мы взяли 🥂 FineWeb2, наш многоязычный набор данных для предварительного обучения, и перевели его на английский с помощью Gemma3 27B.
Результат — это огромный параллельный корпус, содержащий более 1 триллиона токенов!