это довольно безумно, что это разреженное внимание работает так хорошо, они просто разрежают 50% слоев MLA в базе LongCat-Flash на среднем этапе обучения и получают аналогичные результаты с оригинальной моделью калибровка выбирает, какие слои MLA они разрежают. LongCat-Flash имеет эту "странную" (не в плохом смысле) структуру слоев, где в одном слое находятся 2 слоя внимания, нет упоминания о каком-то другом обращении с этими 2 слоями, так что я предполагаю, что они применяют один и тот же процесс к обоим. Шаг калибровки: output = a_i · output_dense + (1 - a_i) · output_sparse и они делают градиентный спуск по a_i (который относится к каждому слою внимания). если a_i высокое => этот слой должен быть плотным, если нет, вы можете его разрежить. таким образом, они разрежают 50% слоев (к сожалению, у нас нет распределения разреженных слоев). Этот шаг калибровки имеет безумное влияние на longeval разреженное внимание также очень простое, оно фиксированное и не учитывает контекст, как deepseek DSA/NSA или MiniCPM InfiLLMv2, это скользящее окно с 8 блоками по 128 токенов (так что размер окна 1024), первые 128 токенов и последние 896 токенов интересно, будут ли будущие модели @Meituan_LongCat использовать это в продакшене и будет ли это устойчиво к RL!