這種稀疏注意力能運作得如此良好,真是太瘋狂了,他們在中期訓練中只稀疏了 LongCat-Flash 基礎模型中 50% 的 MLA 層,卻得到了與原始模型相似的結果。 這個校準過程是選擇要稀疏的 MLA 層。LongCat-Flash 擁有這種 "奇怪"(不是壞事)的層結構,其中一層中有兩個注意力層,並沒有提到對這兩個層的不同處理,所以我假設他們對這兩者應用相同的過程。校準步驟是: output = a_i · output_dense + (1 - a_i) · output_sparse 他們對 a_i(每個注意力層的)進行梯度下降。如果 a_i 很高 => 這一層需要是密集的,否則你可以對其進行稀疏處理。這樣他們就稀疏了 50% 的層(不幸的是,我們沒有稀疏層的分佈)。這個校準步驟對 longeval 產生了瘋狂的影響。 稀疏注意力也非常簡單,它是固定的,並不像 deepseek DSA/NSA 或 MiniCPM InfiLLMv2 那樣具有上下文感知,它是一個滑動窗口,包含 8 個 128 個標記的區塊(所以窗口大小為 1024),前 128 個標記和最後 896 個標記。 好奇未來的 @Meituan_LongCat 模型是否會在生產中使用這個,並且它是否對 RL 具有穩健性!