このスパーな注意がこれほどうまく機能しているのはかなり驚きです。LongCat-FlashベースのMLAレイヤーの50%をミッドトレーニングでスパーズ化しているだけで、元のモデルとほぼ同じ結果が得られます キャリブレーションは、どのMLAレイヤーをスパース化するかを選択します。LongCat-Flashは「変わった」(悪い意味ではない)レイヤー構造で、1つのレイヤーに2つの注意レイヤーがあり、それぞれの異なる処理についての記述がないので、同じプロセスを両方に適用しているのだと思います。キャリブレーションの手順は以下の通りです: 出力 = 4 a_i ·output_dense + (1 - a_i) ·output_sparse そして、彼らはa_i(注意層ごとに)で勾配降下を行います。a_iが高い場合 => この層は密度が高くなければなりません。そうでなければスパーリファイできます。こうすることで、レイヤーの50%をスパース化します(残念ながらスパーシファイドレイヤーの分布は分かっていません)。このキャリブレーションのステップはロングエバルに大きな影響を与えます スパースアテンションも非常にシンプルで、Deepseek DSA/NSAやMiniCPM InfiLLMv2のようなコンテキスト認識ではなく、スライディングウィンドウで、128トークンの8ブロック(ウィンドウサイズ1024)、最初の128トークンと最後の896トークンで構成されています 将来の@Meituan_LongCatモデルが本番環境でこれを使うのか、また強化学習(RL)に対して堅牢なのか気になります!