parameter penyematan kembali panas, kertas luar biasa dari LongCat Flash, bersamaan dengan Engram DeepSeek! perbedaan dengan Engram: -> tidak ada penyematan per lapisan (mereka mencoba penyematan per lapisan (PLE) tetapi tidak ada keuntungan nyata) -> fusi rata-rata sederhana alih-alih gerbang sadar konteks dinamis Engram -> penyematan hanya pada lapisan input (vs injeksi lapisan yang lebih dalam Engram) sama seperti Engram: -> beberapa sub-tabel hash untuk mengurangi tabrakan -> hukum penskalaan berbentuk U yang serupa untuk alokasi MoE vs N-gram -> hanya bermanfaat pada sparsity tinggi (ketika MoE mencapai pengembalian yang berkurang) Temuan utama lainnya: -> model yang lebih luas lebih menguntungkan; Model yang lebih dalam melihat pengembalian yang berkurang -> harus memperkuat output penyematan (√D atau LayerNorm) untuk mencegah tenggelam oleh lapisan perhatian pertama -> ukuran kosakata harus menghindari kelipatan bilangan bulat dari kosakata dasar (paku tabrakan) -> ≤50% parameter untuk menyematkan, jika tidak, MoE murni menang -> sinergi yang bagus dengan decoding spekulatif