Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
parameter penyematan kembali panas, kertas luar biasa dari LongCat Flash, bersamaan dengan Engram DeepSeek!
perbedaan dengan Engram:
-> tidak ada penyematan per lapisan (mereka mencoba penyematan per lapisan (PLE) tetapi tidak ada keuntungan nyata)
-> fusi rata-rata sederhana alih-alih gerbang sadar konteks dinamis Engram
-> penyematan hanya pada lapisan input (vs injeksi lapisan yang lebih dalam Engram)
sama seperti Engram:
-> beberapa sub-tabel hash untuk mengurangi tabrakan
-> hukum penskalaan berbentuk U yang serupa untuk alokasi MoE vs N-gram
-> hanya bermanfaat pada sparsity tinggi (ketika MoE mencapai pengembalian yang berkurang)
Temuan utama lainnya:
-> model yang lebih luas lebih menguntungkan; Model yang lebih dalam melihat pengembalian yang berkurang
-> harus memperkuat output penyematan (√D atau LayerNorm) untuk mencegah tenggelam oleh lapisan perhatian pertama
-> ukuran kosakata harus menghindari kelipatan bilangan bulat dari kosakata dasar (paku tabrakan)
-> ≤50% parameter untuk menyematkan, jika tidak, MoE murni menang
-> sinergi yang bagus dengan decoding spekulatif

Teratas
Peringkat
Favorit
