sangat gila bahwa perhatian jarang ini bekerja dengan sangat baik, mereka hanya menghemat 50% lapisan MLA di basis LongCat-Flash di tengah pelatihan dan mendapatkan hasil yang mirip dengan model aslinya
kalibrasi adalah memilih lapisan MLA mana yang mereka jarang. LongCat-Flash memiliki struktur lapisan yang "aneh" (tidak dengan cara yang buruk) di mana ada 2 lapisan perhatian dalam satu lapisan, tidak disebutkan beberapa perlakuan yang berbeda untuk 2 lapisan tersebut jadi saya berasumsi mereka menerapkan proses yang sama untuk keduanya. Langkah kalibrasi adalah:
keluaran = a_i · output_dense + (1 - a_i) · output_sparse
dan mereka melakukan penurunan gradien pada a_i (yang per lapisan perhatian). Jika a_i tinggi => lapisan ini harus padat, jika tidak Anda dapat memangkatnya. dengan cara ini mereka menjaringkan 50% lapisan (sayangnya kami tidak memiliki distribusi lapisan yang jarang dipisahkan). Langkah kalibrasi ini berdampak gila pada longeval
perhatian yang jarang juga sangat sederhana, tetap dan tidak sadar konteks seperti deepseek DSA/NSA atau MiniCPM InfiLLMv2, ini adalah jendela geser dengan 8 blok 128 token (jadi ukuran jendela 1024), 128 token pertama dan 896 token terakhir
Penasaran apakah model @Meituan_LongCat masa depan akan menggunakan ini dalam PROD dan apakah itu kuat untuk RL!
Sebagian besar data web dalam bahasa sumber daya (sangat) rendah adalah Alkitab dan Wikipedia. Sisanya? @huggingface tim data menjalankan Gemma3 27B selama 3 bulan untuk menerjemahkannya ke dalam bahasa Inggris, untuk meningkatkan model terjemahan dan untuk membawa konteks budaya dari 500+ komunitas bahasa ke dalam data pelatihan bahasa Inggris. Berikut adalah pipeline lengkapnya
Kami merilis kumpulan data sintetis skala besar: 💬FineTranslations.
Kami mengambil 🥂 FineWeb2, kumpulan data pra-pelatihan multibahasa kami, dan menerjemahkannya ke dalam bahasa Inggris menggunakan Gemma3 27B.
Hasilnya adalah korpus paralel besar, dengan lebih dari 1 triliun token!