thật điên rồ khi mà sự chú ý thưa thớt này lại hoạt động tốt như vậy, họ chỉ đang làm thưa 50% các lớp MLA trong LongCat-Flash base ở giữa quá trình huấn luyện và đạt được kết quả tương tự như mô hình gốc
bước hiệu chỉnh là chọn các lớp MLA nào họ sẽ làm thưa. LongCat-Flash có cấu trúc lớp "kỳ lạ" (không theo cách xấu) nơi có 2 lớp chú ý trong một lớp, không có đề cập đến việc điều trị khác cho 2 lớp đó nên tôi giả định họ đang áp dụng cùng một quy trình cho cả hai. Bước hiệu chỉnh là:
output = a_i · output_dense + (1 - a_i) · output_sparse
và họ thực hiện giảm độ dốc trên a_i (mỗi lớp chú ý). nếu a_i cao => lớp này cần phải dày đặc, nếu không bạn có thể làm thưa nó. theo cách này họ làm thưa 50% các lớp (chúng tôi không có phân phối của các lớp đã làm thưa thật không may). Bước hiệu chỉnh này có tác động điên rồ đến longeval
sự chú ý thưa thớt cũng rất đơn giản, nó cố định và không nhận thức ngữ cảnh như deepseek DSA/NSA hoặc MiniCPM InfiLLMv2, nó là một cửa sổ trượt với 8 khối 128 token (vì vậy kích thước cửa sổ là 1024), 128 token đầu tiên và 896 token cuối cùng
tò mò không biết các mô hình @Meituan_LongCat trong tương lai sẽ sử dụng điều này trong sản xuất và nếu nó có độ bền với RL!
Hầu hết dữ liệu web trong các ngôn ngữ (rất) ít tài nguyên là Kinh Thánh và Wikipedia. Còn lại thì sao? Nhóm dữ liệu @huggingface đã chạy Gemma3 27B trong 3 tháng để dịch sang tiếng Anh, nhằm cải thiện các mô hình dịch và mang bối cảnh văn hóa từ hơn 500 cộng đồng ngôn ngữ vào dữ liệu đào tạo tiếng Anh. Đây là toàn bộ quy trình.
Chúng tôi đang phát hành một bộ dữ liệu tổng hợp quy mô lớn: 💬FineTranslations.
Chúng tôi đã lấy 🥂 FineWeb2, bộ dữ liệu tiền huấn luyện đa ngôn ngữ của chúng tôi, và dịch nó sang tiếng Anh bằng Gemma3 27B.
Kết quả là một tập hợp song song khổng lồ, với hơn 1 triệu tỷ token!