thật điên rồ khi mà sự chú ý thưa thớt này lại hoạt động tốt như vậy, họ chỉ đang làm thưa 50% các lớp MLA trong LongCat-Flash base ở giữa quá trình huấn luyện và đạt được kết quả tương tự như mô hình gốc bước hiệu chỉnh là chọn các lớp MLA nào họ sẽ làm thưa. LongCat-Flash có cấu trúc lớp "kỳ lạ" (không theo cách xấu) nơi có 2 lớp chú ý trong một lớp, không có đề cập đến việc điều trị khác cho 2 lớp đó nên tôi giả định họ đang áp dụng cùng một quy trình cho cả hai. Bước hiệu chỉnh là: output = a_i · output_dense + (1 - a_i) · output_sparse và họ thực hiện giảm độ dốc trên a_i (mỗi lớp chú ý). nếu a_i cao => lớp này cần phải dày đặc, nếu không bạn có thể làm thưa nó. theo cách này họ làm thưa 50% các lớp (chúng tôi không có phân phối của các lớp đã làm thưa thật không may). Bước hiệu chỉnh này có tác động điên rồ đến longeval sự chú ý thưa thớt cũng rất đơn giản, nó cố định và không nhận thức ngữ cảnh như deepseek DSA/NSA hoặc MiniCPM InfiLLMv2, nó là một cửa sổ trượt với 8 khối 128 token (vì vậy kích thước cửa sổ là 1024), 128 token đầu tiên và 896 token cuối cùng tò mò không biết các mô hình @Meituan_LongCat trong tương lai sẽ sử dụng điều này trong sản xuất và nếu nó có độ bền với RL!