các tham số nhúng đang hot trở lại, bài báo tuyệt vời từ LongCat Flash, đồng thời với Engram của DeepSeek! các điểm khác biệt với Engram: -> không có nhúng theo từng lớp (họ đã thử nhúng theo từng lớp (PLE) nhưng không có lợi ích thực sự) -> kết hợp trung bình đơn giản thay vì cổng nhận thức động của Engram -> chỉ có nhúng ở lớp đầu vào (so với việc tiêm sâu hơn của Engram) giống như Engram: -> nhiều bảng băm con để giảm va chạm -> quy luật mở rộng hình chữ U tương tự cho MoE so với phân bổ N-gram -> chỉ có lợi khi độ thưa cao (khi MoE đạt đến lợi nhuận giảm dần) các phát hiện chính khác: -> các mô hình rộng hơn có lợi nhiều hơn; các mô hình sâu hơn thấy lợi nhuận giảm dần -> phải khuếch đại đầu ra nhúng (√D hoặc LayerNorm) để tránh bị chìm bởi lớp chú ý đầu tiên -> kích thước từ vựng phải tránh các bội số nguyên của từ vựng cơ bản (các đỉnh va chạm) -> ≤50% tham số cho nhúng, nếu không MoE thuần sẽ thắng -> sự cộng hưởng tốt với giải mã suy đoán