Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

các tham số nhúng đang hot trở lại, bài báo tuyệt vời từ LongCat Flash, đồng thời với Engram của DeepSeek! các điểm khác biệt với Engram: -> không có nhúng theo từng lớp (họ đã thử nhúng theo từng lớp (PLE) nhưng không có lợi ích thực sự) -> kết hợp trung bình đơn giản thay vì cổng nhận thức động của Engram -> chỉ có nhúng ở lớp đầu vào (so với việc tiêm sâu hơn của Engram) giống như Engram: -> nhiều bảng băm con để giảm va chạm -> quy luật mở rộng hình chữ U tương tự cho MoE so với phân bổ N-gram -> chỉ có lợi khi độ thưa cao (khi MoE đạt đến lợi nhuận giảm dần) các phát hiện chính khác: -> các mô hình rộng hơn có lợi nhiều hơn; các mô hình sâu hơn thấy lợi nhuận giảm dần -> phải khuếch đại đầu ra nhúng (√D hoặc LayerNorm) để tránh bị chìm bởi lớp chú ý đầu tiên -> kích thước từ vựng phải tránh các bội số nguyên của từ vựng cơ bản (các đỉnh va chạm) -> ≤50% tham số cho nhúng, nếu không MoE thuần sẽ thắng -> sự cộng hưởng tốt với giải mã suy đoán

Hàng đầu

Thứ hạng

Yêu thích