Có lẽ tôi phải viết một bài giải thích dài về Engram của DeepSeek.
Hãy thích bài viết này nếu bạn muốn có một bài giải thích về
- cách mà các gradient chảy vào các embedding được truy cập thông qua các hàm băm
- hoặc chúng kết hợp thành một FP8 MMA duy nhất như thế nào
- hoặc TẠI SAO HỌ LẠI SỬ DỤNG CONVOLUTION TRONG TRANSFORMER
Khi RETRO được phát hành, tôi nghĩ rằng việc truy xuất là một vấn đề lớn đối với LLMs, nhằm giảm số lượng tham số trong khi tăng cường độ sâu kiến thức cho các mô hình. Tôi đã rất ngạc nhiên khi thấy các công ty tránh xa ý tưởng đó.
Whale mang đến khả năng Truy xuất:
> Đáng chú ý nhất, trong khi mô-đun bộ nhớ được kỳ vọng sẽ hỗ trợ việc truy xuất kiến thức (ví dụ: MMLU +3.4; CMMLU +4.0), chúng tôi quan sát thấy những cải thiện lớn hơn trong lý luận tổng quát (ví dụ: BBH +5.0; ARC-Challenge +3.7) và các lĩnh vực mã/toán (HumanEval +3.0; MATH +2.4). Các phân tích cơ chế cho thấy Engram giúp giảm tải cho các lớp đầu của backbone khỏi việc tái cấu trúc tĩnh, hiệu quả làm sâu thêm mạng lưới cho lý luận phức tạp.