Khi RETRO được phát hành, tôi nghĩ rằng việc truy xuất là một vấn đề lớn đối với LLMs, nhằm giảm số lượng tham số trong khi tăng cường độ sâu kiến thức cho các mô hình. Tôi đã rất ngạc nhiên khi thấy các công ty tránh xa ý tưởng đó. Whale mang đến khả năng Truy xuất: > Đáng chú ý nhất, trong khi mô-đun bộ nhớ được kỳ vọng sẽ hỗ trợ việc truy xuất kiến thức (ví dụ: MMLU +3.4; CMMLU +4.0), chúng tôi quan sát thấy những cải thiện lớn hơn trong lý luận tổng quát (ví dụ: BBH +5.0; ARC-Challenge +3.7) và các lĩnh vực mã/toán (HumanEval +3.0; MATH +2.4). Các phân tích cơ chế cho thấy Engram giúp giảm tải cho các lớp đầu của backbone khỏi việc tái cấu trúc tĩnh, hiệu quả làm sâu thêm mạng lưới cho lý luận phức tạp.