Когда RETRO был выпущен, я думал, что извлечение информации — это важная вещь для LLM, чтобы уменьшить количество параметров, увеличивая при этом глубину знаний моделей. Для меня было неожиданностью, что компании избегали этой идеи. Whale приносит извлечение информации на стол: > Примечательно, что хотя модуль памяти ожидается как помощь в извлечении знаний (например, MMLU +3.4; CMMLU +4.0), мы наблюдаем даже большие приросты в общем рассуждении (например, BBH +5.0; ARC-Challenge +3.7) и в областях кода/математики (HumanEval +3.0; MATH +2.4). Механистические анализы показывают, что Engram освобождает ранние слои основного каркаса от статической реконструкции, эффективно углубляя сеть для сложного рассуждения.