Когда RETRO был выпущен, я думал, что извлечение информации — это важная вещь для LLM, чтобы уменьшить количество параметров, увеличивая при этом глубину знаний моделей. Для меня было неожиданностью, что компании избегали этой идеи.
Whale приносит извлечение информации на стол:
> Примечательно, что хотя модуль памяти ожидается как помощь в извлечении знаний (например, MMLU +3.4; CMMLU +4.0), мы наблюдаем даже большие приросты в общем рассуждении (например, BBH +5.0; ARC-Challenge +3.7) и в областях кода/математики (HumanEval +3.0; MATH +2.4). Механистические анализы показывают, что Engram освобождает ранние слои основного каркаса от статической реконструкции, эффективно углубляя сеть для сложного рассуждения.
Статья интересная, но мне было немного сложно с формулой общего вознаграждения. Для таких, как я, вот аннотированная версия со всеми переменными на одном экране, без необходимости листать страницы (почему люди этого не делают? Может, без цветов, но просто с легендой):