Схоже, мені доведеться написати довге пояснення щодо Engram від DeepSeek.
Поставте лайк цьому посту, якщо хочете пояснити
- як градієнти потрапляють до вкладень, до яких звертаються через хеш-функції
- або те, що вони об'єднують в один FP8 MMA
- або ЧОМУ, ЧОРТ ЗАБИРАЙ, ВОНИ ВИКОРИСТОВУЮТЬ ЗГОРТКИ В ТРАНСФОРМАТОРІ
Коли вийшов RETRO, я вважав, що пошук — це велика справа для LLM, щоб зменшити кількість параметрів і збільшити глибину знань моделей. Мене здивувало, що компанії уникали такої ідеї.
Вейл пропонує Retrieval:
> Найпомітніше, що модуль пам'яті має сприяти отриманню знань (наприклад, MMLU +3.4; CMMLU +4.0), ми спостерігаємо ще більші прирости у загальному мисленні (наприклад, BBH +5.0; ARC-Challenge +3.7) та домени кодування/математики (HumanEval +3.0; МАТЕМАТИКА +2.4). Механістичний аналіз показує, що Енграм звільняє ранні шари хребта від статичної реконструкції, ефективно поглиблюючи мережу для складного мислення.