Toen RETRO werd uitgebracht, dacht ik dat retrieval een groot probleem was voor LLM's, om het aantal parameters te verminderen terwijl de kennisdiepte voor modellen toeneemt. Het was een verrassing voor mij dat bedrijven dat idee vermeden.
Whale brengt Retrieval op de agenda:
> Het meest opvallende is dat, terwijl de geheugenmodule naar verwachting zal helpen bij kennisretrieval (bijv. MMLU +3.4; CMMLU +4.0), we zelfs grotere winst zien in algemeen redeneren (bijv. BBH +5.0; ARC-Challenge +3.7) en code/wiskunde domeinen (HumanEval +3.0; MATH +2.4). Mechanistische analyses onthullen dat Engram de vroege lagen van de backbone ontlast van statische reconstructie, waardoor het netwerk effectief wordt verdiept voor complexe redenering.
Het paper is interessant, maar ik had het een beetje moeilijk met de totale beloningsformule. Voor iedereen zoals ik, hier is een geannoteerde versie met alle variabelen op hetzelfde scherm, zonder dat je heen en weer hoeft te bladeren over pagina's (waarom doen mensen dit niet? Misschien zonder kleuren, maar gewoon de legenda):