Quando o RETRO foi lançado, pensei que a recuperação é um grande problema para os LLMs, para reduzir o número de parâmetros enquanto aumenta a profundidade do conhecimento dos modelos. Fiquei surpreso ao ver que as empresas evitaram essa ideia.
A Whale traz a Recuperação para a mesa:
> Mais notavelmente, enquanto se espera que o módulo de memória ajude na recuperação de conhecimento (por exemplo, MMLU +3.4; CMMLU +4.0), observamos ganhos ainda maiores em raciocínio geral (por exemplo, BBH +5.0; ARC-Challenge +3.7) e domínios de código/matemática (HumanEval +3.0; MATH +2.4). Análises mecanicistas revelam que o Engram alivia as camadas iniciais da espinha dorsal da reconstrução estática, aprofundando efetivamente a rede para raciocínios complexos.
O artigo é interessante, mas tive um pouco de dificuldade com a fórmula da recompensa total. Para quem é como eu, aqui está uma versão anotada com todas as variáveis na mesma tela, sem a necessidade de ir e voltar entre páginas (por que as pessoas não fazem isso? Talvez sem cores, mas apenas a legenda):