Acho que vou ter que escrever uma explicação longa sobre o Engram do DeepSeek.
Curta este post se quiser uma explicação sobre
- como os gradientes fluem para os embeddings acessados por meio de funções hash
- ou o que eles fundem em um único FP8 MMA
- ou POR QUE DIABOS ELES USAM CONVOLUÇÕES NO TRANSFORMADOR
Quando o RETRO foi lançado, achei que a recuperação era algo importante para LLMs, para reduzir o número de param e aumentar a profundidade do conhecimento dos modelos. Foi uma surpresa para mim que as empresas evitassem essa ideia.
Whale traz Retrieval para a mesa:
> Mais notavelmente, enquanto o módulo de memória deve auxiliar na recuperação de conhecimento (por exemplo, MMLU +3.4; CMMLU +4,0), observamos ganhos ainda maiores no raciocínio geral (por exemplo, BBH +5,0; ARC-Challenge +3.7) e domínios de código/matemática (HumanEval +3.0; MATEMÁTICA +2,4). Análises mecanicistas revelam que o Engram alivia as camadas iniciais da espinha dorsal da reconstrução estática, aprofundando efetivamente a rede para raciocínios complexos.