Je suppose que je dois écrire un explicatif long sur l'Engram de DeepSeek.
Aimez ce post si vous voulez un explicatif sur
- comment les gradients se propagent vers les embeddings accessibles via des fonctions de hachage
- ou ce qu'ils fusionnent en un seul FP8 MMA
- ou POURQUOI DIABLE UTILISENT-ILS DES CONVOLUTIONS DANS LE TRANSFORMER
Lorsque RETRO a été lancé, je pensais que la récupération était un enjeu majeur pour les LLM, afin de réduire le nombre de paramètres tout en augmentant la profondeur des connaissances des modèles. Cela m'a surpris que les entreprises évitent cette idée.
Whale apporte la récupération sur la table :
> Plus particulièrement, bien que le module de mémoire soit censé aider à la récupération des connaissances (par exemple, MMLU +3.4 ; CMMLU +4.0), nous observons des gains encore plus importants en raisonnement général (par exemple, BBH +5.0 ; ARC-Challenge +3.7) et dans les domaines du code/maths (HumanEval +3.0 ; MATH +2.4). Des analyses mécanistes révèlent qu'Engram soulage les premières couches du backbone de la reconstruction statique, approfondissant ainsi efficacement le réseau pour un raisonnement complexe.