Une chose assez audacieuse que fait DeepSeek, c'est qu'ils montrent Engram atteignant jusqu'à 27B, puis 40B qui n'améliore pratiquement plus, et ils disent « eh, c'est sous-entraîné ». Je pense que le profil de capacité des couches Engram par rapport aux FFNs a des effets non triviaux à différentes échelles.
Cela me rappelle DS-MoE, où ils considéraient la variante « à moitié activée » comme quelque chose de très ambitieux, poussant l'idée à ses limites. Naturellement, V2 avait finalement exactement ce ratio de parcimonie, et V3 était encore plus parcimonieuse.
274