Una cosa piuttosto audace che fa DeepSeek è mostrare Engram che raggiunge ottimi risultati fino a 27B, e poi 40B che praticamente non migliora ulteriormente, e dicono «eh è sottotrained». Penso che il profilo di capacità degli strati di Engram rispetto ai FFN abbia effetti non banali a scale diverse.
Mi ricorda DS-MoE, dove hanno considerato la variante «mezza attivata» come qualcosa di molto ambizioso, portando l'idea al limite. Naturalmente, alla fine V2 aveva esattamente questo rapporto di sparseness, e V3 era ancora più sparso.
104