En ganske dristig ting DeepSeek gjør, er at de viser Engram som gjør det bra opp til 27B, og så 40B, som egentlig ikke forbedres mer, og de sier «eh, det er undertrent». Jeg tror kapasitetsprofilen til Engram-lag vs FFN-er har ikke-trivielle effekter på ulike skalaer.
Det minner meg om DS-MoE, hvor de så på «halvaktivert»-varianten som noe veldig ambisiøst, og tok ideen til det ytterste. Naturligvis hadde V2 til slutt akkurat dette sparsomhetsforholdet, og V3 var mer sparsomt.
258