Yksi aika rohkea juttu DeepSeekissä on, että he näyttävät Engramin pärjäävän hyvin jopa 27B:ssä, ja sitten 40B:ssä, joka ei juuri parane enempää, ja he sanovat «no, se on alikoulutettu». Mielestäni Engram-kerrosten ja FFN-kerrosten kapasiteettiprofiililla on ei-triviaaleja vaikutuksia eri mittakaavoilla.
Se muistuttaa minua DS-MoE:stä, jossa "puoliksi aktivoitua" varianttia pidettiin hyvin kunnianhimoisena asiana, vieden idean äärirajoille. Luonnollisesti lopulta V2:lla oli juuri tämä harvinaisuussuhde, ja V3 oli harvempaa.
200