Uma coisa bastante ousada que a DeepSeek faz é mostrar o Engram a ter um ótimo desempenho até 27B, e depois 40B que praticamente não melhora mais, e eles dizem «eh, está subtreinado». Acho que o perfil de capacidade das camadas do Engram em comparação com os FFNs tem efeitos não triviais em diferentes escalas.
Lembra-me o DS-MoE, onde olharam para a variante «meia ativada» como algo muito ambicioso, levando a ideia ao limite. Naturalmente, eventualmente a V2 teve exatamente esta razão de esparsidade, e a V3 foi ainda mais esparsa.
201