DeepSeekがやっている大胆なことの一つは、エングラムが27Bまでうまくいくのに40Bでほぼ上達しないと言い、「うーん、訓練不足だ」と言うことです。 エングラムレイヤーとFFNの容量プロファイルはスケールによっては自明ではない影響があると思います。
これはDS-MoEを思い出させます。あの時は「半分活性化」バリアントを非常に野心的なものとして捉え、そのアイデアを限界まで押し広げていました。当然ながら、最終的にV2はまさにこのスパーシティ比率を持ち、V3はよりスパースになりました。
71