embeddingparameters zijn weer hot, geweldig paper van LongCat Flash, gelijktijdig met DeepSeek's Engram! differentiën met Engram: -> geen per-laag embedding (ze hebben per-laag embedding (PLE) geprobeerd maar zonder echte winst) -> eenvoudige gemiddelde fusie in plaats van Engram's dynamische contextbewuste gating -> embeddings alleen op de invoerlaag (vs Engram's diepere laaginjectie) zelfde als Engram: -> meerdere hash-subtabellen om botsingen te verminderen -> vergelijkbare U-vormige schaalwet voor MoE vs N-gram allocatie -> alleen voordelig bij hoge spaarzaamheid (wanneer MoE afnemende rendementen bereikt) andere belangrijke bevindingen: -> bredere modellen profiteren meer; diepere modellen zien afnemende rendementen -> moet embedding-uitvoer versterken (√D of LayerNorm) om te voorkomen dat het verdrinkt door de eerste aandachtlaag -> vocabulairegrootte moet integer veelvouden van de basisvocabulaire vermijden (botsingspieken) -> ≤50% van de parameters naar embeddings, anders wint pure MoE -> mooie synergie met speculatieve decodering