Embedding-parametrene er varme igjen, fantastisk artikkel fra LongCat Flash, samtidig med DeepSeeks Engram! forskjeller med Engram: -> ingen innbedding per lag (de prøvde per lag-innbedding (PLE), men ingen reelle gevinster) -> enkel gjennomsnittsfusjon i stedet for Engrams dynamiske kontekstbevisste gateing -> embeddings kun på input-laget (i motsetning til Engrams dypere lag-injeksjon) samme som Engram: -> flere hash-undertabeller for å redusere kollisjoner -> lignende U-formede skaleringslov for MoE vs N-gram allokering -> bare gunstig ved høy sparsomhet (når MoE får avtagende avkastning) Andre viktige funn: -> bredere modeller gir mer nytte; dypere modeller ser avtagende avkastning -> må forsterke embedding-utgangen (√D eller LayerNorm) for å forhindre drukning ved første oppmerksomhetslag -> vokabularstørrelsen må unngå heltallsmultipler av grunnvokabularet (kollisjonspiker) -> ≤50 % av parametrene til embeddings, ellers vinner ren MoE -> fin synergi med spekulativ dekoding