les paramètres d'embedding sont à la mode à nouveau, incroyable article de LongCat Flash, concurrent avec l'Engram de DeepSeek ! différences avec Engram : -> pas d'embedding par couche (ils ont essayé l'embedding par couche (PLE) mais sans réels gains) -> fusion par moyenne simple au lieu du gating dynamique contextuel d'Engram -> embeddings uniquement à la couche d'entrée (contre l'injection dans des couches plus profondes d'Engram) identique à Engram : -> plusieurs sous-tables de hachage pour réduire les collisions -> loi de mise à l'échelle en U similaire pour MoE contre allocation N-gram -> bénéfique uniquement à haute sparsité (lorsque MoE atteint des rendements décroissants) autres résultats clés : -> les modèles plus larges en bénéficient davantage ; les modèles plus profonds voient des rendements décroissants -> il faut amplifier la sortie d'embedding (√D ou LayerNorm) pour éviter d'être noyé par la première couche d'attention -> la taille du vocabulaire doit éviter les multiples entiers du vocabulaire de base (pics de collision) -> ≤50 % des paramètres pour les embeddings, sinon le MoE pur l'emporte -> belle synergie avec le décodage spéculatif