Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
les paramètres d'embedding sont à la mode à nouveau, incroyable article de LongCat Flash, concurrent avec l'Engram de DeepSeek !
différences avec Engram :
-> pas d'embedding par couche (ils ont essayé l'embedding par couche (PLE) mais sans réels gains)
-> fusion par moyenne simple au lieu du gating dynamique contextuel d'Engram
-> embeddings uniquement à la couche d'entrée (contre l'injection dans des couches plus profondes d'Engram)
identique à Engram :
-> plusieurs sous-tables de hachage pour réduire les collisions
-> loi de mise à l'échelle en U similaire pour MoE contre allocation N-gram
-> bénéfique uniquement à haute sparsité (lorsque MoE atteint des rendements décroissants)
autres résultats clés :
-> les modèles plus larges en bénéficient davantage ; les modèles plus profonds voient des rendements décroissants
-> il faut amplifier la sortie d'embedding (√D ou LayerNorm) pour éviter d'être noyé par la première couche d'attention
-> la taille du vocabulaire doit éviter les multiples entiers du vocabulaire de base (pics de collision)
-> ≤50 % des paramètres pour les embeddings, sinon le MoE pur l'emporte
-> belle synergie avec le décodage spéculatif

Meilleurs
Classement
Favoris
