Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
embeddingparameters zijn weer hot, geweldig paper van LongCat Flash, gelijktijdig met DeepSeek's Engram!
differentiën met Engram:
-> geen per-laag embedding (ze hebben per-laag embedding (PLE) geprobeerd maar zonder echte winst)
-> eenvoudige gemiddelde fusie in plaats van Engram's dynamische contextbewuste gating
-> embeddings alleen op de invoerlaag (vs Engram's diepere laaginjectie)
zelfde als Engram:
-> meerdere hash-subtabellen om botsingen te verminderen
-> vergelijkbare U-vormige schaalwet voor MoE vs N-gram allocatie
-> alleen voordelig bij hoge spaarzaamheid (wanneer MoE afnemende rendementen bereikt)
andere belangrijke bevindingen:
-> bredere modellen profiteren meer; diepere modellen zien afnemende rendementen
-> moet embedding-uitvoer versterken (√D of LayerNorm) om te voorkomen dat het verdrinkt door de eerste aandachtlaag
-> vocabulairegrootte moet integer veelvouden van de basisvocabulaire vermijden (botsingspieken)
-> ≤50% van de parameters naar embeddings, anders wint pure MoE
-> mooie synergie met speculatieve decodering

Boven
Positie
Favorieten
