Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Embedding-parametrene er varme igjen, fantastisk artikkel fra LongCat Flash, samtidig med DeepSeeks Engram!
forskjeller med Engram:
-> ingen innbedding per lag (de prøvde per lag-innbedding (PLE), men ingen reelle gevinster)
-> enkel gjennomsnittsfusjon i stedet for Engrams dynamiske kontekstbevisste gateing
-> embeddings kun på input-laget (i motsetning til Engrams dypere lag-injeksjon)
samme som Engram:
-> flere hash-undertabeller for å redusere kollisjoner
-> lignende U-formede skaleringslov for MoE vs N-gram allokering
-> bare gunstig ved høy sparsomhet (når MoE får avtagende avkastning)
Andre viktige funn:
-> bredere modeller gir mer nytte; dypere modeller ser avtagende avkastning
-> må forsterke embedding-utgangen (√D eller LayerNorm) for å forhindre drukning ved første oppmerksomhetslag
-> vokabularstørrelsen må unngå heltallsmultipler av grunnvokabularet (kollisjonspiker)
-> ≤50 % av parametrene til embeddings, ellers vinner ren MoE
-> fin synergi med spekulativ dekoding

Topp
Rangering
Favoritter
