Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een behoorlijk gedurfde zet van DeepSeek is dat ze Engram laten zien die het geweldig doet tot 27B, en dan 40B dat eigenlijk niet verder verbetert, en ze zeggen «eh het is ondergetraind».
Ik denk dat het capaciteitsprofiel van Engram-lagen versus FFN's niet triviale effecten heeft op verschillende schalen.


Het doet me denken aan DS-MoE, waar ze de «half geactiveerde» variant beschouwden als iets zeer ambitieus, waarbij ze het idee tot het uiterste doorvoerden. Natuurlijk had V2 uiteindelijk precies deze sparsiteitsverhouding, en V3 was nog sparsier.

191
Boven
Positie
Favorieten


