DApp Store | Piattaforma Web3 per eventi e giochi | OKX Wallet

Argomenti di tendenza

Una cosa piuttosto audace che fa DeepSeek è mostrare Engram che raggiunge ottimi risultati fino a 27B, e poi 40B che praticamente non migliora ulteriormente, e dicono «eh è sottotrained». Penso che il profilo di capacità degli strati di Engram rispetto ai FFN abbia effetti non banali a scale diverse.

Mi ricorda DS-MoE, dove hanno considerato la variante «mezza attivata» come qualcosa di molto ambizioso, portando l'idea al limite. Naturalmente, alla fine V2 aveva esattamente questo rapporto di sparseness, e V3 era ancora più sparso.

104

Principali

Ranking

Preferiti