DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

elie

LFG, Deepseek använder Muon i ablationsuppställningen av deras senaste artikel

68

elie12 jan. 03:21

det är ganska galet att denna sparsamma uppmärksamhet fungerar så bra, de sparsifierar bara 50 % av MLA-lagren i LongCat-Flash-basen mitt i träningen och får liknande resultat som originalmodellen kalibreringen är att välja vilka MLA-lager de sparserar. LongCat-Flash har denna "konstiga" (inte på ett dåligt sätt) lagerstruktur där det finns två uppmärksamhetslager i ett lager, det nämns inget om någon annan behandling för de två lagren så jag antar att de applicerar samma process på båda. Kalibreringssteget är: utgång = a_i · output_dense + (1 - a_i) · output_sparse Och de gör gradientnedstigning på a_i (vilket är per uppmärksamhetslager). Om a_i är hög => måste detta lager vara tätt, annars kan du sparsifiera det. På så sätt sparsifierar de 50% av lagren (tyvärr har vi inte fördelningen av sparsifierade lager). Detta kalibreringssteg har en galen effekt på longeval Den sparsamma uppmärksamheten är också väldigt enkel, den är fast och inte kontextmedveten som Deepseek DSA/NSA eller MiniCPM InfiLLMv2, det är ett glidande fönster med 8 block om 128 tokens (så fönsterstorlek 1024), de första 128 tokens och de sista 896 tokens Nyfiken på om framtida @Meituan_LongCat-modeller kommer att använda detta i produktion och om det är robust mot RL!

116

elie11 jan. 03:13

Det mesta av webbdata på (mycket) resursfattiga språk är Bibeln och Wikipedia. Resten? @huggingface datateam körde Gemma3 27B i 3 månader för att översätta det till engelska, förbättra översättningsmodeller och för att föra in kulturell kontext från 500+ språkiga gemenskaper i engelska träningsdata. Här är hela pipelinen

Guilherme Penedo10 jan. 01:22

Vi släpper en storskalig syntetisk datamängd: 💬FineTranslations. Vi tog 🥂 FineWeb2, vår flerspråkiga förträningsdatamängd, och översatte den till engelska med hjälp av Gemma3 27B. Resultatet är ett massivt parallellt korpus, med mer än 1 biljon tokens!

118

Topp

Rankning

Favoriter

Svenska 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Türkçe

More about OKX Wallet

Ladda ned Learn Om oss Karriär Kontakta oss Användarvillkor Integritetsmeddelande X (tidigare Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Explorer Säkerhet

Support

Supportcenter Kanalverifiering Tillkännagivanden DEX-avgiftsstruktur Anslut med OKX Bitcoin-plånbok Ethereum-plånbok Solana-plånbok