DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

elie

lfg, deepseek gebruikt Muon in de ablatie-opstelling van hun nieuwste paper

74

elie12 jan, 03:21

het is behoorlijk insane dat deze sparse attention zo goed werkt, ze sparsificeren gewoon 50% van de MLA-lagen in de LongCat-Flash basis tijdens de training en krijgen vergelijkbare resultaten als het originele model de calibratie selecteert welke MLA-lagen ze sparsificeren. LongCat-Flash heeft deze "rare" (niet op een slechte manier) laagstructuur waar er 2 attentie-lagen in één laag zijn, er is geen vermelding van een andere behandeling voor die 2 lagen, dus ik neem aan dat ze hetzelfde proces op beide toepassen. De calibratiestap is: output = a_i · output_dense + (1 - a_i) · output_sparse en ze doen gradient descent op a_i (wat per attentielaag is). als a_i hoog is => deze laag moet dicht zijn, zo niet kun je het sparsificeren. op deze manier sparsificeren ze 50% van de lagen (we hebben helaas de verdeling van sparsified lagen niet). Deze calibratiestap heeft een enorme impact op longeval de sparse attention is ook heel eenvoudig, het is vast en niet contextbewust zoals deepseek DSA/NSA of MiniCPM InfiLLMv2, het is een schuifvenster met 8 blokken van 128 tokens (dus venstergrootte 1024), de eerste 128 tokens en de laatste 896 tokens ben benieuwd of toekomstige @Meituan_LongCat modellen dit in productie zullen gebruiken en of het robuust is voor RL!

122

elie11 jan, 03:13

De meeste webdata in (zeer) laagresource talen is de Bijbel en Wikipedia. De rest? @huggingface datateam heeft Gemma3 27B drie maanden laten draaien om het in het Engels te vertalen, om vertaalmodellen te verbeteren en om culturele context van 500+ taalgemeenschappen in Engelse trainingsdata te brengen. Hier is de volledige pipeline

Guilherme Penedo10 jan, 01:22

We brengen een grootschalige synthetische dataset uit: 💬FineTranslations. We hebben 🥂 FineWeb2, onze meertalige pre-trainingsdataset, genomen en deze in het Engels vertaald met Gemma3 27B. Het resultaat is een enorme parallelle corpus, met meer dan 1 biljoen tokens!

122

Boven

Positie

Favorieten

Nederlands 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Meer over OKX Web3

Downloaden Learn Over ons Vacatures Contact Servicevoorwaarden Privacyverklaring X (voorheen Twitter)

Product

Dashboard wallet Swap Marktplaats Earn Ontdekken Samenstellen Verkenner Beveiliging

Ondersteuning

Ondersteuningscentrum Kanaalverificatie Aankondigingen DEX-vergoedingsschema Contact met OKX Bitcoin-wallet Ethereum-wallet Solana-wallet