DApp Store | Web3 Hub for hendelser og spill

Hva kan jeg gjøre med Discover

Populære emner

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP−7,49 %

Boopa−29,38 %

PORK−2,74 %

Nouha Dziri

Nouha Dziri7. okt., 21:47

Bonjour Montreal🇨🇦🍁🍁 gleder seg til å være her igjen. Vil være på #COLM2025 frem til fredag, så ta kontakt hvis du vil chatte!

4,02K

Nouha Dziri3. okt., 01:09

Interessant å se Bytedance jobbe med å løse 0-gradient-problemet. Ideen deres er å løse det gjennom et adaptivt databudsjett; Vi nærmer oss det fra et belønningsperspektiv. GRPO-trening bruker vanligvis små, nøye kuraterte datasett, dataene må være veldig vanskelige for å gi rike læringssignaler og muliggjøre oppdagelse. Trening på enklere data vil bare skjerpe det modellen allerede har sett i SFT/pre-training!

Ziniu Li2. okt., 13:51

🚀 Spent på å dele arbeidet vårt på Bytedance Seed! Ryggsekk RL: Låser opp utforskning av LLM-er via budsjettallokering 🎒 Utforskning i LLM-opplæring er avgjørende, men dyrt. Ensartet utrullingstildeling er bortkastet: ✅ Enkle oppgaver → alltid løst → 0 gradient ❌ Harde oppgaver → alltid mislykkes → gradering på 0 💡 Ideen vår: behandle utforskning som et ryggsekkproblem → tildele utrullinger der de betyr mest. ✨ Resultater: 🔼 +20–40 % flere graderinger som ikke er null 🧮 Opptil 93 utrullinger for vanskelige oppgaver (uten ekstra databehandling) 📈 +2–4 gjennomsnittspoeng, +9 toppgevinster på matematikkreferanser 💰 ~2× billigere enn enhetlig tildeling 📄 Papir:

53,65K

Nouha Dziri2. okt., 02:38

🚀Har du noen gang lurt på hvordan du kan få RL til å fungere på umulige vanskelige oppgaver der pass@k = 0 %? 🤔 I vårt nye arbeid deler vi RL Grokking-oppskriften: en opplæringsoppskrift som gjør det mulig for LLM-er å løse tidligere uløselige kodeproblemer! Jeg kommer til #CoLM2025 neste uke, så glad for å prate om det! Vi dykker også ned i den opphetede debatten: skjerper RL bare tidligere lærte ferdigheter, eller kan det låse opp virkelig nye resonnementer? 🔥🔥 Les hele bloggen her: #AI #RL #NLP #reinforcementlearning #llm

81,07K

Topp

Rangering

Favoritter

Norsk (bokmål)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Suomi Svenska

More about OKX Wallet

Last ned Lær Om oss Karrierer Kontakt oss Vilkår for bruk Personvernerklæring X (tidligere Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Utforsker Sikkerhet

Støtte

Supportsenter Verifisering av kanal Kunngjøringer DEX-gebyrplan Bli kjent med OKX Bitcoin-lommebok Ethereum-lommebok Solana-lommebok