DApp Store | Centrum Web3 pro události a hry

Co můžu dělat s funkcí Objevujte

Populární témata

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+0,44 %

Boopa+6,46 %

PORK-5,89 %

Nouha Dziri

Nouha Dziri7. 10. 21:47

Bonjour Montreal🇨🇦🍁🍁 je nadšený, že je opět tady. Bude v #COLM2025 až do pátku, takže pokud si chcete popovídat, ozvěte se!

4,01K

Nouha Dziri3. 10. 01:09

Zajímavé je vidět Bytedance pracující na řešení problému 0-gradientu. Jejich představa je řešit to prostřednictvím adaptivního výpočetního rozpočtu; Přistupujeme k tomu z pohledu odměňování. Školení GRPO obvykle používá malé, pečlivě vybrané datové sady, data musí být opravdu těžká, aby poskytovala bohaté učební signály a umožňovala objevování. Trénování na jednodušších datech jen zostřuje to, co model již viděl v SFT/pre-tréninku!

Ziniu Li2. 10. 13:51

🚀 Excited to share our work at Bytedance Seed! Knapsack RL: Unlocking Exploration of LLMs via Budget Allocation 🎒 Exploration in LLM training is crucial but expensive. Uniform rollout allocation is wasteful: ✅ Easy tasks → always solved → 0 gradient ❌ Hard tasks → always fail → 0 gradient 💡 Our idea: treat exploration as a knapsack problem → allocate rollouts where they matter most. ✨ Results: 🔼 +20–40% more non-zero gradients 🧮 Up to 93 rollouts for hard tasks (w/o extra compute) 📈 +2–4 avg points, +9 peak gains on math benchmarks 💰 ~2× cheaper than uniform allocation 📄 Paper:

53,63K

Nouha Dziri2. 10. 02:38

🚀Přemýšleli jste někdy, jak přimět RL pracovat na nemožných těžkých úkolech, kde pass@k = 0 %? 🤔 V naší nové práci sdílíme RL Grokking Recipe: tréninkový recept, který umožňuje LLM řešit dříve neřešitelné problémy s kódováním! Příští týden budu na #CoLM2025, takže jsem ráda, že si o tom popovídám! Ponoříme se také do vášnivé debaty: zdokonaluje RL pouze předchozí naučené dovednosti, nebo může odemknout skutečně nové uvažování? 🔥🔥 Celý blog si můžete přečíst zde: #AI #RL #NLP #reinforcementlearning #llm

81,05K

Top

Hodnocení

Oblíbené