Магазин DApp | Центр Web3 для подій та ігор

Що можна робити за допомогою Discover

Актуальні теми

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+0,07%

Boopa+6,46%

PORK-5,89%

Nouha Dziri

Nouha Dziri7 жовт., 21:47

Bonjour Montreal🇨🇦🍁🍁 дуже радий знову бути тут. Буде з #COLM2025 до п'ятниці, тому звертайтеся, якщо хочете поспілкуватися!

4,01K

Nouha Dziri3 жовт., 01:09

Цікаво спостерігати, як Bytedance працює над вирішенням проблеми 0-градієнта. Їхня ідея полягає в тому, щоб вирішити цю проблему за допомогою адаптивного бюджету обчислень; Ми підходимо до цього з точки зору винагороди. Навчання GRPO зазвичай використовує невеликі, ретельно підібрані набори даних, дані повинні бути дійсно жорсткими, щоб надати багаті навчальні сигнали та забезпечити можливість виявлення. Тренування на простіших даних лише загострить те, що модель вже бачила в SFT/pre-training!

Ziniu Li2 жовт., 13:51

🚀 Excited to share our work at Bytedance Seed! Knapsack RL: Unlocking Exploration of LLMs via Budget Allocation 🎒 Exploration in LLM training is crucial but expensive. Uniform rollout allocation is wasteful: ✅ Easy tasks → always solved → 0 gradient ❌ Hard tasks → always fail → 0 gradient 💡 Our idea: treat exploration as a knapsack problem → allocate rollouts where they matter most. ✨ Results: 🔼 +20–40% more non-zero gradients 🧮 Up to 93 rollouts for hard tasks (w/o extra compute) 📈 +2–4 avg points, +9 peak gains on math benchmarks 💰 ~2× cheaper than uniform allocation 📄 Paper:

53,63K

Nouha Dziri2 жовт., 02:38

🚀Ви коли-небудь замислювалися, як змусити RL працювати над неможливими важкими завданнями, де pass@k = 0%? 🤔 У нашій новій роботі ми ділимося рецептом RL Grokking: тренувальним рецептом, який дозволяє LLM вирішувати раніше нерозв'язні проблеми кодування! Наступного тижня я буду в #CoLM2025, тому радий поговорити про це! Ми також занурюємося в гарячу дискусію: чи РЛ просто відточує раніше вивчені навички, чи може розблокувати справді нові міркування? 🔥🔥 Повний текст блогу читайте тут: #AI #RL #NLP #reinforcementlearning #llm

81,05K

Найкращі

Рейтинг

Вибране