Tienda de dapps | Hub de Web3 para eventos y juegos | OKX Wallet

¿Qué puedo hacer con Discover?

discoveryBanners

Temas en tendencia

#

Bonk Eco continues to show strength amid $USELESS rally

USELESS-17.22 %

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-16.15 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Nouha Dziri

Nouha Dziri

Nouha Dziri7 oct 2025

Bonjour Montreal🇨🇦🍁🍁 emocionado de estar aquí de nuevo. Estaré en #COLM2025 hasta el viernes, ¡así que comunícate si quieres chatear!

4.04K

Nouha Dziri

Nouha Dziri3 oct 2025

Es interesante ver a Bytedance trabajando en la resolución del problema del gradiente 0. Su idea es abordarlo a través de un presupuesto de cómputo adaptativo; lo abordamos desde una perspectiva de recompensa. El entrenamiento GRPO generalmente utiliza conjuntos de datos pequeños y cuidadosamente seleccionados, los datos deben ser realmente difíciles para proporcionar señales de aprendizaje ricas y permitir el descubrimiento. ¡El entrenamiento con datos más fáciles solo agudizará lo que el modelo ya ha visto en SFT / pre-entrenamiento!

Ziniu Li

Ziniu Li2 oct 2025

🚀 ¡Emocionado de compartir nuestro trabajo en Bytedance Seed! Knapsack RL: Desbloqueo de la exploración de LLM a través de la asignación presupuestaria 🎒 La exploración en la capacitación de LLM es crucial pero costosa. La asignación uniforme de implementación es un desperdicio: ✅ Las tareas fáciles siempre → resuelven → gradiente 0 ❌ Las tareas difíciles siempre → fallar → gradiente 0 💡 Nuestra idea: tratar la exploración como un problema de mochila → asignar los despliegues donde más importan. ✨ Resultados: 🔼 +20-40% más pendientes distintas de cero 🧮 Hasta 93 implementaciones para tareas difíciles (sin computación adicional) 📈 +2–4 puntos promedio, +9 ganancias máximas en puntos de referencia matemáticos 💰 ~2× más barato que la asignación uniforme 📄 Papel:

53.67K

Nouha Dziri

Nouha Dziri2 oct 2025

🚀¿Alguna vez te has preguntado cómo hacer que RL funcione en tareas difíciles imposibles donde pass@k = 0%? 🤔 En nuestro nuevo trabajo, compartimos la receta de RL Grokking: ¡una receta de capacitación que permite a los LLM resolver problemas de codificación que antes no se podían resolver! Estaré en #CoLM2025 la próxima semana, ¡así que feliz de charlar sobre eso! También nos sumergimos en el acalorado debate: ¿RL solo agudiza las habilidades aprendidas previamente o puede desbloquear un razonamiento genuinamente nuevo? 🔥🔥 Lea el blog completo aquí: #AI #RL #NLP #reinforcementlearning #llm

81.09K

Populares

Ranking

Favoritas

©2017 - 2025 WEB3.OKX.COM

Español (Latinoamérica)简体中文繁體中文 English Tiếng Việt Русский Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Más información sobre OKX Web3

Descargar Academia Conócenos Ofertas laborales Contáctanos Términos del servicio Política de privacidad X (antes Twitter)

Producto

Tablero de la billetera Swap Mercado Earn Descubre Construye Explorador Seguridad

Soporte

Centro de atención al cliente Verificación oficial Anuncios Calendario de comisiones DEX Conéctate con OKX Billetera para Bitcoin Billetera para Ethereum Billetera para Solana