Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Nueva publicación de blog! Este es un intento puramente teórico de identificar la razón central por la que los LLM sufren un colapso de modo en RL y no logran generar resultados novedosos o verdaderamente diversos. ¡En realidad es un problema mucho más complicado de lo que piensas!
Fomentar ingenuamente la exploración mediante temperaturas más altas, la regulación de la entropía de salida, las métricas de pass@k, etc., no es suficiente para evitar la exploración de cuellos de botella durante la RL.
El artículo propone una nueva teoría sobre por qué este es el caso y cómo resolverlo, es decir, mediante el uso del aprendizaje por refuerzo descentralizado para crear un "ecosistema" de modelos en lugar de simplemente una instancia centralizada.

Populares
Ranking
Favoritas

