Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

¡Nueva publicación de blog! Este es un intento puramente teórico de identificar la razón central por la que los LLM sufren un colapso de modo en RL y no logran generar resultados novedosos o verdaderamente diversos. ¡En realidad es un problema mucho más complicado de lo que piensas! Fomentar ingenuamente la exploración mediante temperaturas más altas, la regulación de la entropía de salida, las métricas de pass@k, etc., no es suficiente para evitar la exploración de cuellos de botella durante la RL. El artículo propone una nueva teoría sobre por qué este es el caso y cómo resolverlo, es decir, mediante el uso del aprendizaje por refuerzo descentralizado para crear un "ecosistema" de modelos en lugar de simplemente una instancia centralizada.

Populares

Ranking

Favoritas