Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Nueva entrada en el blog! Esta es puramente teórica e intenta identificar la razón central por la cual los LLMs sufren de colapso de modo en RL y no logran generar salidas novedosas o verdaderamente diversas. ¡En realidad, es un problema mucho más complicado de lo que piensas!
Animar ingenuamente la exploración mediante temperaturas más altas, regulación de la entropía de salida, métricas pass@k, etc. no es suficiente para evitar el embotellamiento de la exploración durante RL.
El artículo propone una nueva teoría sobre por qué este es el caso y cómo solucionarlo, a saber, utilizando el aprendizaje por refuerzo descentralizado para crear un "ecosistema" de modelos en lugar de simplemente una instancia centralizada.

Parte superior
Clasificación
Favoritos

