Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nova postagem no blog! Este é puramente teórico, tentando identificar a razão central pela qual os LLMs sofrem de colapso de modo em RL e não conseguem gerar resultados novos ou verdadeiramente diversos. Na verdade, é um problema muito mais complicado do que você pensa!
Ingenuamente, encorajar a exploração por temperaturas mais altas, regulação de entropia de saída, métricas de pass@k, etc., não é suficiente para evitar gargalos na exploração durante o RL.
O artigo propõe uma nova teoria sobre por que esse é o caso e como resolvê-lo, ou seja, usando o aprendizado por reforço descentralizado para criar um "ecossistema" de modelos em vez de simplesmente uma instância centralizada.

Melhores
Classificação
Favoritos

