Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo post no blog! Este é um post puramente teórico que tenta identificar a razão central pela qual os LLMs sofrem de colapso de modo em RL e falham em gerar saídas novas ou verdadeiramente diversas. Na verdade, é um problema muito mais complicado do que você pensa!
Incentivar ingenuamente a exploração por meio de temperaturas mais altas, regulação de entropia de saída, métricas pass@k, etc. não é suficiente para evitar o estrangulamento da exploração durante o RL.
O artigo propõe uma nova teoria sobre por que isso acontece e como resolvê-lo, nomeadamente usando aprendizado por reforço descentralizado para criar um "ecossistema" de modelos em vez de simplesmente uma instância centralizada.

Top
Classificação
Favoritos

