Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Desde mi perspectiva, rl es una forma más tolerable de decir datos sintéticos de los que no todos eran fanáticos hace dos años cuando comencé a hacer muestreos de rechazo para hacer Hermes 1.
Los datos sintéticos (incluidos los datos semisintéticos) han estado presentes desde que salió ChatGPT.

15 oct, 14:33
las personas que dicen, vagamente y sin explicación, que RL Is Not The Future siempre me confunden
es como descartar el "aprendizaje no supervisado" como No el futuro
@gregcoppola5d @kalomaze Para mayor claridad, solo necesitábamos ~ 25 muestras de sft para romper ese récord que seguramente grok hizo un rl intenso y costoso para lograr
@niklassheth @kalomaze Las cosas que funcionan son todas implementaciones rotativas con verificadores o calificadores de datos. Con eso todo es posible. La parte rl en línea es solo un aumento de eficiencia
10.59K
Populares
Ranking
Favoritas