Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Desde mi perspectiva, rl es simplemente una forma más tolerable de decir datos sintéticos, que no era del agrado de nadie hace dos años, cuando comencé a hacer muestreo de rechazo para crear Hermes 1.
Los datos sintéticos (incluidos los datos semi-sintéticos) han sido el presente desde que salió ChatGPT.

15 oct, 14:33
las personas que dicen, vagamente y sin explicación, que RL No Es El Futuro siempre me confunden
es como descartar "aprendizaje no supervisado" como No El Futuro
@gregcoppola5d @kalomaze Para mayor claridad, solo necesitábamos ~25 muestras de sft para romper ese récord que seguramente grok logró con un intenso y costoso rl.
@niklassheth @kalomaze Las cosas que están funcionando giran en torno a implementaciones con verificadores o calificadores de datos. Con eso, todo es posible. La parte de rl en línea es solo un impulso de eficiencia.
10,6K
Parte superior
Clasificación
Favoritos