Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Desde mi perspectiva, rl es una forma más tolerable de decir datos sintéticos de los que no todos eran fanáticos hace dos años cuando comencé a hacer muestreos de rechazo para hacer Hermes 1. Los datos sintéticos (incluidos los datos semisintéticos) han estado presentes desde que salió ChatGPT.

@gregcoppola5d @kalomaze Para mayor claridad, solo necesitábamos ~ 25 muestras de sft para romper ese récord que seguramente grok hizo un rl intenso y costoso para lograr

@niklassheth @kalomaze Las cosas que funcionan son todas implementaciones rotativas con verificadores o calificadores de datos. Con eso todo es posible. La parte rl en línea es solo un aumento de eficiencia

10.59K

Populares

Ranking

Favoritas