Desde mi perspectiva, rl es una forma más tolerable de decir datos sintéticos de los que no todos eran fanáticos hace dos años cuando comencé a hacer muestreos de rechazo para hacer Hermes 1. Los datos sintéticos (incluidos los datos semisintéticos) han estado presentes desde que salió ChatGPT.