Desde mi perspectiva, rl es simplemente una forma más tolerable de decir datos sintéticos, que no eran del agrado de nadie hace dos años, cuando comencé a hacer muestreo de rechazo para crear Hermes 1. Los datos sintéticos (incluidos los datos semi-sintéticos) han sido el presente desde que salió ChatGPT.