Do meu ponto de vista rl é apenas uma maneira mais tolerável de dizer dados sintéticos que todo mundo não era fã há dois anos, quando comecei a fazer amostragem de rejeição para fazer Hermes 1. Os dados sintéticos (incluindo dados semi-sintéticos) estão presentes desde o lançamento do ChatGPT.