Z mojej perspektywy rl to po prostu bardziej tolerancyjny sposób na określenie danych syntetycznych, które nie cieszyły się popularnością dwa lata temu, kiedy zacząłem robić próbkowanie odrzucające, aby stworzyć Hermes 1. Dane syntetyczne (w tym dane półsyntetyczne) są obecne od momentu wydania ChatGPT.