De mon point de vue, le RL est simplement une manière plus tolérable de parler de données synthétiques que tout le monde n'aimait pas il y a deux ans lorsque j'ai commencé à faire du rejet d'échantillons pour créer Hermes 1. Les données synthétiques (y compris les données semi-synthétiques) sont présentes depuis la sortie de ChatGPT.