С моей точки зрения, rl просто является более приемлемым способом сказать синтетические данные, которые никому не нравились два года назад, когда я начал делать отбор с отвержением для создания Hermes 1. Синтетические данные (включая полусинтетические данные) существуют с тех пор, как вышел ChatGPT.