Minun näkökulmastani rl on vain siedettävämpi tapa sanoa synteettistä dataa, josta kaikki eivät olleet faneja kaksi vuotta sitten, kun aloin tehdä hylkäysnäytteenottoa tehdäkseni Hermes 1:n. Synteettinen data (mukaan lukien puolisynteettinen data) on ollut läsnä ChatGPT:n ilmestymisestä lähtien.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15.10. klo 14.33
ihmiset, jotka sanovat epämääräisesti ja selittämättä, että RL ei ole tulevaisuus, hämmentävät minua aina se on kuin kirjoittaisi "valvomattoman oppimisen" pois ei tulevaisuutena
@gregcoppola5d @kalomaze Selvyyden vuoksi tarvitsimme vain ~25 sft-näytettä rikkoaksemme sen ennätyksen, jonka saavuttaminen varmasti teki intensiivistä ja kallista rl:ää
@niklassheth @kalomaze Kaikki toimivat asiat ovat kierrättäviä käyttöönottoja todentajien tai tietojen tarkentimien kanssa. Sen avulla kaikki on mahdollista. Online-rl-osa on vain tehokkuuden lisäys
10,6K