Z mojej perspektywy rl to po prostu bardziej tolerancyjny sposób na określenie danych syntetycznych, które nie cieszyły się popularnością dwa lata temu, kiedy zacząłem robić próbkowanie odrzucające, aby stworzyć Hermes 1. Dane syntetyczne (w tym dane półsyntetyczne) są obecne od momentu wydania ChatGPT.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15 paź, 14:33
ludzie, którzy mówią, ogólnie i bez wyjaśnienia, że RL nie jest przyszłością, zawsze mnie mylą to tak, jakby odrzucać "uczenie nienadzorowane" jako nieprzyszłość
@gregcoppola5d @kalomaze Dla jasności, potrzebowaliśmy tylko ~25 sft próbek, aby pobić ten rekord, który z pewnością grok osiągnął dzięki intensywnemu i kosztownemu rl.
@niklassheth @kalomaze Rzeczy, które działają, krążą wokół wdrożeń z weryfikatorami lub kwalifikatorami danych. Dzięki temu wszystko jest możliwe. Część online rl to tylko zwiększenie efektywności.
10,81K