Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Z mojej perspektywy rl to po prostu bardziej tolerancyjny sposób na określenie danych syntetycznych, które nie cieszyły się popularnością dwa lata temu, kiedy zacząłem robić próbkowanie odrzucające, aby stworzyć Hermes 1.
Dane syntetyczne (w tym dane półsyntetyczne) są obecne od momentu wydania ChatGPT.

15 paź, 14:33
ludzie, którzy mówią, ogólnie i bez wyjaśnienia, że RL nie jest przyszłością, zawsze mnie mylą
to tak, jakby odrzucać "uczenie nienadzorowane" jako nieprzyszłość
@gregcoppola5d @kalomaze Dla jasności, potrzebowaliśmy tylko ~25 sft próbek, aby pobić ten rekord, który z pewnością grok osiągnął dzięki intensywnemu i kosztownemu rl.
@niklassheth @kalomaze Rzeczy, które działają, krążą wokół wdrożeń z weryfikatorami lub kwalifikatorami danych. Dzięki temu wszystko jest możliwe. Część online rl to tylko zwiększenie efektywności.
10,81K
Najlepsze
Ranking
Ulubione