Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Din punctul meu de vedere, rl este doar un mod mai tolerabil de a spune date sintetice de care toată lumea nu era fană acum doi ani, când am început să fac eșantionare de respingere pentru a face Hermes 1.
Datele sintetice (inclusiv datele semisintetice) au fost prezente de când a apărut ChatGPT.

15 oct., 14:33
oamenii care spun, vag și fără explicații, că RL nu este viitorul mă derutează întotdeauna
este ca și cum ai elimina "învățarea nesupravegheată" ca Not The Future
@gregcoppola5d @kalomaze Pentru claritate, am avut nevoie de doar ~25 de sample-uri sft pentru a doborî acel record pe care grok a reușit cu siguranță să îl atingă intens și costisitor
@niklassheth @kalomaze Lucrurile care funcționează sunt toate lansări rotative cu verificatori sau calificatori de date. Cu asta toate lucrurile sunt posibile. Partea rl online este doar o creștere a eficienței
10,81K
Limită superioară
Clasament
Favorite