Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Z mého pohledu je rl prostě přijatelnější způsob, jak říci syntetická data, která nikdo nebyl fanouškem před dvěma lety, když jsem začal dělat vzorkování odmítnutí, abych vytvořil Hermes 1.
Syntetická data (včetně polosyntetických dat) jsou od vydání ChatGPT přítomná.

15. 10. 14:33
lidi, kteří říkají, vágně a bez vysvětlení, že RL Is Not The Future mě vždy matou
je to jako odepsat "učení bez dohledu" jako Not The Future
@gregcoppola5d @kalomaze Pro přehlednost jsme potřebovali pouze ~25 sft vzorků, abychom překonali rekord, který grok jistě intenzivně a drahě realizoval
@niklassheth @kalomaze Věci, které fungují, jsou všechny revolvingové rollouty s verifikátory nebo kvalifikátory dat. S tím je možné všechno. Online část RL je jen zvýšení efektivity
10,6K
Top
Hodnocení
Oblíbené