Z mého pohledu je rl prostě přijatelnější způsob, jak říci syntetická data, která nikdo nebyl fanouškem před dvěma lety, když jsem začal dělat vzorkování odmítnutí, abych vytvořil Hermes 1. Syntetická data (včetně polosyntetických dat) jsou od vydání ChatGPT přítomná.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15. 10. 14:33
lidi, kteří říkají, vágně a bez vysvětlení, že RL Is Not The Future mě vždy matou je to jako odepsat "učení bez dohledu" jako Not The Future
@gregcoppola5d @kalomaze Pro přehlednost jsme potřebovali pouze ~25 sft vzorků, abychom překonali rekord, který grok jistě intenzivně a drahě realizoval
@niklassheth @kalomaze Věci, které fungují, jsou všechny revolvingové rollouty s verifikátory nebo kvalifikátory dat. S tím je možné všechno. Online část RL je jen zvýšení efektivity
10,6K