DApp Store | Centrum Web3 pro události a hry

Populární témata

Z mého pohledu je rl prostě přijatelnější způsob, jak říci syntetická data, která nikdo nebyl fanouškem před dvěma lety, když jsem začal dělat vzorkování odmítnutí, abych vytvořil Hermes 1. Syntetická data (včetně polosyntetických dat) jsou od vydání ChatGPT přítomná.

@gregcoppola5d @kalomaze Pro přehlednost jsme potřebovali pouze ~25 sft vzorků, abychom překonali rekord, který grok jistě intenzivně a drahě realizoval

@niklassheth @kalomaze Věci, které fungují, jsou všechny revolvingové rollouty s verifikátory nebo kvalifikátory dat. S tím je možné všechno. Online část RL je jen zvýšení efektivity

10,6K

Top

Hodnocení

Oblíbené