Fra mitt perspektiv er rl bare en mer tålelig måte å si syntetiske data på som alle ikke var fan av for to år siden da jeg begynte å gjøre avvisningssampling for å lage Hermes 1. Syntetiske data (inkludert semisyntetiske data) har vært til stede siden ChatGPT kom ut.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15. okt., 14:33
folk som sier, vagt og uten forklaring, at RL ikke er fremtiden, forvirrer meg alltid det er som å avskrive «uovervåket læring» som Not The Future
@gregcoppola5d @kalomaze For klarhetens skyld trengte vi bare ~25 sft-prøver for å slå den rekorden som sikkert grok gjorde intens og dyr rl for å oppnå
@niklassheth @kalomaze Tingene som fungerer er alle roterende utrullinger med verifikatorer eller kvalifikatorer av data. Med det er alt mulig. Online rl-delen er bare et effektivitetsløft
10,6K