Från mitt perspektiv är rl bara ett mer tolerabelt sätt att säga syntetisk data som alla inte var ett av för två år sedan när jag började göra avslagssampling för att göra Hermes 1. Syntetisk data (inklusive halvsyntetisk data) har varit närvarande sedan ChatGPT kom ut.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15 okt. 14:33
människor som säger, vagt och utan förklaring, att RL inte är framtiden förvirrar mig alltid det är som att avskriva "oövervakad inlärning" som Not The Future
@gregcoppola5d @kalomaze För tydlighetens skull behövde vi bara ~25 sft-prover för att slå det rekord som säkert grok gjorde intensiva och dyra rl för att uppnå
@niklassheth @kalomaze Det som fungerar är alla roterande utrullningar med verifierare eller kvalificerare av data. Med det är allting möjligt. Online rl-delen är bara en effektivitetsökning
10,93K