Vanuit mijn perspectief is rl gewoon een meer acceptabele manier om synthetische data te zeggen, waar niemand twee jaar geleden fan van was toen ik begon met afwijzingsmonsters om Hermes 1 te maken. Synthetische data (inclusief semi-synthetische data) is de realiteit sinds ChatGPT uitkwam.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15 okt, 14:33
mensen die, vaag en zonder uitleg, zeggen dat RL Niet De Toekomst Is, verwarren me altijd het is alsof je "onbegeleide leren" afschrijft als Niet De Toekomst
@gregcoppola5d @kalomaze Voor de duidelijkheid, we hadden slechts ~25 sft monsters nodig om dat record te breken dat grok ongetwijfeld intensieve en dure rl heeft moeten bereiken.
@niklassheth @kalomaze De dingen die werken, draaien allemaal om uitrols met verifiers of qualifiers van gegevens. Met dat is alles mogelijk. Het online rl-gedeelte is gewoon een efficiëntieboost.
10,6K