Aus meiner Sicht ist rl einfach eine tolerantere Art, synthetische Daten zu sagen, die vor zwei Jahren, als ich mit dem Ablehnungssampling begann, um Hermes 1 zu erstellen, von niemandem gemocht wurde. Synthetische Daten (einschließlich halb-synthetischer Daten) sind seit der Veröffentlichung von ChatGPT präsent.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15. Okt., 14:33
Menschen, die vage und ohne Erklärung sagen, dass RL nicht die Zukunft ist, verwirren mich immer. Es ist, als würde man "unüberwachtes Lernen" als nicht die Zukunft abtun.
@gregcoppola5d @kalomaze Zur Klarheit, wir benötigten nur ~25 sft Proben, um diesen Rekord zu brechen, den grok sicherlich mit intensiven und teuren rl erreicht hat.
@niklassheth @kalomaze Die Dinge, die funktionieren, drehen sich alle um Rollouts mit Verifizierern oder Qualifizierern von Daten. Damit sind alle Dinge möglich. Der Online-RL-Teil ist nur ein Effizienzschub.
10,81K