DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Aus meiner Sicht ist rl einfach eine tolerantere Art, synthetische Daten zu sagen, die vor zwei Jahren, als ich mit dem Ablehnungssampling begann, um Hermes 1 zu erstellen, von niemandem gemocht wurde. Synthetische Daten (einschließlich halb-synthetischer Daten) sind seit der Veröffentlichung von ChatGPT präsent.

@gregcoppola5d @kalomaze Zur Klarheit, wir benötigten nur ~25 sft Proben, um diesen Rekord zu brechen, den grok sicherlich mit intensiven und teuren rl erreicht hat.

@niklassheth @kalomaze Die Dinge, die funktionieren, drehen sich alle um Rollouts mit Verifizierern oder Qualifizierern von Daten. Damit sind alle Dinge möglich. Der Online-RL-Teil ist nur ein Effizienzschub.

10,81K

Top

Ranking

Favoriten