Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aus meiner Sicht ist rl einfach eine tolerantere Art, synthetische Daten zu sagen, die vor zwei Jahren, als ich mit dem Ablehnungssampling begann, um Hermes 1 zu erstellen, von niemandem gemocht wurde.
Synthetische Daten (einschließlich halb-synthetischer Daten) sind seit der Veröffentlichung von ChatGPT präsent.

15. Okt., 14:33
Menschen, die vage und ohne Erklärung sagen, dass RL nicht die Zukunft ist, verwirren mich immer.
Es ist, als würde man "unüberwachtes Lernen" als nicht die Zukunft abtun.
@gregcoppola5d @kalomaze Zur Klarheit, wir benötigten nur ~25 sft Proben, um diesen Rekord zu brechen, den grok sicherlich mit intensiven und teuren rl erreicht hat.
@niklassheth @kalomaze Die Dinge, die funktionieren, drehen sich alle um Rollouts mit Verifizierern oder Qualifizierern von Daten. Damit sind alle Dinge möglich. Der Online-RL-Teil ist nur ein Effizienzschub.
10,81K
Top
Ranking
Favoriten