DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Från mitt perspektiv är rl bara ett mer tolerabelt sätt att säga syntetisk data som alla inte var ett av för två år sedan när jag började göra avslagssampling för att göra Hermes 1. Syntetisk data (inklusive halvsyntetisk data) har varit närvarande sedan ChatGPT kom ut.

@gregcoppola5d @kalomaze För tydlighetens skull behövde vi bara ~25 sft-prover för att slå det rekord som säkert grok gjorde intensiva och dyra rl för att uppnå

@niklassheth @kalomaze Det som fungerar är alla roterande utrullningar med verifierare eller kvalificerare av data. Med det är allting möjligt. Online rl-delen är bara en effektivitetsökning

10,93K

Topp

Rankning

Favoriter