Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Från mitt perspektiv är rl bara ett mer tolerabelt sätt att säga syntetisk data som alla inte var ett av för två år sedan när jag började göra avslagssampling för att göra Hermes 1.
Syntetisk data (inklusive halvsyntetisk data) har varit närvarande sedan ChatGPT kom ut.

15 okt. 14:33
människor som säger, vagt och utan förklaring, att RL inte är framtiden förvirrar mig alltid
det är som att avskriva "oövervakad inlärning" som Not The Future
@gregcoppola5d @kalomaze För tydlighetens skull behövde vi bara ~25 sft-prover för att slå det rekord som säkert grok gjorde intensiva och dyra rl för att uppnå
@niklassheth @kalomaze Det som fungerar är alla roterande utrullningar med verifierare eller kvalificerare av data. Med det är allting möjligt. Online rl-delen är bara en effektivitetsökning
10,93K
Topp
Rankning
Favoriter