Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Do meu ponto de vista, rl é apenas uma maneira mais tolerável de dizer dados sintéticos dos quais nem todo mundo era fã há dois anos, quando comecei a fazer amostragem de rejeição para fazer Hermes 1.
Os dados sintéticos (incluindo dados semi-sintéticos) estão presentes desde o lançamento do ChatGPT.

15 de out., 14:33
pessoas que dizem, vagamente e sem explicação, que RL não é o futuro sempre me confundem
é como descartar "aprendizado não supervisionado" como Não é o futuro
@gregcoppola5d @kalomaze Para maior clareza, precisávamos de apenas ~ 25 amostras de sft para quebrar aquele recorde que certamente grok fez rl intenso e caro para alcançar
@niklassheth @kalomaze As coisas que estão funcionando são todas lançamentos rotativos com verificadores ou qualificadores de dados. Com isso, todas as coisas são possíveis. A parte rl online é apenas um aumento de eficiência
10,6K
Melhores
Classificação
Favoritos