Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Na minha perspetiva, rl é apenas uma forma mais tolerável de dizer dados sintéticos, que ninguém gostava há dois anos, quando comecei a fazer amostragem de rejeição para criar o Hermes 1.
Dados sintéticos (incluindo dados semi-sintéticos) têm sido o presente desde que o ChatGPT foi lançado.

15/10, 14:33
as pessoas que dizem, vagamente e sem explicação, que RL não é o futuro sempre me confundem
é como descartar "aprendizagem não supervisionada" como não sendo o futuro
@gregcoppola5d @kalomaze Para clareza, precisávamos apenas de ~25 amostras de sft para quebrar esse recorde que com certeza o grok fez rl intenso e caro para alcançar.
@niklassheth @kalomaze As coisas que estão a funcionar estão todas relacionadas com implementações com verificadores ou qualificadores de dados. Com isso, tudo é possível. A parte online de rl é apenas um aumento de eficiência
10,6K
Top
Classificação
Favoritos