Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Na minha perspetiva, rl é apenas uma forma mais tolerável de dizer dados sintéticos, que ninguém gostava há dois anos, quando comecei a fazer amostragem de rejeição para criar o Hermes 1. Dados sintéticos (incluindo dados semi-sintéticos) têm sido o presente desde que o ChatGPT foi lançado.

@gregcoppola5d @kalomaze Para clareza, precisávamos apenas de ~25 amostras de sft para quebrar esse recorde que com certeza o grok fez rl intenso e caro para alcançar.

@niklassheth @kalomaze As coisas que estão a funcionar estão todas relacionadas com implementações com verificadores ou qualificadores de dados. Com isso, tudo é possível. A parte online de rl é apenas um aumento de eficiência

10,6K

Top

Classificação

Favoritos