DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Do meu ponto de vista, rl é apenas uma maneira mais tolerável de dizer dados sintéticos dos quais nem todo mundo era fã há dois anos, quando comecei a fazer amostragem de rejeição para fazer Hermes 1. Os dados sintéticos (incluindo dados semi-sintéticos) estão presentes desde o lançamento do ChatGPT.

@gregcoppola5d @kalomaze Para maior clareza, precisávamos de apenas ~ 25 amostras de sft para quebrar aquele recorde que certamente grok fez rl intenso e caro para alcançar

@niklassheth @kalomaze As coisas que estão funcionando são todas lançamentos rotativos com verificadores ou qualificadores de dados. Com isso, todas as coisas são possíveis. A parte rl online é apenas um aumento de eficiência

10,6K

Melhores

Classificação

Favoritos