Na minha perspetiva, rl é apenas uma forma mais tolerável de dizer dados sintéticos, que ninguém gostava há dois anos, quando comecei a fazer amostragem de rejeição para criar o Hermes 1. Dados sintéticos (incluindo dados semi-sintéticos) têm sido o presente desde que o ChatGPT foi lançado.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15/10, 14:33
as pessoas que dizem, vagamente e sem explicação, que RL não é o futuro sempre me confundem é como descartar "aprendizagem não supervisionada" como não sendo o futuro
@gregcoppola5d @kalomaze Para clareza, precisávamos apenas de ~25 amostras de sft para quebrar esse recorde que com certeza o grok fez rl intenso e caro para alcançar.
@niklassheth @kalomaze As coisas que estão a funcionar estão todas relacionadas com implementações com verificadores ou qualificadores de dados. Com isso, tudo é possível. A parte online de rl é apenas um aumento de eficiência
10,6K