Din punctul meu de vedere, rl este doar un mod mai tolerabil de a spune date sintetice de care toată lumea nu era fană acum doi ani, când am început să fac eșantionare de respingere pentru a face Hermes 1. Datele sintetice (inclusiv datele semisintetice) au fost prezente de când a apărut ChatGPT.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15 oct., 14:33
oamenii care spun, vag și fără explicații, că RL nu este viitorul mă derutează întotdeauna este ca și cum ai elimina "învățarea nesupravegheată" ca Not The Future
@gregcoppola5d @kalomaze Pentru claritate, am avut nevoie de doar ~25 de sample-uri sft pentru a doborî acel record pe care grok a reușit cu siguranță să îl atingă intens și costisitor
@niklassheth @kalomaze Lucrurile care funcționează sunt toate lansări rotative cu verificatori sau calificatori de date. Cu asta toate lucrurile sunt posibile. Partea rl online este doar o creștere a eficienței
10,81K