DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Din punctul meu de vedere, rl este doar un mod mai tolerabil de a spune date sintetice de care toată lumea nu era fană acum doi ani, când am început să fac eșantionare de respingere pentru a face Hermes 1. Datele sintetice (inclusiv datele semisintetice) au fost prezente de când a apărut ChatGPT.

@gregcoppola5d @kalomaze Pentru claritate, am avut nevoie de doar ~25 de sample-uri sft pentru a doborî acel record pe care grok a reușit cu siguranță să îl atingă intens și costisitor

@niklassheth @kalomaze Lucrurile care funcționează sunt toate lansări rotative cu verificatori sau calificatori de date. Cu asta toate lucrurile sunt posibile. Partea rl online este doar o creștere a eficienței

10,81K

Limită superioară

Clasament

Favorite