DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Dari sudut pandang saya, rl adalah cara yang lebih dapat ditoleransi untuk mengatakan data sintetis yang tidak disukai semua orang dua tahun yang lalu ketika saya mulai melakukan pengambilan sampel penolakan untuk membuat Hermes 1. Data sintetis (termasuk data semi sintetis) telah menjadi saat ini sejak ChatGPT keluar.

@gregcoppola5d @kalomaze Untuk kejelasan, kami hanya membutuhkan ~25 sampel sft untuk memecahkan rekor yang pasti dilakukan grok untuk dicapai dengan intens dan mahal

@niklassheth @kalomaze Hal-hal yang berhasil semuanya adalah peluncuran berputar dengan verifikator atau kualifikasi data. Dengan itu semua hal mungkin. Bagian rl online hanyalah peningkatan efisiensi

10,59K

Teratas

Peringkat

Favorit