Dari sudut pandang saya, rl adalah cara yang lebih dapat ditoleransi untuk mengatakan data sintetis yang tidak disukai semua orang dua tahun yang lalu ketika saya mulai melakukan pengambilan sampel penolakan untuk membuat Hermes 1. Data sintetis (termasuk data semi sintetis) telah menjadi saat ini sejak ChatGPT keluar.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15 Okt, 14.33
orang-orang yang mengatakan, samar-samar dan tanpa penjelasan, bahwa RL Bukan Masa Depan selalu membingungkan saya itu seperti menghapus "pembelajaran tanpa pengawasan" sebagai Bukan Masa Depan
@gregcoppola5d @kalomaze Untuk kejelasan, kami hanya membutuhkan ~25 sampel sft untuk memecahkan rekor yang pasti dilakukan grok untuk dicapai dengan intens dan mahal
@niklassheth @kalomaze Hal-hal yang berhasil semuanya adalah peluncuran berputar dengan verifikator atau kualifikasi data. Dengan itu semua hal mungkin. Bagian rl online hanyalah peningkatan efisiensi
10,59K