DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Dal mio punto di vista, rl è semplicemente un modo più tollerabile di dire dati sintetici, di cui nessuno era fan due anni fa, quando ho iniziato a fare campionamento di rifiuto per creare Hermes 1. I dati sintetici (inclusi i dati semi-sintetici) sono stati il presente da quando è uscito ChatGPT.

@gregcoppola5d @kalomaze Per chiarezza, avevamo bisogno solo di ~25 sft campioni per battere quel record che sicuramente grok ha raggiunto con un intenso e costoso rl.

@niklassheth @kalomaze Le cose che funzionano ruotano tutte attorno ai rollout con verificatori o qualificatori dei dati. Con questo, tutto è possibile. La parte online rl è solo un aumento di efficienza.

10,59K

Principali

Ranking

Preferiti