Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dal mio punto di vista, rl è semplicemente un modo più tollerabile di dire dati sintetici, di cui nessuno era fan due anni fa, quando ho iniziato a fare campionamento di rifiuto per creare Hermes 1.
I dati sintetici (inclusi i dati semi-sintetici) sono stati il presente da quando è uscito ChatGPT.

15 ott, 14:33
le persone che dicono, vagamente e senza spiegazione, che RL non è il futuro mi confondono sempre
è come scartare "apprendimento non supervisionato" come se non fosse il futuro
@gregcoppola5d @kalomaze Per chiarezza, avevamo bisogno solo di ~25 sft campioni per battere quel record che sicuramente grok ha raggiunto con un intenso e costoso rl.
@niklassheth @kalomaze Le cose che funzionano ruotano tutte attorno ai rollout con verificatori o qualificatori dei dati. Con questo, tutto è possibile. La parte online rl è solo un aumento di efficienza.
10,59K
Principali
Ranking
Preferiti