Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowy post na blogu! Ten jest czysto teoretyczny i próbuje zidentyfikować główny powód, dla którego LLM-y cierpią na zjawisko kolapsu trybów w RL i nie są w stanie generować nowatorskich lub naprawdę zróżnicowanych wyników. To w rzeczywistości znacznie bardziej skomplikowany problem, niż myślisz!
Naivna zachęta do eksploracji poprzez wyższe temperatury, regulację entropii wyjścia, metryki pass@k itp. nie jest wystarczająca, aby uniknąć wąskich gardeł w eksploracji podczas RL.
Artykuł proponuje nową teorię, dlaczego tak się dzieje i jak to rozwiązać, mianowicie poprzez wykorzystanie zdecentralizowanego uczenia przez wzmocnienie do stworzenia "ekosystemu" modeli, a nie tylko jednej scentralizowanej instancji.

Najlepsze
Ranking
Ulubione

