Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uusi blogikirjoitus! Tämä on puhtaasti teoreettinen ja yrittää tunnistaa keskeisen syyn siihen, miksi LLM:t kärsivät RL:n moodiromahtamisesta eivätkä pysty tuottamaan uusia tai todella erilaisia tuloksia. Se on itse asiassa paljon monimutkaisempi ongelma kuin luuletkaan!
Naiivisti etsintään kannustaminen korkeammilla lämpötiloilla, tuotoksen entropian säätelyllä, pass@k mittareilla jne. ei riitä välttämään pullonkaulojen etsintää RL:n aikana.
Artikkelissa ehdotetaan uutta teoriaa siitä, miksi näin on ja miten se ratkaistaan, nimittäin käyttämällä hajautettua vahvistusoppimista mallien "ekosysteemin" luomiseen yhden keskitetyn instanssin sijaan.

Johtavat
Rankkaus
Suosikit

