DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Nytt blogginlägg! Den här är ett rent teoretiskt försök att identifiera den centrala orsaken till att LLM:er lider av lägeskollaps i RL och misslyckas med att generera nya eller verkligt olika resultat. Det är faktiskt ett mycket mer komplicerat problem än du tror! Att naivt uppmuntra prospektering genom högre temperaturer, reglering av utdataentropi, pass@k mätvärden etc. är inte tillräckligt för att undvika flaskhalsar för prospektering under RL. Artikeln föreslår en ny teori om varför detta är fallet och hur man löser det, nämligen genom att använda decentraliserad förstärkningsinlärning för att skapa ett "ekosystem" av modeller snarare än bara en centraliserad instans.

Topp

Rankning

Favoriter