Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den mest interessante delen for meg er hvor @karpathy beskriver hvorfor LLM-er ikke er i stand til å lære som mennesker.
Som du forventer, kommer han med en fantastisk stemningsfull setning for å beskrive RL: "suger tilsynsbiter gjennom et sugerør."
En enkelt sluttbelønning blir kringkastet over hvert token i en vellykket bane, og oppvekter selv feil eller irrelevante svinger som fører til det riktige svaret.
> "Mennesker bruker ikke forsterkende læring, som jeg har sagt før. Jeg tror de gjør noe annerledes. Forsterkende læring er mye verre enn gjennomsnittspersonen tror. Forsterkende læring er forferdelig. Det har seg slik at alt vi hadde før er mye verre.»
Så hva gjør mennesker i stedet?
> «Boken jeg leser er et sett med oppfordringer til meg om å gjøre syntetisk datagenerering. Det er ved å manipulere den informasjonen at du faktisk får den kunnskapen. Vi har ingen ekvivalent til det med LLM-er; de gjør egentlig ikke det.»
> «Jeg vil gjerne se et slags stadium der modellen tenker gjennom materialet og prøver å forene det med det den allerede vet. Det er ingen ekvivalent til noe av dette. Alt dette er forskning.»
Hvorfor kan vi ikke bare legge denne opplæringen til LLM-er i dag?
> «Det er veldig subtile, vanskelig å forstå grunner til at det ikke er trivielt. Hvis jeg bare gir en syntetisk generasjon av modellen ved å tenke på en bok, ser du på den og tenker: 'Dette ser bra ut. Hvorfor kan jeg ikke trene på det?' Du kan prøve, men modellen vil faktisk bli mye verre hvis du fortsetter å prøve.»
> «Si at vi har et kapittel i en bok, og jeg ber en LLM om å tenke på det. Det vil gi deg noe som ser veldig rimelig ut. Men hvis jeg spør om det 10 ganger, vil du legge merke til at alle er like.»
> «Du får ikke rikdommen og mangfoldet og entropien fra disse modellene som du ville fått fra mennesker. Hvordan får du syntetisk datagenerering til å fungere til tross for kollapsen og samtidig som entropien opprettholdes? Det er et forskningsproblem.»
Hvordan kommer mennesker seg rundt modellkollaps?
> "Disse analogiene er overraskende gode. Mennesker kollapser i løpet av livet. Barn har ikke overfit ennå. De vil si ting som vil sjokkere deg. Fordi de ennå ikke er kollapset. Men vi [voksne] er kollapset. Vi ender opp med å gå tilbake til de samme tankene, vi ender opp med å si mer og mer av de samme tingene, læringsratene går ned, kollapsen fortsetter å bli verre, og så forverres alt.»
Faktisk er det en interessant artikkel som argumenterer for at drømmer utviklet seg for å hjelpe til med generalisering, og motstå overtilpasning til daglig læring - slå opp The Overfitted Brain etter @erikphoel.
Jeg spurte Karpathy: Er det ikke interessant at mennesker lærer best i en del av livet (barndommen) hvis faktiske detaljer de glemmer fullstendig, voksne lærer fortsatt veldig bra, men har forferdelig hukommelse om detaljene i tingene de leser eller ser på, og LLM-er kan huske vilkårlige detaljer om tekst som ingen mennesker kunne, men som for øyeblikket er ganske dårlige til å generalisere?
...
Topp
Rangering
Favoritter