Nytt innlegg: nanochat miniserie v1 Den riktige måten å tenke på LLM-er er at du ikke optimaliserer for én enkelt spesifikk modell, men for familiemodeller styrt av én skive (den beregningen du ønsker å bruke) for å oppnå monotont bedre resultater. Dette gjør at du kan drive nøye vitenskap om skaleringslover, og til slutt er det dette som gir deg tryggheten om at når du betaler for «den store løpet», vil ekstrapoleringen fungere og pengene dine bli godt brukt. For den første offentlige utgivelsen av nanochat fokuserte jeg på en ende-til-ende pipeline som kjører hele LLM-pipelinen med alle stadier. Nå, etter å ha YOLO-et noen gjennomspillinger tidligere, kommer jeg tilbake for å utdype noen av delene jeg hastet gjennom, med utgangspunkt i fortrening, som både er beregningsmessig tung og kritisk som grunnlaget for intelligens og kunnskap i disse modellene. Etter å ha finjustert noen av hyperparametrene lokalt, feide jeg ut flere modeller som fikset FLOP-budsjettet. (For hvert FLOP-mål kan du trene en liten modell over lang tid, eller en stor modell over en kort periode.) Det viser seg at nanochat følger veldig fine skaleringslover, og gjengir i praksis Chinchilla-papirplottene: Som bare er en babyversjon av denne handlingen fra Chinchilla: Veldig viktig og oppmuntrende er eksponenten på N (parametere) og D (tokens) lik ved ~=0,5, så akkurat som Chinchilla får vi en enkelt (beregningsuavhengig) konstant som relaterer modellstørrelsen til token-treningshorisonter. I Chinchilla ble dette målt til 20. I nanochat ser det ut til å være 8! Når vi kan trene optimale, beregnende modeller, har jeg fjernet en miniserie fra d10 til d20, som er nanochat-størrelser som kan gjøre 2**19 ~= 0,5M batch-størrelser på 8XH100-noden uten gradientakkumulering. Vi får pene, ikke-itersekerende treningsplott for hver modellstørrelse. Så er det morsomme å knytte denne miniserien v1 til GPT-2 og GPT-3 miniseriene, slik at vi vet at vi er på rett spor. Valideringstap har mange problemer og kan ikke sammenlignes, så i stedet bruker jeg CORE-scoren (fra DCLM-artikkelen). Jeg beregnet det for GPT-2 og estimerte det for GPT-3, noe som gjør at vi endelig kan sette nanochat pent og på samme skala: Den totale kostnaden for denne miniserien er bare ~100 dollar (~4 timer på 8XH100). Disse eksperimentene gir oss tillit til at alt fungerer ganske bra, og at hvis vi betaler mer (vrir på skiven), får vi stadig bedre modeller. Kort oppsummert: vi kan trene til å beregne optimale miniserier og relatere dem til GPT-2/3 via objektive CORE-poeng, men ytterligere forbedringer er ønskelige og nødvendige. For eksempel krever matching av GPT-2 for øyeblikket ~500 dollar, men etter min mening burde det være mulig å gjøre <100 dollar med mer arbeid. Fullstendig innlegg med mye mer detaljer finner du her: Og all tuning og kode blir pushet til master, og folk kan gjenskape disse med scaling_laws .sh og miniserier .sh bash-skript.