Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowy post: miniserial nanochat v1
Prawidłowy sposób myślenia o LLM to nie optymalizacja dla jednego konkretnego modelu, ale dla rodziny modeli kontrolowanej przez jeden pokrętło (obliczenia, które chcesz wydać), aby osiągnąć monotonicznie lepsze wyniki. To pozwala na dokładne badania praw scalingowych i ostatecznie to daje ci pewność, że gdy płacisz za "wielkie uruchomienie", ekstrapolacja zadziała, a twoje pieniądze będą dobrze wydane. Przy pierwszym publicznym wydaniu nanochat skupiłem się na end-to-end pipeline, który uruchamia cały pipeline LLM ze wszystkimi jego etapami. Teraz, po YOLOowaniu kilku wcześniejszych uruchomień, wracam, aby rozwinąć niektóre części, które przeleciałem, zaczynając oczywiście od wstępnego treningu, który jest zarówno obliczeniowo intensywny, jak i krytyczny jako fundament inteligencji i wiedzy w tych modelach.
Po lokalnym dostrojeniu niektórych hiperparametrów, przeszukałem szereg modeli, ustalając budżet FLOPs. (Dla każdego celu FLOPs możesz trenować mały model przez długi czas lub duży model przez krótki czas.) Okazuje się, że nanochat przestrzega bardzo ładnych praw scalingowych, zasadniczo reprodukując wykresy z pracy Chinchilla:
Co jest po prostu wersją dziecięcą tego wykresu z Chinchilla:
Bardzo ważne i zachęcające jest to, że wykładnik N (parametry) i D (tokeny) jest równy przy ~=0.5, więc tak jak w Chinchilla otrzymujemy stałą (niezależną od obliczeń), która łączy rozmiar modelu z horyzontami treningowymi tokenów. W Chinchilla zmierzono to na 20. W nanochat wydaje się to być 8!
Gdy możemy trenować modele optymalne pod względem obliczeń, przeszukałem miniserial od d10 do d20, które są rozmiarami nanochat, które mogą obsługiwać 2**19 ~= 0.5M rozmiarów wsadu na węźle 8XH100 bez akumulacji gradientu. Otrzymujemy ładne, nieprzecinające się wykresy treningowe dla każdego rozmiaru modelu.
Potem zabawna część polega na powiązaniu tego miniserialu v1 z miniserialami GPT-2 i GPT-3, aby wiedzieć, że jesteśmy na dobrej drodze. Strata walidacyjna ma wiele problemów i nie jest porównywalna, więc zamiast tego używam wyniku CORE (z pracy DCLM). Obliczyłem go dla GPT-2 i oszacowałem dla GPT-3, co pozwala nam w końcu ładnie umieścić nanochat na tej samej skali:
Całkowity koszt tego miniserialu wynosi tylko ~$100 (~4 godziny na 8XH100). Te eksperymenty dają nam pewność, że wszystko działa całkiem dobrze i że jeśli zapłacimy więcej (przekręcimy pokrętło), otrzymamy coraz lepsze modele.
TLDR: możemy trenować optymalne miniseriale pod względem obliczeń i powiązać je z GPT-2/3 za pomocą obiektywnych wyników CORE, ale dalsze poprawki są pożądane i potrzebne. Np. dopasowanie do GPT-2 obecnie wymaga ~$500, ale moim zdaniem powinno być możliwe do zrobienia za <$100 przy większej pracy.
Pełny post z dużo większą ilością szczegółów jest tutaj:
A cały tuning i kod zostały przesłane do mastera i ludzie mogą to powtórzyć za pomocą skryptów bash scaling_laws .sh i miniseries .sh.




Najlepsze
Ranking
Ulubione
