DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Neuer Beitrag: nanochat Miniserie v1 Die richtige Denkweise über LLMs ist, dass man nicht für ein einzelnes spezifisches Modell optimiert, sondern für eine Familie von Modellen, die durch einen einzigen Regler (die Rechenleistung, die man ausgeben möchte) gesteuert werden, um monoton bessere Ergebnisse zu erzielen. Dies ermöglicht es, sorgfältige Wissenschaft über Skalierungsgesetze zu betreiben, und letztendlich gibt es einem das Vertrauen, dass, wenn man für "den großen Lauf" bezahlt, die Extrapolation funktionieren wird und das Geld gut angelegt ist. Bei der ersten öffentlichen Veröffentlichung von nanochat lag mein Fokus auf einer End-to-End-Pipeline, die die gesamte LLM-Pipeline mit all ihren Phasen durchläuft. Jetzt, nachdem ich einige Läufe früher YOLO gemacht habe, komme ich zurück, um einige der Teile auszuarbeiten, die ich schnell durchgegangen bin, beginnend natürlich mit dem Pretraining, das sowohl rechenintensiv als auch entscheidend als Grundlage für Intelligenz und Wissen in diesen Modellen ist. Nachdem ich einige der Hyperparameter lokal abgestimmt habe, habe ich eine Reihe von Modellen erstellt, wobei ich das FLOPs-Budget festgelegt habe. (Für jedes FLOPs-Ziel kann man ein kleines Modell lange trainieren oder ein großes Modell kurz.) Es stellt sich heraus, dass nanochat sehr schöne Skalierungsgesetze befolgt, die im Grunde die Plots aus dem Chinchilla-Papier reproduzieren: Das ist nur eine kleine Version dieses Plots aus Chinchilla: Sehr wichtig und ermutigend ist, dass der Exponent bei N (Parametern) und D (Tokens) bei ~=0,5 gleich ist, sodass wir, genau wie Chinchilla, eine einzelne (rechenunabhängige) Konstante erhalten, die die Modellgröße mit den Token-Trainingshorizonten in Beziehung setzt. In Chinchilla wurde dies auf 20 gemessen. In nanochat scheint es 8 zu sein! Sobald wir rechenoptimale Modelle trainieren können, habe ich eine Miniserie von d10 bis d20 erstellt, die nanochat-Größen sind, die 2**19 ~= 0,5M Batch-Größen auf einem 8XH100-Knoten ohne Gradientenspeicherung durchführen können. Wir erhalten hübsche, nicht überlappende Trainingsplots für jede Modellgröße. Der interessante Teil besteht dann darin, diese Miniserie v1 mit den GPT-2- und GPT-3-Miniserien in Beziehung zu setzen, damit wir wissen, dass wir auf dem richtigen Weg sind. Der Validierungsverlust hat viele Probleme und ist nicht vergleichbar, also verwende ich stattdessen den CORE-Score (aus dem DCLM-Papier). Ich habe ihn für GPT-2 berechnet und für GPT-3 geschätzt, was es uns ermöglicht, nanochat schön und auf derselben Skala zu platzieren: Die Gesamtkosten dieser Miniserie betragen nur ~$100 (~4 Stunden auf 8XH100). Diese Experimente geben uns das Vertrauen, dass alles ziemlich gut funktioniert und dass, wenn wir mehr bezahlen (den Regler drehen), wir zunehmend bessere Modelle erhalten. TLDR: Wir können rechenoptimale Miniserien trainieren und sie über objektive CORE-Scores mit GPT-2/3 in Beziehung setzen, aber weitere Verbesserungen sind wünschenswert und notwendig. Z.B. benötigt das Matching mit GPT-2 derzeit ~$500, sollte meiner Meinung nach aber mit mehr Arbeit unter $100 möglich sein. Der vollständige Beitrag mit viel mehr Details ist hier: Und all das Tuning und der Code sind auf master gepusht, und die Leute können dies mit den Skripten scaling_laws .sh und miniseries .sh reproduzieren.

Top

Ranking

Favoriten