DApp Store | Centrum Web3 pro události a hry

Populární témata

Nový příspěvek: nanochat minisérie v1 Správný způsob, jak uvažovat o LLM, je, že neoptimalizujete pro jeden konkrétní model, ale pro rodinu modelů řízených jedním kolečkem (výpočtovou kapacitou, kterou chcete vynaložit), abyste dosáhli monotónně lepších výsledků. To vám umožní provádět pečlivou vědu o škálovacích zákonech a nakonec vám to dává jistotu, že když zaplatíte za "velký běh", extrapolace bude fungovat a vaše peníze budou dobře využity. Při prvním veřejném vydání nanochatu jsem se zaměřil na end-to-end pipeline, který provozuje celý LLM pipeline se všemi jeho fázemi. Teď, po několika předchozích pokusech o YOLO, se vracím k tomu, abych rozpracoval některé části, kterými jsem prošel, samozřejmě začínaje předtréninkem, který je výpočetně náročný a zásadní jako základ inteligence a znalostí v těchto modelech. Po lokálním ladění některých hyperparametrů jsem vyřadil několik modelů, které opravovaly rozpočet FLOP. (Pro každý cíl FLOPs můžete trénovat malý model dlouhou dobu, nebo velký model na krátkou dobu.) Ukazuje se, že nanochat dodržuje velmi pěkné škálovací zákony, v podstatě reprodukuje papírové grafy Chinchilla: Což je jen dětská verze tohoto příběhu od Chinchilly: Velmi důležité a povzbudivé je, že exponent na N (parametrech) a D (tokenech) je roven v bodě ~=0,5, takže stejně jako u Chinchilly máme jednu (výpočtově nezávislou) konstantu, která vztahuje velikost modelu k trénovacím horizontům tokenů. U Chinchilly bylo toto číslo naměřeno na 20. V nanochatu to vypadá na 8! Jakmile budeme schopni trénovat optimální výpočetní modely, vyřadil jsem minisérii od d10 do d20, což jsou nanochat velikosti schopné zvládnout 2**19 ~= 0,5 milionu batch velikostí na uzlu 8XH100 bez akumulace gradientů. Dostaneme hezké, ne-itersekující tréninkové grafy pro každou velikost modelu. Pak je zábavnější spojit tuto minisérii v1 s minisériemi GPT-2 a GPT-3, abychom věděli, že jsme na správné cestě. Validační ztráta má mnoho problémů a není srovnatelná, proto místo toho používám CORE skóre (z článku DCLM). Vypočítal jsem to pro GPT-2 a odhadl pro GPT-3, což nám konečně umožňuje hezky a na stejné škále dát nanochat: Celkové náklady na tuto minisérii jsou pouze ~$100 (~4 hodiny na 8XH100). Tyto experimenty nám dávají jistotu, že vše funguje docela dobře a že pokud zaplatíme více (otočíme ovladačem), získáme stále lepší modely. Stručně: můžeme trénovat optimální minisérie výpočetní techniky a vztahovat je k GPT-2/3 pomocí objektivních skóre CORE, ale další vylepšení jsou žádoucí a potřebná. Například odpovídající GPT-2 momentálně vyžaduje ~$500, ale podle mě by mělo být možné udělat <$100 s více práce. Celý příspěvek s mnohem více detaily najdete zde: A veškeré ladění a kód jsou tlačeny na mastering a lidé je mohou reprodukovat pomocí scaling_laws .sh, miniserií .sh bash skriptů.

Top

Hodnocení

Oblíbené