Poté, co jsem viděl @karpathy nanochat, jsem byl posedlý myšlenkou použít GRPO pro jemné doladění lokálně na Macu. Zprovoznil jsem to a celé to tady otevřel Zde je nanochat, který prochází kroky řešení GSM8K datasetu, i když toho na něj 😅 může být příliš
Nejtěžší na tom bylo, že nanochat neměl plnou podporu MLX. Existoval pouze jako soubory PyTorch .pt s vlastním tokenizérem tiktokenů. Musel: - Sestavení převodníku PyTorch → MLX - Zjistěte formát tokenizátoru - Zajistěte, aby to vše fungovalo s GRPO
V tomto úložišti se zabývám podrobnostmi převodu nanochatu na MLX. Funguje pro OBA modely: - Originální 20-vrstvá - Karpathyho větší 32-vrstvý (d32) Po převodu → spustit GRPO na libovolné datové sadě, kterou chcete.
Je to experimentální, ale myslím, že to ukazuje možnou budoucnost: silné dolaďování lokálních modelů na specializovaných datových sadách. Součástí repo je také: - Nástroje pro převod modelů do MLX - Nástroje pro odvozování - GRPO pracuje s JAKÝMKOLI modelem (nejen nanochat!)
15,46K