После того как я увидел @karpathy nanochat, я стал одержим идеей использовать дообучение GRPO локально на Mac. Я заставил это работать и открываю весь проект здесь. Вот nanochat, проходящий через этапы решения набора данных GSM8K, хотя это может быть слишком сложно для него 😅
Самая сложная часть заключалась в том, что nanochat не имел полной поддержки MLX. Он существовал только в виде файлов PyTorch .pt с пользовательским токенизатором tiktoken. Пришлось: - Создать конвертер PyTorch → MLX - Разобраться с форматом токенизатора - Сделать так, чтобы все это работало с GRPO
В этом репозитории я подробно рассказываю о преобразовании nanochat в MLX. Работает для ОБОИХ моделей: - Оригинальная 20-слойная - Большая 32-слойная модель Карпаты (d32) После преобразования → запустите GRPO на любом наборе данных, который вы хотите.
Это экспериментально, но я думаю, что это показывает возможное будущее: сильная донастройка локальных моделей на специализированных наборах данных. Репозиторий также включает: - Утилиты для конвертации моделей в MLX - Инструменты для вывода - GRPO работает с ЛЮБОЙ моделью (не только с nanochat!)
15,67K