Setelah melihat nanochat @karpathy, saya menjadi terobsesi dengan gagasan untuk menggunakan penyempurnaan GRPO secara lokal di Mac. Saya membuatnya bekerja dan membuka semuanya di sini Berikut nanochat yang membahas langkah-langkah memecahkan kumpulan data GSM8K, meskipun mungkin terlalu berlebihan untuk itu 😅
Bagian tersulit, nanochat tidak memiliki dukungan MLX penuh. Itu hanya ada sebagai file .pt PyTorch dengan tokenizer tiktoken khusus. Harus: - Bangun konverter PyTorch → MLX - Cari tahu format tokenizer - Buat semuanya bekerja dengan GRPO
Dalam repositori ini saya membahas detail konversi nanochat ke MLX. Bekerja untuk KEDUA model: - Asli 20 lapis - 32 lapis Karpathy yang lebih besar (d32) Setelah dikonversi → jalankan GRPO pada himpunan data apa pun yang Anda inginkan.
Ini adalah eksperimental, tetapi saya pikir ini menunjukkan kemungkinan masa depan: penyempurnaan model lokal yang kuat pada kumpulan data khusus. Repo juga mencakup: - Utilitas untuk mengonversi model ke MLX - Alat inferensi - GRPO bekerja dengan model APAPUN (bukan hanya nanochat!)
15,69K