Pos baru: miniseri nanochat v1 Cara yang benar untuk berpikir tentang LLM adalah bahwa Anda tidak mengoptimalkan untuk satu model tertentu tetapi untuk model keluarga yang dikendalikan oleh satu dial (komputasi yang ingin Anda belanjakan) untuk mencapai hasil yang lebih baik secara monoton. Ini memungkinkan Anda untuk melakukan ilmu yang cermat tentang hukum penskalaan dan pada akhirnya inilah yang memberi Anda keyakinan bahwa ketika Anda membayar untuk "lari besar", ekstrapolasi akan berhasil dan uang Anda akan dibelanjakan dengan baik. Untuk rilis publik pertama nanochat, fokus saya adalah pada pipeline end-to-end yang menjalankan seluruh pipeline LLM dengan semua tahapnya. Sekarang setelah YOLOing beberapa kali sebelumnya, saya kembali untuk menyempurnakan beberapa bagian yang saya lalui, dimulai tentu saja dengan pra-pelatihan, yang secara komputasi berat dan penting sebagai dasar kecerdasan dan pengetahuan dalam model ini. Setelah menyetel beberapa hiperparameter secara lokal, saya menyapu sejumlah model memperbaiki anggaran FLOP. (Untuk setiap target FLOP, Anda dapat melatih model kecil dalam waktu yang lama, atau model besar untuk waktu yang singkat.) Ternyata nanochat mematuhi hukum penskalaan yang sangat bagus, pada dasarnya mereproduksi plot kertas Chinchilla: Yang hanya versi bayi dari plot dari Chinchilla ini: Sangat penting dan menggembirakan, eksponen pada N (parameter) dan D (token) sama pada ~=0,5, jadi seperti Chinchilla kita mendapatkan konstanta tunggal (independen komputasi) yang menghubungkan ukuran model dengan cakrawala pelatihan token. Di Chinchilla, ini diukur menjadi 20. Di nanochat sepertinya 8! Setelah kami dapat melatih model komputasi optimal, saya menyapu miniseri dari d10 hingga d20, yang merupakan ukuran nanochat yang dapat melakukan ukuran batch 2**19 ~= 0,5M pada node 8XH100 tanpa akumulasi gradien. Kami mendapatkan plot pelatihan yang cantik dan tidak berulang untuk setiap ukuran model. Kemudian bagian yang menyenangkan adalah menghubungkan miniseri v1 ini dengan miniseri GPT-2 dan GPT-3 sehingga kita tahu bahwa kita berada di jalur yang benar. Kehilangan validasi memiliki banyak masalah dan tidak sebanding, jadi sebagai gantinya saya menggunakan skor CORE (dari makalah DCLM). Saya menghitungnya untuk GPT-2 dan memperkirakannya untuk GPT-3, yang memungkinkan kita untuk akhirnya menempatkan nanochat dengan baik dan pada skala yang sama: Total biaya miniseri ini hanya ~$100 (~4 jam di 8XH100). Eksperimen ini memberi kita keyakinan bahwa semuanya bekerja dengan cukup baik dan jika kita membayar lebih (putar dial), kita mendapatkan model yang semakin baik. TLDR: kami dapat melatih miniseri komputasi optimal dan menghubungkannya dengan GPT-2/3 melalui skor CORE objektif, tetapi peningkatan lebih lanjut diinginkan dan diperlukan. Misalnya, mencocokkan GPT-2 saat ini membutuhkan ~$500, tetapi imo seharusnya dapat melakukan <$100 dengan lebih banyak pekerjaan. Posting lengkap dengan lebih banyak detail ada di sini: Dan semua penyetelan dan kode didorong untuk dikuasai dan orang dapat mereproduksinya dengan scaling_laws .sh dan miniseri .sh skrip bash.