Bersemangat untuk berbagi wawasan tentang pekerjaan kami tentang penalaran yang efisien @LiquidAI_ : Kami mengubah model obrolan umum 1,3B menjadi penalaran matematika yang kuat yang tetap ringkas. SFT pada jejak CoT yang dikuratori membuka penalaran yang kuat dan kontrol RL yang ditargetkan bertele-tele. Resepnya sederhana dan memberikan titik data yang menarik untuk model berbasis non-Qwen. Ini masih didasarkan pada LFM generasi pertama kami - bersemangat dengan generasi berikutnya! Silakan temukan detailnya di posting blog kami!
@LiquidAI_
4,14K