很高興分享我們對高效推理@LiquidAI_工作的見解: 我們將 1.3B 通用聊天模型變成一個保持簡潔的強大數學推理器。精選 CoT 跟蹤上的 SFT 解鎖了強大的推理,有針對性的 RL 控制了冗長性。 該配方很簡單,為非基於 Qwen 的模型提供了一個有趣的數據點。這仍然是基於我們的第一代 LFM - 對下一代感到興奮! 請在我們的博客文章中找到詳細資訊!
@LiquidAI_
4.14K