很高兴分享我们对高效推理@LiquidAI_工作的见解: 我们将 1.3B 通用聊天模型变成一个保持简洁的强大数学推理器。精选 CoT 跟踪上的 SFT 解锁了强大的推理,有针对性的 RL 控制了冗长性。 该配方很简单,为非基于 Qwen 的模型提供了一个有趣的数据点。这仍然是基于我们的第一代 LFM - 对下一代感到兴奋! 请在我们的博客文章中找到详细信息!
@LiquidAI_
4.14K