Emocionado de compartir ideas sobre nuestro trabajo sobre razonamiento eficiente @LiquidAI_: Convertimos un modelo de chat general 1.3B en un sólido razonador matemático que sigue siendo conciso. SFT en rastreos de CoT seleccionados desbloquea un razonamiento sólido y RL específico controla la verbosidad. La receta es simple y proporciona un punto de datos interesante para modelos no basados en Qwen. Esto todavía se basa en nuestra primera generación de LFM, ¡entusiasmados con la próxima generación! ¡Encuentre detalles en nuestra publicación de blog!
@LiquidAI_
4.17K