更聪明、更会聊天的语言模型 提出了一种简单的强化学习配方,以改善小型开放模型(例如,8B),与GPT-4o和Claude 3.7 Sonnet(思考)相媲美。 AI开发者们请注意! 以下是我的笔记: