Språkmodeller som tenker og chatter bedre Foreslår en enkel RL-oppskrift for å forbedre små åpne modeller (f.eks. 8B) som konkurrerer med GPT-4o og Claude 3.7 Sonnet (tenkning). Vær oppmerksom på denne, AI-utviklere! Her er notatene mine: