📣 Nouveau benchmark Vals AI vient d'être publié 📣 Nous avons créé le benchmark SAGE après avoir constaté que les modèles ont du mal à évaluer le travail des étudiants. Paradoxalement, les meilleurs modèles peuvent maintenant résoudre des problèmes mathématiques difficiles + gagner l'IMO mais peinent à dépasser 50 % lors de l'évaluation. (1/5)