📣 新的 Vals AI 基准刚刚发布 📣 我们在发现模型在评估学生作业时存在困难后,构建了 SAGE 基准。矛盾的是,最好的模型现在可以解决具有挑战性的数学问题并赢得 IMO,但在评分时却难以突破 50%。 (1/5)