📣 新的 Vals AI 基準剛剛發布 📣 我們建立了 SAGE 基準,因為發現模型在評分學生作業時遇到困難。矛盾的是,最好的模型現在可以解決具有挑戰性的數學問題並贏得 IMO,但在評分時卻難以突破 50%。 (1/5)