📣 新しいVals AIベンチマークがリリース📣されたばかり 私たちは、モデルが学生の作品を採点するのに苦労していることを発見した後、SAGE ベンチマークを構築しました。逆説的ですが、最高のモデルは、難しい数学の問題を解く + IMO で優勝できますが、採点時に 50% を破るのに苦労しています。 (1/5)