📣 Tolok ukur Vals AI baru saja dirilis 📣 Kami membangun tolok ukur SAGE setelah menemukan bahwa model kesulitan untuk menilai pekerjaan siswa. Paradoksnya, model terbaik sekarang dapat memecahkan masalah matematika yang menantang + memenangkan IMO tetapi berjuang untuk menembus 50% saat menilai. (1/5)