📣 Nuovo benchmark Vals AI appena rilasciato 📣 Abbiamo costruito il benchmark SAGE dopo aver scoperto che i modelli faticano a valutare il lavoro degli studenti. Paradossalmente, i migliori modelli possono ora risolvere problemi matematici difficili + vincere l'IMO ma faticano a superare il 50% nella valutazione. (1/5)