📣 Nuovo benchmark Vals AI appena rilasciato 📣
Abbiamo costruito il benchmark SAGE dopo aver scoperto che i modelli faticano a valutare il lavoro degli studenti. Paradossalmente, i migliori modelli possono ora risolvere problemi matematici difficili + vincere l'IMO ma faticano a superare il 50% nella valutazione.
(1/5)
Il Sonetto 4.5 è stato appena rilasciato – occupa il primo posto nei nostri benchmark di finanza e programmazione! Abbiamo avuto l'opportunità di testare il nuovo modello @claudeai prima del lancio e lo abbiamo trovato eccezionalmente capace, specialmente per applicazioni agentiche.
(1/6)
GPT-5 Codex ha raggiunto prestazioni impressionanti in quasi tutti i benchmark che abbiamo valutato! La cosa più notevole è il suo miglioramento del 10% nel Terminal-Bench rispetto al precedente #1, GPT-5. Congratulazioni al team di @OpenAI per un modello di codifica forte!
(1/6)