nuove ricerche su 445 benchmark AI • 48% non è d'accordo su cosa misurano • 39% utilizza dati convenienti, non corretti • 16% testa la significatività statistica non sappiamo ancora come misurare i nostri strumenti più potenti IMO considera le valutazioni come sport, non come il SAT competizione > test regole chiare -> risultati comprensibili per gli esseri umani