Noi cercetări privind 445 de benchmark-uri AI • 48% nu sunt de acord cu ceea ce măsoară • 39% folosesc date convenabile, necorecte • 16% semnificație statistică a testului încă nu știm cum să ne măsurăm cele mai puternice instrumente IMO tratează evaluările ca pe sport, nu ca pe SAT Concurs > teste reguli clare > rezultate ușor de înțeles