Nova pesquisa sobre 445 benchmarks de IA • 48% discordam sobre o que medem • 39% usam dados convenientes, não corretos • 16% de significância estatística do teste Ainda não sabemos como medir nossas ferramentas mais poderosas IMO trata as avaliações como esportes, não o SAT Competição > testes regras claras - > resultados compreensíveis por humanos