nova pesquisa sobre 445 benchmarks de IA • 48% discordam sobre o que medem • 39% usam dados convenientes, não corretos • 16% testam a significância estatística ainda não sabemos como medir nossas ferramentas mais poderosas Na minha opinião, trate as avaliações como esportes, não como o SAT competição > testes regras claras -> resultados compreensíveis para humanos