nouvelles recherches sur 445 benchmarks d'IA • 48 % ne s'accordent pas sur ce qu'ils mesurent • 39 % utilisent des données pratiques, pas correctes • 16 % testent la signification statistique nous ne savons toujours pas comment mesurer nos outils les plus puissants À mon avis, traitez les évaluations comme des sports, pas comme le SAT compétition > tests règles claires -> résultats compréhensibles par l'homme