nieuwe onderzoeken naar 445 AI benchmarks • 48% is het oneens over wat ze meten • 39% gebruikt handige, niet correcte, gegevens • 16% test statistische significantie we weten nog steeds niet hoe we onze krachtigste tools moeten meten IMO behandel evaluaties als sport, niet als de SAT competitie > tests duidelijke regels -> menselijk begrijpelijke resultaten