neue Forschung zu 445 KI-Benchmarks • 48 % sind sich uneinig, was sie messen • 39 % verwenden bequeme, nicht korrekte Daten • 16 % testen die statistische Signifikanz wir wissen immer noch nicht, wie wir unsere leistungsstärksten Werkzeuge messen sollen IMO behandelt Bewertungen wie Sport, nicht wie den SAT Wettbewerb > Tests klare Regeln -> für Menschen verständliche Ergebnisse