nowe badania dotyczące 445 benchmarków AI • 48% nie zgadza się co do tego, co one mierzą • 39% używa wygodnych, a nie poprawnych danych • 16% testuje istotność statystyczną wciąż nie wiemy, jak mierzyć nasze najpotężniejsze narzędzia IMO traktuj ewaluacje jak sporty, a nie jak SAT konkurencja > testy jasne zasady -> wyniki zrozumiałe dla ludzi