новое исследование по 445 бенчмаркам ИИ • 48% не согласны с тем, что они измеряют • 39% используют удобные, но некорректные данные • 16% тестируют статистическую значимость мы все еще не знаем, как измерить наши самые мощные инструменты На мой взгляд, относитесь к оценкам как к спорту, а не к SAT конкуренция > тесты четкие правила -> результаты, понятные человеку