nghiên cứu mới về 445 tiêu chuẩn AI • 48% không đồng ý về những gì chúng đo lường • 39% sử dụng dữ liệu thuận tiện, không chính xác • 16% kiểm tra ý nghĩa thống kê chúng ta vẫn chưa biết cách đo lường những công cụ mạnh mẽ nhất của mình Theo ý kiến của tôi, hãy coi việc đánh giá như thể thao, không phải như SAT cạnh tranh > bài kiểm tra quy tắc rõ ràng -> kết quả dễ hiểu cho con người