بحث جديد حول 445 معيارا للذكاء الاصطناعي • 48٪ لا يوافقون على ما يقيسونه. • 39٪ يستخدمون بيانات مريحة وغير صحيحة • 16٪ اختبار الدلالة الإحصائية ما زلنا لا نعرف كيفية قياس أقوى أدواتنا IMO تعامل evals مثل الرياضة ، وليس SAT اختبارات > المنافسة قواعد واضحة - > نتائج مفهومة للإنسان