445のAIベンチマークに関する新しい研究 • 48%が測定対象について同意しない •39%は、正しくない便利なデータを使用しています - 16%の検定統計的有意性 最も強力なツールを測定する方法はまだわかりません IMOは評価をSATではなくスポーツのように扱います テスト>競技 明確なルール - 人間が理解できる結果>