ARC-AGI-1 セミプライベート評価の Anthropic Haiku 4.5 Haiku 4.5: 14.33%、0.03 ドル/タスク - 思考 1K: 16.8%、0.03 ドル/タスク - 考える 8K: 25.5%、$0.07/タスク - 思考 16K: 37.3%、$0.10/タスク - 考える 32K: 47.6%、0.26 ドル/タスク
ARC-AGI-2 セミプライベート評価の Anthropic Haiku 4.5 Haiku 4.5: 1.25%、0.04 ドル/タスク - 考える 1K: 1.2%、0.05 ドル/タスク - 考える 8K: 1.7%、0.09 ドル/タスク - 思考 16K: 2.8%、0.14 ドル/タスク - 思考 32K: 4.0%、0.38 ドル/タスク
- リーダーボード: - 結果を再現します。 - テストポリシー: - 公開データの結果:
26.93K