これは超面白いです!ScaleAI と AI Risks は、リモート労働指数 (RLI) を発表しました - Scale AI の新しいリモート労働指数 (RLI) ベンチマークでは、最先端の AI エージェントでさえ、実際のリモート ジョブをプロ品質でほとんど実行できないことが明らかになりました。 - トップパフォーマーのマヌスは、自動化率が2.5%にとどまり、ほぼすべてのプロジェクトが依然として人間の専門知識を必要としていました。 -しかし、リーダーボードは、Claude Sonnet 4.5、GPT-5、Gemini 2.5 Proなどのモデル全体で着実な進歩を示しており、完全自動化が飛躍的ではなく段階的な改良によって少しずつ前進する可能性があることを示唆しています。