这真是太有趣了!ScaleAI 和 AI Risks 刚刚发布了远程劳动指数 (RLI) - Scale AI 的新远程劳动指数 (RLI) 基准显示,即使是最先进的 AI 代理也几乎无法以专业质量执行真实世界的远程工作。 - 表现最好的 Manus 仅实现了 2.5% 的自动化率,这意味着几乎所有项目仍然需要人类的专业知识。 - 然而,排行榜显示,Claude Sonnet 4.5、GPT-5 和 Gemini 2.5 Pro 等模型在稳步进展,这暗示着完全自动化可能通过逐步改进而不是飞跃向前推进。