這真是太有趣了!ScaleAI 和 AI Risks 剛剛發布了遠程勞動指數 (RLI) - Scale AI 的新遠程勞動指數 (RLI) 基準顯示,即使是最先進的 AI 代理也幾乎無法以專業質量執行現實世界的遠程工作。 - 表現最佳的 Manus 僅達到 2.5% 的自動化率,這意味著幾乎所有項目仍然需要人類專業知識。 - 然而,排行榜顯示像 Claude Sonnet 4.5、GPT-5 和 Gemini 2.5 Pro 等模型在穩步進步,暗示完全自動化可能會通過漸進式的改進而非飛躍性進展。