我们估计 Kimi K2 Thinking 在我们的代理 SWE 任务上具有大约 54 分钟的 50% 时间范围(95% 置信区间为 25 到 100 分钟)。请注意,我们通过第三方推理提供者进行了此评估,这降低了我们对该估计的信心。