Vi anslår at Kimi K2 Thinking har en 50 % tidshorisont på rundt 54 minutter (95 % konfidensintervall på 25 til 100 minutter) på våre agentiske SWE-oppgaver. Merk at vi gjennomførte denne evalueringen gjennom en tredjeparts inferensleverandør, noe som reduserer vår tillit til dette estimatet.