În opinia mea, SWE-bench și T-bench sunt puținele repere care au un semnal bun în ceea ce privește cât de mult progres facem cu modelele. Acest model funcționează la fel de bine ca Qwen3 Coder și este cu doar 10% mai rău decât GPT-5, fiind în același timp un LLM de uz general, mai degrabă decât specializat în cod.