真是荒謬,OpenAI聲稱在SWE-Bench上達到74.9%,只是為了證明他們超過了Opus 4.1的74.5%…… 通過在477個問題上運行,而不是完整的500個。 他們的系統卡上也只顯示74%。
源:
是的,我知道他們一直報告477的分母,但那並不是「SWE-Bench 驗證」,那是完全不同的指標,它是「OpenAI 的 SWE Bench 驗證子集」,這個數字無法進行比較。
23.26K