一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

真是荒謬，OpenAI聲稱在SWE-Bench上達到74.9%，只是為了證明他們超過了Opus 4.1的74.5%…… 通過在477個問題上運行，而不是完整的500個。他們的系統卡上也只顯示74%。

源：

是的，我知道他們一直報告477的分母，但那並不是「SWE-Bench 驗證」，那是完全不同的指標，它是「OpenAI 的 SWE Bench 驗證子集」，這個數字無法進行比較。

23.26K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可