跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-1.99%
USELESS
+2.22%
IKUN
-4.34%
gib
+5.42%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+0.24%
ALON
+1.04%
LAUNCHCOIN
+4.66%
GOONC
-2.93%
KLED
-9.32%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.38%
Boopa
-1.74%
PORK
+2.15%
主頁
METR
一家 AI 研究非營利組織,致力於推進對 AI 系統進行實證測試的科學研究,以評估可能對社會造成災難性傷害的能力。
查看原文
METR
18 小時前
我們估計,在我們的任務中,Claude Opus 4.5 的 50% 時間範圍約為 4 小時 49 分鐘(95% 置信區間為 1 小時 49 分鐘到 20 小時 25 分鐘)。雖然我們仍在對其他最近的模型進行評估,但這是我們迄今為止發佈的最高時間範圍。
26
METR
12月5日 03:03
如果我們希望世界了解先進的AI能力和風險,我們需要嚴謹、透明的評估。我們很高興能夠通過AI評估者論壇與其他獨立評估者合作,提高測量最佳實踐的標準。
AI Evaluator Forum
12月5日 02:04
今天我們宣布成立 AI 評估論壇:一個專注於獨立第三方評估的領先 AI 研究機構聯盟。 創始 AEF 成員:@TransluceAI @METR_Evals @RANDCorporation @halevals @SecureBio @collect_intel @Miles_Brundage
50
METR
2025年11月21日
我們估計 Kimi K2 Thinking 在我們的代理 SWE 任務上有約 54 分鐘的 50% 時間範圍(95% 置信區間為 25 到 100 分鐘)。請注意,我們是通過第三方推斷提供者進行此評估的,這降低了我們對此估計的信心。
505
熱門
排行
收藏