跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-26.4%
USELESS
-16.83%
IKUN
-9.26%
gib
-14.64%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-15.08%
ALON
-6.17%
LAUNCHCOIN
-20.16%
GOONC
-15.33%
KLED
-15.3%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-17.95%
Boopa
-16.18%
PORK
-16.56%
主頁
Bing Liu
研究@Scale_AI主任。上一篇: GenAI @Meta, PhD @CarnegieMellon.
查看原文
Bing Liu
2025年10月30日
AI真的能自動化工作嗎? @Scale_AI 和 @ai_risks 正在推出遠程勞動指數(RLI),這是第一個基準和公共排行榜,測試AI代理在軟體工程、設計、建築、數據分析等領域完成真實、有償自由職業工作的能力。 初步結果顯示當前模型的局限性。最頂尖的AI代理僅完成了2.5%的真實自由職業工作,表現優於人類。AI很強大,但尚未可靠到可以取代熟練勞動力。 RLI為我們提供了一種透明的方式來追蹤進展,並為未來的工作帶來清晰度。
71.92K
262
Bing Liu
2025年10月2日
新的 @Scale_AI 論文! 獎勵駭客的罪魁禍首是什麼?我們追溯到高獎勵尾部的錯誤規範。 我們的解決方案:基於標準的獎勵來區分「優秀」的回應和「出色」的回應。 結果:減少駭客行為,增強後訓練效果!
13.89K
175
Bing Liu
2025年9月21日
🚀 介紹SWE-Bench Pro — 一個新的基準,用於評估LLM編碼代理在真實的企業級軟件工程任務上的表現。 這是SWE-Bench的下一步:更難,抗汙染,更接近真實世界的代碼庫。
408.48K
1.02K
熱門
排行
收藏