熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Dawn Song
加州大學伯克利分校計算機科學教授,伯克利 RDI 中心聯合主任;構建安全、可靠、去中心化的人工智慧;連續創業者
多年來,我的團隊和合作者開發了許多流行的基準測試,例如,MMLU、MATH、APPS---對我們最新的基準測試OMEGA Ω感到非常興奮:
🔍LLM 真的可以在數學中跳出框框思考嗎?
一個新的基準探測 3 個泛化軸:
1️⃣ 探索性
2️⃣ 成分
3️⃣ 變革性
顯示了當今前沿 AI 和 RL 訓練在這些泛化維度上的局限性。
受到 Boden 的創造力類型的啟發,OMEGA 透過程式設計生成的數據集超越了以前的基準,該數據集將精確控制與豐富的多樣性相結合。它跨越廣泛的數學領域,明確設計用於評估泛化和創造性推理的不同軸。
通過分離和量化細粒度的故障模式,OMEGA 為推動 LLM 邁向真正的數學創造力奠定了基礎,而不僅僅是機械熟練程度。
非常感謝我的博士後@YiyouSun @UCBerkeley領導這個專案,以及了不起的合作者 @nouhadziri @HannaHajishirzi @allen_ai 和其他合著者!

Nouha Dziri2025年6月25日
📢 Can LLMs really reason outside the box in math? Or are they just remixing familiar strategies?
Remember DeepSeek R1, o1 have impressed us on Olympiad-level math but also they were failing at simple arithmetic 😬
We built a benchmark to find out → OMEGA Ω 📐
💥 We found that although very powerful, RL struggles to compose skills and to innovate new strategies that were not seen during training. 👇
work w. @UCBerkeley @allen_ai
A thread on what we learned 🧵

20.58K
🔐 Frontier AI 正在重塑網路安全,並提出了關鍵的新問題:
🔍 它目前的影響是什麼?
⚖️ 誰會從中受益更多——攻擊者還是防禦者?
🛡️ 我們如何降低風險?
應對這些挑戰需要人工智慧和安全社區的協調努力。
在我們最近的論文中,我們探討了不斷發展的形勢,分析了攻擊者和防禦者之間的動態,並呼籲採取積極措施,以確保前沿 AI 的天平向防禦而不是進攻傾斜。
我們預測,在短期內,攻擊者可能會比防禦者從 AI 功能中獲得更直接的優勢。然而,預測這些動態是複雜的,而您的觀點對於提高我們的集體理解和響應至關重要。
我們邀請所有 AI 和網路安全專家和從業者參加我們的簡短調查並分享您的觀點 - 無論您同意還是不同意我們的預測。🧵👇 #AI #CyberSecurity

9.98K
🌟 很高興地宣佈我們尊敬的 #AgentX @BerkeleyRDI @UCBerkeley 比賽評委團。非常感謝 @xinyun_chen_ @Chi_Wang_ @GoogleDeepMind;@KaiyuYang4 @Meta;@jayrodge15 @ZhidingYu @nvidia;@Somil_Agg @schmidtsciences;撒母耳·巴里 @MistralAI;@bhawna_tweets,Austin Arensberg @Okta;@ben_burtenshaw @huggingface;@chuanli11 @ThomasBord50495 @LambdaAPI;@ozenhati 本·安吉爾 @GroqInc;@waseem_s @Get_Writer;@SaraIttelson @Accel;@kevinzhang @BainCapVC;@ReddyVijayB @Mayfield;@maddiehfaulkner @NEA;@whoisnnamdi @David_Schmaier @LightspeedVP;@NextBigTeng @bhavikvnagda @BessemerVP;@divy93t @Google;@ysu_nlp @OhioState;普什卡·南德卡爾 @SambaNovaAI;Alok Tongaonkar @Cisco加入我們擔任評委,更多內容即將公佈。
🚀 已經有近1000個團隊加入了 #AgentX——在創業和研究軌道上構建代理AI的未來!
💰 獎池現在為 $150K+,總獎品/資源超過 $450K!
🤖 立即加入 AgentX 競賽並在 5 月 31 日之前提交您的專案。⏰

9.82K
@americanacad 年當選美國藝術與科學院院士,我深感謙卑和榮幸!很高興能為學院的使命做出貢獻並促進共同利益!


American Academy of Arts & Sciences2025年4月24日
New! Academy member announcement. Dedicated to honoring excellence and advancing the common good, from 1780 to today.
12.36K
在 #ICLR2025 上查看我們關於生成模型的第一個 UNDETECTABLE 浮水印的海報
週四 4月 24
下午 3:00 - 下午 5:30
3 號館 + 2B 號館,海報 #177

Xuandong Zhao2025年4月22日
🤯 AI images getting too real? (Think GPT-4o, Imagen-3, etc!) Worried about trust in the GenAI era? We tackled this head-on at #ICLR2025!
Presenting the first UNDETECTABLE watermark for generative models! 🚀
A big step forward w/ @samgunn111 & @dawnsongtweets
🧵👇 (1/13)

3.39K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可