1/ 🔥 AIエージェントは、サイバーセキュリティのブレークスルーの瞬間を迎えています。 最新の作品では、 🔓 CyberGym:AIエージェントが主要なオープンソースプロジェクトで15のゼロデイを発見 💰 BountyBench:AIエージェントが数万ドル相当の現実世界のバグ報奨金タスクを解決 🤖 自律 的。 AIエージェントは、以前はエリートの人間のハッカーしかできなかったことを自律的に行えるようになったという、極めて重要な変化が進行中です。
2/ 📡 この加速するフロンティアを追跡するために、私たちは、攻撃的および防御的なセキュリティタスク全体でAI機能を監視するためのオープンプラットフォームであるFrontier AI Cybersecurity Observatoryを立ち上げました。 私たちは、AIとセキュリティのコミュニティが協力し、貢献することを呼びかけています。 なぜなら、測定されるものは保護されるからです。
3/ 🏋️ ♀️ CyberGymは、188の主要なオープンソースソフトウェアプロジェクト全体で、1,500+の実際の脆弱性についてAIエージェントのストレステストを行う大規模な評価フレームワークです。 エージェントに次のことを求めます。 – 大規模な現実世界のコードベースをナビゲートする – 実際のCVEのPoCを再現 – 未知の新たな脆弱性の発見
4/ CyberGymからの主な洞察: ⚙️ SOTAエージェントとLLMは、過去のCVEの最大~18%のPoCの生成に成功しました 🚨 さらに驚くべきことに、彼らは野生で15のゼロデイを発見しました
5/ 🐞 BountyBenchは、25の現実世界の複雑なシステムと40のバグバウンティ(最大30,000ドル+相当)でAIエージェントを評価し、OWASPトップ10の9つのカテゴリーをカバーしています。
6/ 💡 BountyBenchからの主な洞察: – AIエージェントは、数万ドル相当のバグバウンティタスクを解決しました – Codex CLIとClaude Codeは、パッチ適用(90%/87.5%)で優れており、エクスプロイト(32.5%/57.5%)で優れていました – カスタム エージェントは、エクスプロイト (40 - 67.5%) と Patch (45 - 60%) の両方でより均等にパフォーマンスを発揮しました。
7/ サイバー犯罪の自動化が始まった。 私たちは、これらの能力が私たちの対応能力を上回る前に、透明性のある厳密な評価を行う必要があります。 これはほんの始まりに過ぎません。 ウェブサイト: 紙: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 私たちは、フロンティアAIがサイバーセキュリティの状況をどのように再構築するかについて、AIとサイバーセキュリティの研究者や実務家から洞察を収集しています。 あなたの視点は、研究や政策に情報を提供するのに役立ちます。 会話👉に参加する
9/ 🙏協力者の皆様に心から感謝します。 サイバージム:@zhun_amg、@tiannengshi、@jingxuan_he、@Nightxade_、@benzhang04 バウンティベンチ:@andystructダニエル・ホー・@danboneh @percyliangと多くの学生を含む @JoeyJi0927、@cel_menders、@DulepetRiya、@ThomasQin52342、@ronyifengwang、@laurawjr、@kyleenliao、@jAlinaHu、@enscry、@NishkaK253710、@_Eth007、@laurenmclane_、@oliviabruvik、@SeKim1112、@RyanLi0802、@SparklySid、@vikramsiva29。 Frontier AI Cybersecurity Observatoryおよび「Frontier AI's Impact on the Cybersecurity Landscape」の共著者:@yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct また、私たちの仕事に対するフィードバックを提供してくださった皆様に心から感謝いたします。
50.12K