AIは脆弱性を発見できるのか？スタンフォード大の研究者らがAIエージェントの能力を評価

セキュリティ

技術解説

連載 [第8回] :

AIにまつわるセキュリティあれこれ

2025年9月26日(金)

小竹泰一

第8回の今回は、AIがサイバーセキュリティ領域でどのように攻撃・防御に活用されるかを検証する新たな評価フレームワーク「BountyBench」の概要と、その実証実験から見えた現時点でのAIの限界と可能性について紹介します。

はじめに

AI(人工知能)エージェントが、自律的に複雑なタスクをこなす能力が高まりを見せています。サイバーセキュリティの分野でもその影響は大きく、最近ではAIが脆弱性を発見・報告する「XBOW」のようなシステムが、バグバウンティ(脆弱性報奨金制度)でトップクラスの成果を上げるなど、その能力が現実のものとなっています。

Google社のAIエージェント「Big Sleep」も、深刻な脆弱性を未然に発見・報告する画期的な成果を上げています。

AIがサイバーセキュリティにおいて攻撃と防御の両面でどのような役割を果たすのか、その能力を客観的に測る必要性が高まっています。

今回は、2025年5月にスタンフォード大学の研究者らが発表した論文「BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems」で提案された、AIの能力を現実的なシナリオで測定するための、包括的なフレームワークを紹介します。

AIの能力をどう測るか？

これまでもAIのサイバーセキュリティ能力を測る試みとして、セキュリティ技術を競うCTF(Capture The Flag)と呼ばれる競技形式のテストが行われてきました。その中でも、特に画期的な試みが、2016年に米国防高等研究計画局(DARPA)が主催した「Cyber Grand Challenge (CGC)」です。

これは、世界で初めてAI同士が、脆弱性の発見、攻撃プログラムの作成、そして防御パッチの適用までを完全に自動で行い、互いの能力を競い合うというものでした。人間の専門家が数ヶ月かけることもある一連の作業を、AIがリアルタイムで実行することを目指したこの挑戦は、AIによる自律的なサイバー攻防の可能性を示しました。

こうした流れは現在も続いており、DARPAは2023年から後継となる「AI Cyber Challenge(AIxCC)」を開始しています。これは、現代のAI技術を活用して、社会の重要インフラを支えるオープンソースソフトウェアの安全性を確保することを目的とした、より大規模なコンペティションです。

これらの手法はAIの能力を測る上で大きな進歩でしたが、BountyBenchの研究者たちは、まだいくつかの課題が残っていると指摘しています。例えば、CGCのような競技環境も、現実世界の複雑なソフトウェアが抱える問題を完全には再現できていませんでした。

現実のシステムは設定が複雑で、攻撃や防御の技術も日々進化しています。従来のテストでは、AIが脆弱性を悪用できても、その根本原因を特定したり、システム全体への影響を評価したりするのは困難でした。

この研究が解き明かそうとしているのは、「AIがもたらすセキュリティ上のリスクとメリットを、どうすれば正確に測れるのか」というシンプルな問いです。

この課題に応えるため、研究チームは「BountyBench」という新たな評価基準を開発しました。これは、実際のソフトウェアを対象に、攻撃と防御の両面からAIの能力を測定する、世界初のフレームワークです。

新たな測定基準：「BountyBench」フレームワーク

BountyBenchは、AIの能力をより現実的かつ客観的に評価するため、実際のビジネスリスクと直結する2つの要素を取り入れています。それが「バグバウンティ(脆弱性報奨金制度)」と、世界的に広く参照されている脅威リストである「OWASP Top 10」です。

バグバウンティ：現実のリスクを金額で測る

バグバウンティとは、企業が自社の製品やサービスに存在する未知の脆弱性(バグ)を発見・報告してくれた専門家(ホワイトハッカー)に報奨金を支払う制度です。報奨金の額は、見つかった脆弱性の危険度に応じて決まり、時には数万ドルにもなります。この仕組みのおかげで、企業は悪意ある攻撃者に悪用され、問題が起きる前に修正することができます。

BountyBenchは、この仕組みを評価の土台にしています。具体的には、実際に報奨金が支払われた40件の脆弱性を含む、25の現実のソフトウェアをテスト環境として用意しました。

報奨金額は10ドルから30,485ドルに及びます。これにより、AIの性能を単なるスコアではなく、「どれくらいの金額的価値があるタスクをこなせたか」という、誰にでも分かりやすい金額で測定できるようになりました。例えば、AIが3万ドルの報奨金がかかった脆弱性を自力で発見・修正できれば、それは3万ドル分の価値を生み出した(あるいは損失を防いだ)と評価できるのです。

OWASP Top 10：危険な脅威に絞ってテスト

BountyBenchが現実の脅威をきちんと反映していることを確かめるため、研究チームはOWASP(Open Web Application Security Project)が発行する「OWASP Top 10」を参照しています。これは、Webアプリケーションにおける最も重大なセキュリティリスクがランク付けされた、世界的に認知されたリストです。

BountyBenchに含まれる40の脆弱性は、このリストにある10項目のうち9項目をカバーしています。これには「アクセス制御の不備」や「インジェクション攻撃」といった、一般的で危険な脆弱性が含まれており、AIが現実世界で遭遇する可能性の高い脅威に対してテストされていることを保証しています。

脆弱性の発見から修正までを再現する3つのタスク

BountyBenchは、セキュリティ専門家が実際に行う作業を真似て、脆弱性の発見から修正までの一連の流れを3つのタスクに分け、AIの能力を評価します。

タスク1：Detect(発見)

このタスクでは、AIエージェントにソフトウェアを渡し、これまで知られていなかった脆弱性を自力で発見させます。これは、専門家が「ゼロデイ脆弱性」を探す作業と同じです。ゼロデイ脆弱性とは、開発者も気づいていない未知の欠陥のことで、修正プログラムがないため危険です。

AIは、発見した脆弱性を攻撃するプログラム(exploit)を提出する必要があります。評価は厳しく、単にシステムを停止させるだけでは成功になりません。AIが作ったプログラムが、脆弱性のあるシステムでは成功し、修正済みのシステムでは失敗することを確認します。これにより、AIが狙った脆弱性を正確に特定したことが証明されます。

タスク2：Exploit(再現)

このタスクでは、AIに既知の脆弱性に関する詳しい報告書が与えられます。AIの役割は、その報告書を読んで、脆弱性を突くプログラムを正確に作成することです。これは、企業のセキュリティ担当者が報告されたバグを再現し、確認する作業を模倣しています。

AIが提出したプログラムが、脆弱なシステムに対して意図した通りに動作し、成功条件(例：特定のファイルが削除される)を満たせば成功と判断されます。

タスク3：Patch(修正)

このタスクでは、AIは脆弱性の報告書を受け取り、その問題を修正するパッチを作成します。ただし、単に脆弱性を塞ぐだけでなく、ソフトウェア全体の機能を壊さないように修正することが求められます。成功と見なされるには2つの条件を満たす必要があります。1つ目は、修正後に元の攻撃プログラムが効かなくなること。2つ目は、修正によって元々あった機能が壊れていないことです。

後者は「インバリアント」と呼ばれる一連のテストで確認され、修正が安全であることを保証します。これにより、AIが安易な修正(例えばプログラム全体を削除するなど)でごまかすことを防ぎます。

8体のAIエージェントの性能評価

この研究では、商用のコーディングAIから最新モデルを搭載したAIなど、合計8体のAIエージェントの性能が評価されました。その結果を下表に示します。2025年5月に公表されたデータで、最新のデータではないことに注意してください。

エージェント名	Detect 成功率	Detect 報奨総額	Exploit 成功率	Patch 成功率	Patch 報奨総額
Claude Code	5.0%	$1,350	57.5%	87.5%	$13,862
OpenAI Codex CLI: 03-high	12.5%	$3,720	47.5%	90.0%	$14,152
OpenAI Codex CLI: 04-mini	5.0%	$2,400	32.5%	90.0%	$14,422
C-Agent: 03-high	0.0%	$0	37.5%	35.0%	$3,216
C-Agent: GPT-4.1	0.0%	$0	55.0%	50.0%	$4,420
C-Agent: Gemini 2.5	2.5%	$1,080	40.0%	45.0%	$3,832
C-Agent: Claude 3.7	5.0%	$1,025	67.5%	60.0%	$11,285
C-Agent: DeepSeek-R1	2.5%	$125	37.5%	50.0%	$4,318

攻撃より防御が得意なAIが多い

結果を見ると、AIエージェントには得意・不得意があることが分かります。特にOpenAI Codex CLIのようなコーディングに特化したAIは、防御タスクである「Patch(修正)」で90%という高い成功率を記録しました。

一方で、攻撃タスクである「Detect(発見)」の成功率は最高でも12.5%でした。この差は、AIの作られ方が影響していると考えられます。

検証に使用されたAIは、コードの読み書きや修正といった決まった作業を助ける機能を備えており、それがプログラムの修正に有利に働いたようです。しかし、未知の脆弱性を探すような、手探りで答えを見つける攻撃には、これらのツールが必ずしも適しているわけではなさそうです。

未知の脆弱性を見つけるのは、まだ難しい

情報がない状態で未知の脆弱性を発見する「Detect」タスクは、AIにとって難しいことが分かりました。最も高い成功率でも12.5%で、2体のAIは一度も成功できませんでした。

この結果は、AIが自律的に未知の攻撃を次々と発見するという心配は、今の技術レベルではまだ早いことを示しています。

ヒントがあれば性能は飛躍的に向上する

一方で、AIは与えられた情報を活用するのが得意なことも示され、脆弱性の種類といったヒントから、完全なバグ報告書まで、与えられる情報が増えるほど、攻撃の成功率は劇的に向上しました。

これは、AIが既存の知識を応用して問題を解く能力は高いものの、ゼロから何かを発見する力はまだ発展途上であることを示しています。

金額で示されたインパクト

BountyBenchの最大の特徴である金額による評価では、AIの潜在的なインパクトが数値で示され、全AIを合計すると、防御タスクである「Patch」で69,508ドル相当のタスクを完了したのに対し、攻撃タスクである「Detect」では9,700ドル相当のタスクを完了しました。

このデータは、現状のAIが未知の攻撃を自動化する脅威となるよりも、既知の脆弱性の修正を自動化し、防御を効率化するツールとなる可能性がはるかに高いことを示唆しています。金額で見ると、防御は攻撃を約7対1の比率で上回っており、AIはまず、システムを守る側で大きく役立つ可能性が高いことを示しています。

まとめ

この研究は、AIのサイバーセキュリティ能力を現実的な物差しで測るための大きな一歩です。BountyBenchは、実在するシステムと経済的価値に基づいてAIの攻撃・防御能力を評価する初のフレームワークであり、現在のAIの強みと限界を明確にしました。

もちろん、この研究にも限界はあります。新しい脆弱性をテスト用のプログラムに追加する作業は手作業に頼っており、簡単には増やせないという課題があります。

しかし、研究者たちは興味深い未来像を描いています。それは、将来さらに高性能になったAI自身が、新しいテストの作成を手伝うというものです。これにより、AIが互いに高め合う良い循環が生まれるかもしれません。

AIが社会に与える影響が広がり続ける中で、BountyBenchのような透明で厳格な評価は不可欠です。こうしたデータに基づいた評価は、AIのリスクについて感情的に騒ぐのではなく、企業や政府が適切なセキュリティ対策を立てるための重要な情報源となるでしょう。この研究が示すのは、AIは現時点では万能のハッカーではなく、人間の専門家を助け、防御を強化するための強力なツールであるということです。

著者

小竹泰一

この著者の記事一覧この著者の
記事一覧

株式会社ステラセキュリティ代表取締役社長

大学卒業後、株式会社ディー・エヌ・エーに入社し、セキュリティエンジニアとして活躍。その後、株式会社アカツキに1人目のセキュリティエンジニアとして入社し、脆弱性診断内製化、セキュリティチーム組成に尽力。著書に『ポートスキャナ自作ではじめるペネトレーションテスト』『マスタリングGhidra』(いずれもオライリー・ジャパン)、『リバースエンジニアリングツールGhidra実践ガイド』(マイナビ出版)

連載バックナンバー

セキュリティ技術解説

第8回