AI エージェントセキュリティ完全ガイド ― 自律実行型 LLM の 5 大リスクと 9 つの安全設計原則

AI Agent Security — 5 Risks · 9 Design Principles
Illustration: Storyset (line, brand-recolored)

2025-2026 年、AI は 「人に答える」アシスタント から 「自分でツールを呼んで動く」エージェント へと急速に進化しました。Claude Code、Cursor、Devin、ChatGPT Operator、AutoGen、CrewAI——いずれも、LLM が外部 API・ファイル操作・ブラウザ・コード実行を自律的に呼び出す設計です。生産性は劇的に上がる一方、セキュリティのリスクも従来比で 1 段階大きくなりました。本記事は AI エージェントの本質的なリスクと、運用での安全設計を整理します。

AI エージェントが従来の LLM と何が違うか

従来の LLM チャットは「入力 → 応答」の一往復で完結し、副作用は基本的に応答テキストのみでした。エージェントは違います。外部ツールを呼び(メール送信・ファイル書き換え・API 呼び出し・コード実行)、自分で次の手を決め、複数ターンに渡って自律行動する。これにより:

  • 副作用の射程が大幅拡大:ファイル削除・送金・契約署名・他者へのメール送信まで起こりうる
  • 攻撃面が多層化:プロンプトインジェクション、ツール呼び出し改竄、認証情報漏えい、データ流出
  • 監査が難化:1 タスクで数十〜数百のツール呼び出しが発生、人間が逐一確認できない
  • 誤動作のリスク:意図しない再帰、無限ループ、リソース枯渇

主要な5つのリスク領域

① プロンプトインジェクション(最大の脅威)

エージェントが読み込む外部コンテンツ(メール・Web ページ・PDF・GitHub Issue 等)に攻撃者の指示が埋め込まれている場合、エージェントはそれを「ユーザーの命令」と区別できず実行に走る。プロンプトインジェクション完全ガイドで詳述。エージェント時代の最重要リスク。

② ツール呼び出しの不正実行

エージェントに与えた権限(メール送信、ファイル削除、購買、API キー利用)が、上記①や予期せぬ会話の流れで起動する。「権限を持たせること自体が攻撃面」という考え方の転換が必要。

③ 認証情報・機密情報の漏えい

エージェントが扱うコンテキストには、API キー・OAuth トークン・データベース接続文字列・顧客 PII が含まれがち。これが応答に混入したり、ログに残ったり、外部 API のリクエストに含まれて漏えいする経路は多数。

④ 暴走・再帰・リソース枯渇

エージェントが終了条件を見失い、無限ループに陥る・API を叩き続ける・課金が青天井になる事例は実運用で散見。エージェント自律実行の誤動作 ― 削除コマンド暴走の事例でも触れたとおり、初期の AutoGPT 系で実害が出ています。

⑤ マルチエージェント間の感染・横展開

複数エージェント連携の設計で、1 つが侵害されると指示が他へ伝播し、ワーム的に拡散する PoC が公開済み。マルチエージェントセキュリティの漏えい経路参照。

安全設計 ― 9 つの実装原則

① 権限最小化(Least Privilege)

エージェントに与える権限を、そのタスクに必要な最小限に絞る。「メールを下書きする」エージェントに「メール送信権限」を与える必要はない。送信は人間承認を挟む別ステップに分離。

② 破壊的アクションへの人間承認

送金・契約締結・ファイル削除・本番デプロイなど、取り返しのつかない操作は必ず人間承認を経る。承認の UI は明確に「これから実行する内容」を表示し、ワンクリックで即実行できる設計を避ける。

③ サンドボックス化

コード実行・ファイル操作・ネットワークアクセスは隔離環境で。Docker、Firejail、専用 VM、クラウド sandboxed runtime(AWS Lambda、Cloud Functions)など。Claude Code の `/sandbox` 機能も同種の考え方。

④ ツール呼び出しのホワイトリスト

呼び出し可能な関数・API・ドメインを許可リスト方式で限定。「何でも実行可能」ではなく、「これだけ実行可能」を明示。curlwget など任意 URL アクセス可能なツールは、特に慎重に。

⑤ 入出力境界の明示化

システムプロンプト、開発者プロンプト、ユーザー入力、外部コンテンツをテンプレートと区切り文字で明示的に分離。モデルに「ここから先は信頼できない外部データ」を伝える設計。

⑥ レート制限・コスト上限

1 タスクあたりのツール呼び出し回数・API リクエスト数・実行時間に上限を設定。暴走時の自動停止。コスト上限を金額ベースでも設定し、想定外の課金を防ぐ。

⑦ 監査ログの完全取得

全プロンプト、全ツール呼び出し、全応答を機密情報マスキングしてからログに記録。事後検証可能に。Anthropic、OpenAI などの API は標準でログ機能あり。

⑧ コンテキスト隔離

複数エージェントを連携させる場合、不必要なコンテキスト共有を避ける。1 エージェントの侵害が横展開しないよう設計。

⑨ 定期的なレッドチーミング

自社エージェント製品に対し、プロンプトインジェクション・データ抽出・ツール乱用などの攻撃を定期的に試行。OWASP LLM Top 10 をチェックリスト化して回す。

運用フェーズでのチェックリスト

  • エージェントが扱うデータの分類(公開/社内/機密/顧客 PII)が文書化されているか
  • 各ツール呼び出しに必要権限と承認要否が明示されているか
  • 破壊的アクションのリストが定義され、すべて人間承認になっているか
  • サンドボックス境界(ファイル・ネット・実行時間)が技術的に強制されているか
  • 監査ログが機密マスキングと長期保管の体制で運用されているか
  • レート/コスト上限が設定されているか
  • レッドチーミングが四半期に1回以上実施されているか
  • インシデント対応フロー(暴走時の停止手順、漏えい時の連絡経路)が整備されているか

導入アーキテクチャの推奨パターン

実務で安全に AI エージェントを運用する構成例:

  • Tier 1 – Sandbox:エージェント本体は隔離環境(コンテナ/VM)で実行。ファイル・ネットワークアクセスは制限
  • Tier 2 – Gateway:エージェントから外部 API への呼び出しは、認証・許可リスト・レート制限を担う Gateway を経由
  • Tier 3 – Approval:破壊的アクションは Approval Queue に積まれ、人間が承認
  • Tier 4 – Audit:すべての操作は監査ログに記録、機密マスキング後に長期保管
  • Tier 5 – Observability:エラー・異常な実行パターン・コスト超過を Slack/PagerDuty で即時通知

エージェントの “能力” を上げる前に、”権限” を絞ることから始める。

Omamori AI の結論

  1. 事実:AI エージェントは LLM の応答に加え、ツール呼び出し・コード実行・複数ターン自律行動という3要素を持つため、副作用の射程と攻撃面が従来比で大幅に拡大。プロンプトインジェクション、ツール乱用、認証情報漏えい、暴走、横展開——5 領域でリスクが顕在化している。
  2. 判断軸:エージェントの “能力” を伸ばす前に “権限” を絞る。権限最小化+人間承認+サンドボックスの 3 点を運用要件として絶対視する。
  3. 打ち手:① 権限最小化と破壊的アクションの承認制 → ② サンドボックス化とツール呼び出しホワイトリスト → ③ 入出力境界の明示化と監査ログ → ④ レート/コスト上限と暴走停止フロー → ⑤ 定期レッドチーミングと OWASP LLM Top 10 のチェック運用。

関連記事

👉 プロンプトインジェクション完全ガイド
👉 マルチエージェントセキュリティの漏えい経路
👉 エージェント自律実行の誤動作
👉 Claude Code セキュリティプラグイン

SHARE 𝕏 in f

あわせて読みたい