AI エージェントセキュリティ完全ガイド ― 自律実行型 LLM の 5 大リスクと 9 つの安全設計原則

admin · 2026年6月1日 · 最終更新 2026年6月2日 · 7 min read

AI Agent Security — 5 Risks · 9 Design Principles — Illustration: Storyset (line, brand-recolored)

2025-2026 年、AI は 「人に答える」アシスタント から 「自分でツールを呼んで動く」エージェント へと急速に進化しました。Claude Code、Cursor、Devin、ChatGPT Operator、AutoGen、CrewAI——いずれも、LLM が外部 API・ファイル操作・ブラウザ・コード実行を自律的に呼び出す設計です。生産性は劇的に上がる一方、セキュリティのリスクも従来比で 1 段階大きくなりました。本記事は AI エージェントの本質的なリスクと、運用での安全設計を整理します。

AI エージェントが従来の LLM と何が違うか

従来の LLM チャットは「入力 → 応答」の一往復で完結し、副作用は基本的に応答テキストのみでした。エージェントは違います。外部ツールを呼び（メール送信・ファイル書き換え・API 呼び出し・コード実行）、自分で次の手を決め、複数ターンに渡って自律行動する。これにより:

副作用の射程が大幅拡大：ファイル削除・送金・契約署名・他者へのメール送信まで起こりうる
攻撃面が多層化：プロンプトインジェクション、ツール呼び出し改竄、認証情報漏えい、データ流出
監査が難化：1 タスクで数十〜数百のツール呼び出しが発生、人間が逐一確認できない
誤動作のリスク：意図しない再帰、無限ループ、リソース枯渇

主要な5つのリスク領域

① プロンプトインジェクション（最大の脅威）

エージェントが読み込む外部コンテンツ（メール・Web ページ・PDF・GitHub Issue 等）に攻撃者の指示が埋め込まれている場合、エージェントはそれを「ユーザーの命令」と区別できず実行に走る。プロンプトインジェクション完全ガイドで詳述。エージェント時代の最重要リスク。

② ツール呼び出しの不正実行

エージェントに与えた権限（メール送信、ファイル削除、購買、API キー利用）が、上記①や予期せぬ会話の流れで起動する。「権限を持たせること自体が攻撃面」という考え方の転換が必要。

③ 認証情報・機密情報の漏えい

エージェントが扱うコンテキストには、API キー・OAuth トークン・データベース接続文字列・顧客 PII が含まれがち。これが応答に混入したり、ログに残ったり、外部 API のリクエストに含まれて漏えいする経路は多数。

④ 暴走・再帰・リソース枯渇

エージェントが終了条件を見失い、無限ループに陥る・API を叩き続ける・課金が青天井になる事例は実運用で散見。エージェント自律実行の誤動作 ― 削除コマンド暴走の事例でも触れたとおり、初期の AutoGPT 系で実害が出ています。

⑤ マルチエージェント間の感染・横展開

複数エージェント連携の設計で、1 つが侵害されると指示が他へ伝播し、ワーム的に拡散する PoC が公開済み。マルチエージェントセキュリティの漏えい経路参照。

安全設計 ― 9 つの実装原則

① 権限最小化（Least Privilege）

エージェントに与える権限を、そのタスクに必要な最小限に絞る。「メールを下書きする」エージェントに「メール送信権限」を与える必要はない。送信は人間承認を挟む別ステップに分離。

② 破壊的アクションへの人間承認

送金・契約締結・ファイル削除・本番デプロイなど、取り返しのつかない操作は必ず人間承認を経る。承認の UI は明確に「これから実行する内容」を表示し、ワンクリックで即実行できる設計を避ける。

③ サンドボックス化

コード実行・ファイル操作・ネットワークアクセスは隔離環境で。Docker、Firejail、専用 VM、クラウド sandboxed runtime（AWS Lambda、Cloud Functions）など。Claude Code の `/sandbox` 機能も同種の考え方。

④ ツール呼び出しのホワイトリスト

呼び出し可能な関数・API・ドメインを許可リスト方式で限定。「何でも実行可能」ではなく、「これだけ実行可能」を明示。curl や wget など任意 URL アクセス可能なツールは、特に慎重に。

⑤ 入出力境界の明示化

システムプロンプト、開発者プロンプト、ユーザー入力、外部コンテンツをテンプレートと区切り文字で明示的に分離。モデルに「ここから先は信頼できない外部データ」を伝える設計。

⑥ レート制限・コスト上限

1 タスクあたりのツール呼び出し回数・API リクエスト数・実行時間に上限を設定。暴走時の自動停止。コスト上限を金額ベースでも設定し、想定外の課金を防ぐ。

⑦ 監査ログの完全取得

全プロンプト、全ツール呼び出し、全応答を機密情報マスキングしてからログに記録。事後検証可能に。Anthropic、OpenAI などの API は標準でログ機能あり。

⑧ コンテキスト隔離

複数エージェントを連携させる場合、不必要なコンテキスト共有を避ける。1 エージェントの侵害が横展開しないよう設計。

⑨ 定期的なレッドチーミング

自社エージェント製品に対し、プロンプトインジェクション・データ抽出・ツール乱用などの攻撃を定期的に試行。OWASP LLM Top 10 をチェックリスト化して回す。

運用フェーズでのチェックリスト

エージェントが扱うデータの分類（公開／社内／機密／顧客 PII）が文書化されているか
各ツール呼び出しに必要権限と承認要否が明示されているか
破壊的アクションのリストが定義され、すべて人間承認になっているか
サンドボックス境界（ファイル・ネット・実行時間）が技術的に強制されているか
監査ログが機密マスキングと長期保管の体制で運用されているか
レート/コスト上限が設定されているか
レッドチーミングが四半期に1回以上実施されているか
インシデント対応フロー（暴走時の停止手順、漏えい時の連絡経路）が整備されているか

導入アーキテクチャの推奨パターン

実務で安全に AI エージェントを運用する構成例：

Tier 1 – Sandbox：エージェント本体は隔離環境（コンテナ/VM）で実行。ファイル・ネットワークアクセスは制限
Tier 2 – Gateway：エージェントから外部 API への呼び出しは、認証・許可リスト・レート制限を担う Gateway を経由
Tier 3 – Approval：破壊的アクションは Approval Queue に積まれ、人間が承認
Tier 4 – Audit：すべての操作は監査ログに記録、機密マスキング後に長期保管
Tier 5 – Observability：エラー・異常な実行パターン・コスト超過を Slack/PagerDuty で即時通知

エージェントの “能力” を上げる前に、”権限” を絞ることから始める。

Omamori AI の結論

事実：AI エージェントは LLM の応答に加え、ツール呼び出し・コード実行・複数ターン自律行動という3要素を持つため、副作用の射程と攻撃面が従来比で大幅に拡大。プロンプトインジェクション、ツール乱用、認証情報漏えい、暴走、横展開——5 領域でリスクが顕在化している。
判断軸：エージェントの “能力” を伸ばす前に “権限” を絞る。権限最小化＋人間承認＋サンドボックスの 3 点を運用要件として絶対視する。
打ち手：① 権限最小化と破壊的アクションの承認制 → ② サンドボックス化とツール呼び出しホワイトリスト → ③ 入出力境界の明示化と監査ログ → ④ レート/コスト上限と暴走停止フロー → ⑤ 定期レッドチーミングと OWASP LLM Top 10 のチェック運用。

👉 プロンプトインジェクション完全ガイド
👉 マルチエージェントセキュリティの漏えい経路
👉 エージェント自律実行の誤動作
👉 Claude Code セキュリティプラグイン

編集部

Omamori AI 編集部

CISO・情シス・経営層向けに、AIセキュリティの一次情報を編集視点で整理

記事の論点を、自社のリスク評価に

90秒の自己診断 or CISO/情シス向け月次レビュー（顧問契約）でアクションに繋げます。

無料 90秒自己診断顧問契約詳細