AIガードレール製品比較 ― Lakera vs Protect AI vs HiddenLayer
AIガードレール製品比較 ― Lakera vs Protect AI vs HiddenLayer
生成AIの業務活用が「PoCから本番」に移った2025年、CISOの論点は「LLMを介して企業をどう守るか」に移った。OWASP LLM Top 10 2025[1]がPrompt Injection、Sensitive Information Disclosure、Insecure Output Handlingをトップ脅威に据える中、専業のLakera[2]/Protect AI[3]/HiddenLayer[4]が市場を牽引し、Cisco AI Defense[5]、NeMo Guardrails[6]、Bedrock Guardrails[7]、Azure Content Safety[8]、Vertex AI Safety[9]、Guardrails AI[10]がエコシステムを形成する。本稿は3社を軸に、入力/モデル/出力の3層で何を防ぎ、Red Teamingまで含めてどう設計するかをCISO視点で整理する。
AIガードレールの3レイヤー
AIガードレールは単一モデルではなく、「入力フィルタ」「モデル/エージェント実行時制御」「出力検証」の3層に分解される[1]。OWASP LLM Top 10 2025はLLM01 Prompt Injection、LLM02 Sensitive Information Disclosure、LLM05 Improper Output Handling、LLM06 Excessive Agencyを重要リスクに位置付け[1]、NIST AI RMFとGenAI Profile(NIST AI 600-1)はGOVERN/MAP/MEASURE/MANAGEに対応させる[11]。入力層ではJailbreak、Indirect Prompt Injection(外部文書経由)[12]、PII入力を遮断。モデル層ではツール呼び出し(MCP含む)、RAG参照範囲、エージェント権限境界をポリシー化。出力層では有害コンテンツ、PII漏洩、ハルシネーション、トピック逸脱を検証する。3層を別ベンダーで組むか専業に寄せるかが最初の設計判断。
3製品+周辺の概要
Lakeraはチューリッヒ拠点、Gandalf[13]のPrompt Injectionデータを起点に成長。中核はLakera Guard(リアルタイム防御)とLakera Red(継続的Red Teaming)[2]。Protect AIはシアトル発、Guardian(モデルスキャン)[3]、Recon(Red Teaming)、Sightline(脆弱性インテリ)、Layer(ランタイム監視)でMLサプライチェーン全体をカバー。2025年Palo Alto Networksが買収、Prisma AIRSへ統合[14]。HiddenLayerはテキサス拠点、Model ScannerとAIDRでモデル攻撃検知に特化[4]。周辺ではCiscoがRobust Intelligence買収でCisco AI Defenseを構成[5]、NVIDIA NeMo GuardrailsはOSSのColang DSLで会話フロー制御[6]。クラウド3社はBedrock Guardrails[7]/Azure Content Safety+Prompt Shields[8]/Vertex AI Safety[9]を提供。Guardrails AIはOSSのValidator Hubで自社実装派の選択肢[10]。
検知機能比較表
| 製品 | Prompt Injection | PII検知 | Output Validation | 多言語 |
|---|---|---|---|---|
| Lakera Guard[2] | 独自分類器、Gandalf起点、Indirect対応 | 主要PII+正規表現+NER | 毒性・自傷・違法・トピック制約 | 100言語超を公称 |
| Protect AI Layer[3] | 分類器+ツール/エージェント監視 | Presidioベース+拡張 | 毒性・PII・コンプラ、Recon連携 | 英中心+拡張中 |
| HiddenLayer AIDR[4] | 挙動監視+Model Scanner | カスタムポリシー | データ抽出、Membership Inference | 英中心 |
| Cisco AI Defense[5] | Algorithmic Red Team由来 | Cisco Secure連携 | Validator+ネットワーク統合 | 多言語 |
| NeMo Guardrails[6] | Colang分岐+外部分類器 | Presidio接続 | 事実性、トピック、Jailbreak | モデル依存 |
| Bedrock Guardrails[7] | Prompt Attacks(強度3段階) | マネージドPII+正規表現 | Denied Topics・Contextual Grounding | 日本語含む |
| Azure Content Safety[8] | Prompt Shields(User/Document) | Azure Language PII連携 | Hate/Sexual/Violence/Self-harm+Groundedness | 日本語含む |
| Vertex AI Safety[9] | Gemini組込filter | DLP連携 | Harassment/Hate/Sexual/Dangerous | 多言語 |
| Guardrails AI[10] | Validator Hub | Validator(Presidio等) | RAIL仕様で構造・事実性 | Validator依存 |
各社公表の検知率はテストセットが異なり横比較は危険。CISOは「自社プロダクションログでのFP/FN率」をPoCで測定すべきである。
Red Teaming as a Service の比較
静的フィルタだけでは新攻撃(Many-shot Jailbreak[15]、Crescendo[16]、ASCII Smuggling、Tool Poisoning)に追従できず、継続的Red Teamingが必須。Lakera RedはGandalf攻撃データで自動Red Teaming+OWASPタグ付け[2]。Protect AI Reconは自動+人手のハイブリッドでMITRE ATLAS[17]準拠、エージェント/RAG/マルチターン対応[3]。HiddenLayer Automated Red TeamingはModel Scanner統合[4]。Cisco AI DefenseはCDパイプライン統合[5]。Microsoft PyRITはOSSフレームワーク[16]。選定基準は「攻撃手法の更新頻度」「自社シナリオ取込性」「結果のチケット化」「監査レポート(NIST AI RMF・EU AI Act[18]マッピング)」の4点。
導入アーキテクチャ
典型構成はクライアント→「Guardrail API(入力)」→LLM/エージェント→「Guardrail API(出力)」→クライアントのサンドイッチ型。レイテンシは50〜200ms追加と公表されるが、実測ではモデル応答時間の10〜20%上乗せに収まる[2][7]。クラウド派はBedrock GuardrailsまたはAzure Content Safety+Prompt Shieldsでマネージド寄せ[7][8]。マルチクラウド派は専業でモデル抽象化。エージェント/MCPサーバを持つ場合はNeMo GuardrailsでDSL制御し、入出力検証はGuardrails AI/商用に委ねるハイブリッドが増える[6][10]。SIEM/SOAR連携と監査ログ保管(最低90日、規制業種は1〜7年)は必須要件[11]。
日本語対応 ― ベンダー間の実力差
日本語環境では検知精度が落ちる傾向が公知。Azure Content Safety/Prompt Shieldsは日本語対応公表[8]、Bedrock Guardrailsは2024年以降日本語サポート拡張(Contextual Groundingも日本語動作)[7]、Vertex AI Safetyは日本語有害コンテンツ分類で実績あり[9]。Lakera Guardは「100言語超」公称[2]、Protect AIは英語中心ながら多言語拡張中[3]、HiddenLayerは英語が主軸[4]。日本企業は「日本語Jailbreakデータでの社内ベンチマーク」「日本語PII(マイナンバー・電話番号・郵便番号)検知ルール」「個人情報保護委員会の生成AIガイダンス[19]整合性」をPoC評価項目に組み込むべきである。
CISOチェックリスト(5項目)
- OWASP LLM Top 10 2025の各項目を、自社主要LLMユースケース(社内チャット/RAG/エージェント/コード生成)にマッピング済みか[1]。
- 入力・モデル・出力3層に「検知」「ブロック」「監査ログ」のオーナーが定義されているか。
- Prompt Injection/PII/ハルシネーション/Excessive AgencyのFP/FN率を自社プロダクションログでPoC測定したか。
- 継続的Red Teaming(自動+人手)が四半期以上の頻度で計画され、結果がチケット化されているか[17]。
- NIST AI RMF・EU AI Act・個人情報保護法の3軸で、ログが監査証跡として認められる粒度・保管期間で残っているか[11][18][19]。
打ち手 ― 90日アクションプラン
30日:LLMユースケース棚卸+OWASP LLM Top 10マッピング、ログ整備。60日:専業3社+クラウド標準(Bedrock/Azure/Vertex)から2社をPoC選定し、自社日本語データでFP/FN測定。90日:勝者を本番投入、Red Teaming契約、SIEM連携、AIガバナンス委員会で四半期レビュー運用を開始。専業一本化かクラウド標準+OSS(NeMo+Guardrails AI)併用かは、マルチクラウド度合いと内製力で判断。重要なのは「導入」をゴールにせず「モデル更新・新ユースケース追加のたびに再診断する運用」に組み込むことである。
「ガードレールは買って終わりではなく、Red Teamingと監査ログ運用が伴って初めてガバナンスとして機能する。CISOが評価すべきは検知率の数字ではなく、攻撃が進化したとき誰が見て何を直すかという運用ループそのものだ。」
結論3点
- 専業3社の強みは異なる ― Lakeraは入出力リアルタイム+Red Team一体運用、Protect AIはMLサプライチェーン全体(Palo Alto傘下化で統合加速[14])、HiddenLayerはモデル攻撃検知。
- クラウド標準(Bedrock/Azure/Vertex)は最低限を素早く整える最適解。マルチクラウド・エージェント・MCP対応では専業+OSS(NeMo/Guardrails AI)併用が現実解。
- Red Teamingとガードレールは不可分。OWASP LLM Top 10 2025・NIST AI RMF・EU AI Actの3軸で監査証跡を残す運用設計がCISOの最重要タスクである[1][11][18]。
経営者視点 ― AIガードレール投資をどう正当化するか
経営層には「セキュリティ投資」ではなく「AI事業継続のための保険」と位置付けると意思決定が早い。生成AI起因インシデント(PII漏洩・著作権侵害・誤情報)はIBM Cost of a Data Breach 2024でAI関連コスト上昇傾向と報告[20]。EU AI Actは2025年から段階的施行され[18]、High-risk AI Systemにリスク管理・ロギング・人間監督が義務化。日本でも個人情報保護委員会が生成AIガイダンスを継続更新[19]、規制対応は「やる/やらない」の議論を超えた。投資規模は専業3社で年間数万〜数十万ドル、クラウド標準は月数万円〜[7][8]。年商100億円規模でLLMを顧客接点に置くなら年1,000万〜3,000万円のガードレール+Red Teaming予算が妥当。CISOが取締役会で語るべきは「非導入時の最大損失額」と「導入後の残留リスク」の2軸。KPIに「Prompt Injection遮断件数」「PIIマスキング件数」「Red Teamingで発見・修復した脆弱性数」を組み込むのが経営報告のスタンダードとなりつつある。
参考文献
- OWASP, “Top 10 for LLM Applications 2025,” genai.owasp.org/llm-top-10/
- Lakera, “Guard / Red Documentation,” lakera.ai
- Protect AI, “Guardian / Recon / Sightline / Layer,” protectai.com
- HiddenLayer, “AIDR Platform,” hiddenlayer.com
- Cisco, “AI Defense (formerly Robust Intelligence),” cisco.com
- NVIDIA, “NeMo Guardrails,” github.com/NVIDIA/NeMo-Guardrails
- AWS, “Amazon Bedrock Guardrails,” aws.amazon.com/bedrock/guardrails/
- Microsoft, “Azure AI Content Safety / Prompt Shields,” learn.microsoft.com
- Google Cloud, “Vertex AI Safety filters,” cloud.google.com/vertex-ai
- Guardrails AI, “Validator Hub,” guardrailsai.com
- NIST, “AI RMF 1.0 & GenAI Profile (NIST AI 600-1),” nist.gov
- Greshake et al., “Indirect Prompt Injection,” arXiv:2302.12173, 2023
- Lakera, “Gandalf: Prompt Injection Dataset,” gandalf.lakera.ai
- Palo Alto Networks, “To Acquire Protect AI,” 2025 Press Release
- Anthropic, “Many-shot Jailbreaking,” 2024
- Microsoft, “PyRIT / Crescendo Multi-turn Attack,” github.com/Azure/PyRIT
- MITRE, “ATLAS,” atlas.mitre.org
- European Commission, “EU AI Act (Regulation 2024/1689)”
- 個人情報保護委員会, “生成AIサービス利用に関する注意喚起,” ppc.go.jp
- IBM Security, “Cost of a Data Breach Report 2024”


