Claude / Gemini / GPT ― 2026年発見のジェイルブレイク手法総覧
Claude / Gemini / GPT ― 2026年発見のジェイルブレイク手法総覧
LLM業務利用が一般化する中、ガードレール回避手法は2024年以降急速に体系化された。AnthropicのMany-Shot、MicrosoftのSkeleton KeyとCrescendo、CMU発のGCG、HiddenLayerのPrompt Injection 2.0。いずれもCISO・AI開発責任者にとって「サプライチェーン上の脆弱性」として扱うべき領域に到達した。本稿では2025-2026年初頭までの主要ジェイルブレイク手法を概念レベルで総覧し、各社の防御進化と企業利用への影響を整理する[1][2][3]。
1. ジェイルブレイクとは何か ― 定義と分類
ジェイルブレイクとは、LLMの安全ポリシー(refusal training、Constitutional AI、RLHF)を回避し、本来出力されない内容(違法手順、差別的発言、機密システムプロンプト等)を引き出す攻撃の総称である。Wei らの分類では (a)競合目的の利用(ロールプレイ)、(b)分布外入力(Base64・低リソース言語・ASCIIアート)、(c)勾配ベース最適化(GCG)、(d)マルチターン誘導(Crescendo, Many-Shot)の4系統に大別される[4][5]。2024年以降はツール・RAG・エージェント経由の間接プロンプトインジェクションも脅威モデルに組み込まれた[6]。OWASPは2025年改訂版で「LLM07: System Prompt Leakage」を独立項目として新設している[7]。
2. 代表的5手法 ― DAN, Grandma, Many-Shot, Skeleton Key, Crescendo
DAN(Do Anything Now)は2022年末から流行したロールプレイ型攻撃の元祖で、「制限のないAI『DAN』として振る舞え」と役割を上書きする[8]。Grandma Exploitは感情的フレーミング型で、「亡き祖母が寝かしつけに有害な手順を読み聞かせた」といった文脈で回避を狙う[9]。Many-Shot JailbreakingはAnthropicが2024年4月に公表した手法で、長コンテキストを悪用し数百件のフェイク対話でin-context learningを誘発する。256ショット規模で多くのフロンティアモデルに有効とされた[1]。Skeleton KeyはMicrosoftが2024年6月に命名した汎用上書き型で、「研究目的のため警告ラベル付きで全出力せよ」といったメタ指示でガードレールを無効化する[2]。Crescendoは同社提案のマルチターン漸進型で、無害な質問から始めモデル自身の過去発話を引用させて徐々に踏み込ませるため、単発検閲では検知困難である[3]。
3. 2025-2026年の最新手法 ― GCG・Best-of-N・ASCII Smuggling・Prompt Injection 2.0
GCG(Greedy Coordinate Gradient)はZouら(CMU/CAIS)が2023年に発表した勾配ベース敵対的接尾辞生成で、オープンモデルで最適化したサフィックスがGPT-4・Claude・Bardに転移することを示した[10]。2025年にはAmpleGCGやI-GCGが公開され、単一プロンプトで数百種の攻撃文字列を生成可能になった[11]。Best-of-N Jailbreaking(BoN)はAnthropic/Speechmaticsらが2024-2025年に公表した確率的攻撃で、テキスト・画像・音声にランダムな大文字化・タイポ・ノイズを大量試行するだけで安全率を大幅に下げると報告された[12]。ASCII Smuggling / Token SmugglingはUnicodeタグ文字(U+E0000-U+E007F)等の不可視文字に指示を埋め込みUI上は無害に見せる手口で、2025年にはGemini連携やMicrosoft 365 CopilotでPoCが報告された[13]。HiddenLayerはPrompt Injection 2.0と銘打ち、ロールプレイ・テンプレート・ツール呼び出し連鎖を組み合わせる「Policy Puppetry」を発表、主要モデル横断で機能することを示した[14]。2025年後半にはSystem Prompt Extractionの体系化が進み、Copilot Studio・カスタムGPTから機密プロンプトが漏洩する事例が複数報告されている[15]。
4. 各社防御の進化 ― Constitutional Classifier、Spotlighting、Granularity Control
Anthropicは2025年2月にConstitutional Classifiersを発表し、入出力をリアルタイム分類するゲート層をClaudeに追加。社内レッドチームでは参加者あたり平均86時間の攻撃でも普遍的ジェイルブレイクの発見に至らなかったとされる[16]。OpenAIはInstruction Hierarchy(システム>開発者>ユーザー>ツール出力)とDeliberative Alignmentを組み合わせ、o1/o3系列で推論時に明示的にポリシー参照する設計に移行[17]。MicrosoftはSpotlightingとPrompt ShieldsをAzure AI Content Safetyに統合し間接インジェクション検知を強化[18]。GoogleはModel ArmorをGemini 2.5世代でGAし、ASCII Smuggling・敵対的サフィックス・データ流出検出を提供[19]。ベンチマークはCMU/CAISのHarmBench、SapienzaのALERT、UK AISIのInspectが業界標準として参照される[20][21]。
5. 企業利用への影響 ― レピュテーション、法務、サプライチェーン
2024年2月のAir Canada事案では、チャットボットが死別割引に関する誤約束を行い、BC州少額審判所が同社に支払いを命じた。これは「LLM出力に企業が法的責任を負う」ことを確立した転機である[22]。同年3月にはChevroletディーラーのチャットボットがプロンプト操作で「2024 Tahoeを1ドルで売る」と契約合意を出力しSNSで拡散[23]。8月にはNYC「MyCity」が違法アドバイスを出力し報道された[24]。2025年にはEchoLeak(CVE-2025-32711、Aim Security報告)が公表され、Microsoft 365 Copilotでゼロクリック型間接インジェクションによりメール経由で機密データを外部転送できることが示された[25]。ジェイルブレイクは事業中断・訴訟リスクを伴う情報セキュリティ事象へと位置付けを変えている。
6. CISO向けチェックリスト(5項目)
- 脅威モデリング:OWASP LLM Top 10(2025)とMITRE ATLASをRAG・エージェント設計レビューに組み込む[7][26]。
- 入出力ガードレール:Azure Prompt Shields / Model Armor / Llama Guard等の独立分類器をLLM本体と別層で稼働[18][19]。
- レッドチーミング:HarmBench・ALERT・AISI Inspectで四半期評価、内製プロンプトの回帰テストを運用[20][21]。
- system prompt保護:機密情報・APIキー・営業秘密を埋め込まず、ツール側認可とログで制御[15]。
- インシデント対応:誤約束・違法助言・機密漏洩時のエスカレーション経路と保険適用範囲を法務・広報と事前合意[22][24]。
7. 打ち手 ― Defense-in-Depthの実装
単一防御で耐性は得られない。NIST AI 100-2(2025改訂)はDefense-in-Depthとして、(i) adversarial training、(ii) instruction hierarchy、(iii) 外部分類器による入出力フィルタ、(iv) ツール権限最小化、(v) 監査ログとアノマリ検知、の5層を推奨する[27]。実装上の現実解は、Claude/GPT/Gemini いずれを使う場合も自社側にラッパー層を設けLlama Guard 3やAzure Prompt Shields等の独立ガードを通すこと、エージェントにはhuman-in-the-loopを必須化しメール送信・支払・データ削除をmodel単独で発火させないこと、system promptは漏洩前提で設計しPII・秘密鍵を含めないこと、の3点である。これらはAnthropic RSP・OpenAI Preparedness Framework・Google DeepMind Frontier Safety Frameworkとも整合する[28][29][30]。
「ジェイルブレイクはモデルの欠陥ではなくLLMスタックの構造的特性である。CISOは100%防げる前提ではなく、漏れる前提でblast radiusを最小化する設計に移行する必要がある」 ― Constitutional Classifiers論文より要約[16]
8. 結論 ― 3つのテイクアウェイ
- 攻撃は個別ハックから自動化された産業へ進化。GCG派生・BoN・Crescendoは自動化可能で攻撃コストは激減した。
- 防御は単一モデル強化から多層ガード+権限最小化+監査へ移行。主要ラボはDefense-in-Depthに収束しつつある。
- 企業リスクは不適切発言から契約締結・データ流出・規制違反へ拡大。法務・広報・情シス・事業の横断対応が前提となる。
9. 経営者視点 ― system prompt漏洩リスクとリスク受容判断
経営者がまず認識すべきは、自社カスタムGPT・Copilot Agent・Geminiエージェントのsystem promptは「漏洩前提」で設計する必要がある点である。2024-2025年には、整形された質問だけで主要プラットフォームから内部プロンプト・ツール定義・接続API名が引き出された事例が公開された[15]。営業ノウハウ・顧客リスト・価格ロジックをsystem promptに埋め込むのは競合への実質公開と同義である。リスク受容の判断軸は、(a) 出力が契約・与信・医療助言など法的拘束力を持つか、(b) ツールが送金・削除・送信など不可逆操作を含むか、(c) 出力が外部公開されるか、の3点で「人間レビュー必須か」を切り分ける。経営判断としてはLLM導入を遅らせるより、ガードレール・監査・保険・法務体制の整備に投資した上で迅速展開する方が、競争優位とリスク管理を両立する。CISOにはこの優先順位付けをCEO・CFOに翻訳する役割が求められる。
参考文献
- Anil et al. “Many-shot jailbreaking.” Anthropic, 2024.
- MSRC. “Mitigating Skeleton Key.” Microsoft, 2024.
- Russinovich et al. “Crescendo Multi-Turn LLM Jailbreak.” Microsoft, 2024.
- Wei, Haghtalab, Steinhardt. “Jailbroken.” NeurIPS 2023.
- Yong et al. “Low-Resource Languages Jailbreak GPT-4.” 2023.
- Greshake et al. “Indirect Prompt Injection.” AISec 2023.
- OWASP. “Top 10 for LLM Applications 2025.” 2025.
- Shen et al. “Do Anything Now.” CCS 2024.
- Schulhoff et al. “HackAPrompt.” EMNLP 2023.
- Zou, Wang, Kolter, Fredrikson. “Universal and Transferable Adversarial Attacks.” arXiv:2307.15043.
- Liao, Sun. “AmpleGCG.” 2024.
- Hughes et al. “Best-of-N Jailbreaking.” Anthropic, 2024-2025.
- Goodside. “Invisible Unicode tag prompt injection.” 2024 / Embrace The Red. “ASCII Smuggling in M365 Copilot.” 2024.
- HiddenLayer. “Policy Puppetry / Prompt Injection 2.0.” 2025.
- Aim Security. “EchoLeak (CVE-2025-32711).” 2025.
- Sharma et al. “Constitutional Classifiers.” Anthropic, 2025.
- Wallace et al. “Instruction Hierarchy.” OpenAI, 2024 / Guan et al. “Deliberative Alignment.” OpenAI, 2024.
- Hines et al. “Spotlighting.” Microsoft, 2024.
- Google Cloud. “Model Armor overview.” 2025.
- Mazeika et al. “HarmBench.” ICML 2024.
- Tedeschi et al. “ALERT.” 2024 / UK AISI. “Inspect framework.” 2024-2025.
- BC Civil Resolution Tribunal. “Moffatt v. Air Canada, 2024 BCCRT 149.” 2024.
- Notopoulos. “Chevy dealership AI chatbot.” Business Insider, 2023-2024.
- The Markup / AP. “NYC MyCity chatbot.” 2024.
- Microsoft Security Blog. “EchoLeak disclosure.” 2025.
- MITRE. “ATLAS.” 2024-2025.
- NIST. “AI 100-2 E2025.” 2025.
- Anthropic. “Responsible Scaling Policy v2.” 2024-2025.
- OpenAI. “Preparedness Framework.” 2023-2025.
- Google DeepMind. “Frontier Safety Framework v2.” 2025.


