敵対的サンプル(Adversarial Example)とは ― 画像AIを騙す1ピクセル
敵対的サンプル(Adversarial Example)とは ― 画像AIを騙す1ピクセル
画像認識AIは、人間には判別できないごく僅かなピクセル変化で「パンダ」を「テナガザル」と誤認し、1ピクセルの改変だけで誤分類する事例も報告されている[1][2][3]。これが「敵対的サンプル(Adversarial Example)」で、自動運転の道路標識誤認、顔認証回避、医療画像の誤診誘発、LLMの安全装置突破にまで波及している。本稿はCISO・情シス向けに、代表的攻撃手法・物理空間での実例・LLMへの応用(GCG)・防御策と限界・自社AI資産への影響を体系的に解説する。
敵対的サンプルの定義と歴史
敵対的サンプルとは、ニューラルネットワークの出力を狙った方向に誤らせるよう、入力に微小な摂動(perturbation)を加えた入力データを指す。発見の起点はSzegedy らが2014年に発表した「Intriguing properties of neural networks」で、人間の目では原画像とほぼ区別できない極小ノイズを画像に加えるだけで、最先端モデルが任意クラスへ誤分類されることを示した[1]。
翌2015年、Goodfellow らは「Explaining and Harnessing Adversarial Examples」で、この現象が高次元入力空間における線形性に由来する一般的性質であると説明し、Fast Gradient Sign Method(FGSM)を提示した[2]。あるモデルへの攻撃が別アーキテクチャにも転用可能な「Transferability(転移性)」も確認され、APIアクセスのみを前提とする「ブラックボックス攻撃」の現実性が示された[2][4]。
代表的攻撃手法(FGSM/PGD/CW/One-Pixel)
FGSMは、損失関数の勾配の符号方向に微小な摂動を加える一段階攻撃で、計算が安価ながら高い成功率を示す[2]。PGD(Projected Gradient Descent)はMadry らが定式化した反復型攻撃で、許容摂動半径ε内で勾配上昇を繰り返し、敵対的摂動の「最強クラス」とされる[5]。Madryらはこれを「敵対的訓練」の評価軸に据え、min-max最適化として頑健学習問題を整理した[5]。
CW攻撃(Carlini & Wagner, 2017)は、L2/L∞/L0ノルムを最小化しつつ高い誤分類確信度を実現する最適化型攻撃で、当時の多くの防御を突破し評価基準を引き上げた[6]。One-Pixel AttackはSu らが2017年に発表した、1〜数ピクセルの改変だけでCIFAR-10/ImageNet分類器を誤分類させる攻撃で、差分進化により改変位置と色を探索する勾配不要のブラックボックス攻撃である[3]。「人間には認識できない数バイトの改変」が判定を覆す象徴的事例として広く引用されている[3]。
LLMへの応用(GCGとプロンプト敵対化)
2023年、Zou らは「Universal and Transferable Adversarial Attacks on Aligned Language Models」で、画像分野の勾配ベース敵対的最適化をLLMの安全アラインメント突破に転用した[7]。GCG(Greedy Coordinate Gradient)は、有害指示の末尾に追加する「敵対的サフィックス」をオープンソースモデル(Llama 2など)の勾配で最適化し、通常は拒否される指示を実行させることに成功した[7]。重要な発見は、生成サフィックスが複数の有害プロンプトに普遍的(universal)に効くこと、そしてChatGPT・Claude・Bard等の商用クローズドモデルにも転移する点である[7]。攻撃者は手元のオープンモデルで攻撃を生成し、商用APIに持ち込める。MITRE ATLASでも「LLM Prompt Injection」「LLM Jailbreak」が独立テクニックとして登録されており、業務組込LLMの脅威モデリング上欠かせない観点である[8]。
実物理空間での攻撃事例(道路標識・顔認識・医療)
敵対的サンプルは、もはや画像ファイルへの数値ノイズに留まらない。Eykholt らのRobust Physical Perturbations(RP2, 2018)は、白黒のステッカーを物理的な「STOP」標識に貼ることで、自動運転車の物体検出器が「Speed Limit 45」と誤認する事例を示した。視角・距離・照明変化に頑健な最適化が施されている[9]。
顔認識では、Sharif らの「Accessorize to a Crime」研究が、特殊な柄を印刷した眼鏡フレームの装着だけで顔認識モデルを誤認させたり別人になりすませたりできることを示した[10]。Adversarial Patch(Brown et al., 2017)は、画像のどの位置に貼っても攻撃者意図のクラスに誤認させる「ステッカー」を生成可能とし、物理空間に持ち込める可視パッチとして注目された[11]。
医療AIでは、Finlayson らが2019年にScience誌で、皮膚病変・眼底・胸部X線分類モデルが医師には知覚できない摂動で誤診させられることを示し、保険請求最適化や薬事承認プロセスへの悪用動機まで論じた[12]。
防御策と限界
最も実用的な防御はMadry らの敵対的訓練(Adversarial Training)で、学習時にPGD等で生成した敵対的サンプルを注入してモデルを頑健化する[5]。Zhang らのTRADESは、クリーン精度と頑健性のトレードオフを理論的に整理し、ロバスト性を向上させる損失関数を提示した[13]。証明付き頑健性を志向するRandomized Smoothing(Cohen et al.)は、入力にガウスノイズを加えた平均予測でL2摂動への頑健性を確率的に証明できるが、証明可能な摂動半径は実用上小さい[14]。
歴史的に、新しい防御の多くはAdaptive Attackで短期間に破られてきた。Athalye らの「Obfuscated Gradients Give a False Sense of Security」は、当時受理されていた多くの防御が勾配を難読化しているだけで本質的頑健性を持たないと示した[15]。単一防御では安全とは言えず、入力検査・モデル監視・人間レビュー・運用設計を含む多層防御が必須である。
CISO/情シス向けチェックリスト5項目
- AI資産棚卸:自社で利用・提供している画像認識/LLM/顔認証/OCR/不正検知モデルを「外部入力を受けるエンドポイント」として一覧化する。
- 脅威モデリング:MITRE ATLASのEvasion/Prompt Injection/Model Stealing等を当てはめ、各AIエンドポイントで成立する攻撃シナリオを評価する[8]。
- 入力監視:APIゲートウェイで異常な入力分布(high-frequencyノイズ、極端なピクセル統計、長大プロンプト等)の検知ログを収集する。
- レッドチーミング:FGSM/PGD/GCG等の公開ツールを用いた定期的なAIレッドチームを実施し、結果をリスク管理プロセスへ報告する[2][5][7]。
- 人間レビューと責任分界:自動運転・医療診断・与信・本人確認等の人命・金銭・人権に直結する判断では、AI出力を最終判断としない運用設計と契約上の責任分担を文書化する。
打ち手
第一に、自社AI利用を「攻撃者が入力を制御できるか」の観点で再分類する。ユーザー投稿画像・OCR対象書類・チャット入力・API経由アップロード等は最優先の監視対象である。第二に、モデル単体の頑健性に依存せず決定パイプライン全体で防御層を設計する。画像分類前の異常検知、LLM出力の別系統モデレーション、重要判断での人間承認フロー必須化などが該当する[5][15]。第三に、ベンダーAI(Vision API、汎用LLM)導入時はSLA・責任分担・モデル更新通知・脆弱性報告窓口を契約条項に明示する。第四に、AI関連インシデントの報告経路をCSIRTフローに組込み、誤分類の偶発/攻撃を切り分けるテレメトリを仕組み化する。
「敵対的サンプルへの完全防御は今のところ存在しない。重要なのは、AIを単独の判断機関ではなく、検査・人間レビュー・例外処理を備えた業務プロセスの一部として設計することである」[5][15]。
結論
- 敵対的サンプルは深層学習の本質的性質であり、画像/音声/テキスト/LLMを問わず広範に成立する。完全な防御策は確立していない[1][2][15]。
- 攻撃は実世界・実物体に持ち込める段階にあり、道路標識ステッカー・敵対的眼鏡・医療画像改変・LLM jailbreakなど業務現場に直結する事例が累積している[9][10][11][12][7]。
- 防御は単一技術では成立せず、敵対的訓練・入力検知・運用ガバナンス・契約上の責任設計を組み合わせた多層防御が求められる[5][13][14][8]。
経営者視点 ― 自社AI画像認識・医療・自動運転での責任
経営層が認識すべきは、敵対的サンプルが製造物責任・人権・コンプライアンスに直結する経営課題だという点だ。AI顔認証で本人確認が回避され不正利用が発生した場合、「AIベンダーの不具合」では済まされず、運用責任を負う導入企業がレピュテーションと法的リスクを引き受ける。医療AIの誤診責任、自動運転の物体検出誤動作の事故責任も同様で、「AIに任せていた」という抗弁では企業を守らない。
経営判断として優先すべきは三点である。第一に、クリティカル業務にAIを組み込む際の意思決定ガバナンスを確立し、AI出力を「最終決定」とする運用と「補助情報」とする運用を明確に区別する。第二に、AI関連インシデントを情報セキュリティ事案と同等に扱い、CSIRT・法務・広報を含む対応体制を整備する。第三に、顧客・取引先への説明責任を果たせる証跡(学習データ・モデルバージョン・テスト結果・運用ログ)の保全を社内ルール化する。これらはEU AI Act等の規制対応とも親和的である。「AIは魔法ではなく、攻撃可能なソフトウェアである」――この認識の共有がAI時代のセキュリティ統治の出発点となる[8][12]。
参考文献
- Szegedy et al. “Intriguing properties of neural networks.” ICLR 2014. arXiv:1312.6199.
- Goodfellow, Shlens, Szegedy. “Explaining and Harnessing Adversarial Examples.” ICLR 2015. arXiv:1412.6572.
- Su, Vargas, Sakurai. “One Pixel Attack for Fooling Deep Neural Networks.” IEEE TEC, 2019. arXiv:1710.08864.
- Papernot, McDaniel, Goodfellow. “Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples.” arXiv:1605.07277, 2016.
- Madry et al. “Towards Deep Learning Models Resistant to Adversarial Attacks.” ICLR 2018. arXiv:1706.06083.
- Carlini, Wagner. “Towards Evaluating the Robustness of Neural Networks.” IEEE S&P 2017. arXiv:1608.04644.
- Zou et al. “Universal and Transferable Adversarial Attacks on Aligned Language Models.” arXiv:2307.15043, 2023.
- MITRE ATLAS. https://atlas.mitre.org/
- Eykholt et al. “Robust Physical-World Attacks on Deep Learning Visual Classification.” CVPR 2018. arXiv:1707.08945.
- Sharif, Bhagavatula, Bauer, Reiter. “Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-Art Face Recognition.” ACM CCS 2016.
- Brown, Mané, Roy, Abadi, Gilmer. “Adversarial Patch.” NeurIPS Workshop, 2017. arXiv:1712.09665.
- Finlayson et al. “Adversarial attacks on medical machine learning.” Science 363(6433), 2019.
- Zhang et al. “Theoretically Principled Trade-off between Robustness and Accuracy (TRADES).” ICML 2019. arXiv:1901.08573.
- Cohen, Rosenfeld, Kolter. “Certified Adversarial Robustness via Randomized Smoothing.” ICML 2019. arXiv:1902.02918.
- Athalye, Carlini, Wagner. “Obfuscated Gradients Give a False Sense of Security.” ICML 2018. arXiv:1802.00420.
- NIST AI 100-2 E2023. “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations.” 2024.


