AI画像生成サービスからのデータ漏洩事例

Picsum ID: 1003

AI画像生成サービスからのデータ漏洩事例

画像生成AIは広告・デザイン・社内資料作成の現場に浸透している。しかし Stable Diffusion・Midjourney・DALL-E 3 等は過去2年間で「学習データ来歴の不透明性」「プロンプト履歴の取扱い」「生成物に含まれる第三者の権利・人格情報」の三軸で重大事故を起こしてきた[1][2]。本稿はCISO・法務が経営会議で説明できる水準まで一次資料で整理し、統制設計の論点を提示する。データ保護・著作権・人格権の交差点に立つ高リスクシステムとしての再定義が出発点となる。

1. 漏洩経路の3類型

第一は「学習データ側の漏洩」で、Webクロールされた個人・医療画像・著作物がモデルに記憶される現象[3]。第二は「プロンプト・利用ログの漏洩」で、社外秘情報や顧客固有名が事業者側に保存され外部公開・解析利用されるリスク[4]。第三は「生成物に権利侵害情報が含まれる」経路で、Getty Images の透かしを含む画像や特定企業ロゴの意図せぬ再現が代表例[5]。従来統制は第二類型に偏ってきたが、固有リスクは第一・第三にこそある。「入力管理」に加え「出力検査」「学習元検査」の三層構えが不可欠である。

2. 学習データ再現攻撃 ― 拡散モデルは記憶する

Carlini らの2023年研究「Extracting Training Data from Diffusion Models」が決定的である[3]。Stable Diffusion v1.4 と Imagen に対し特定プロンプトで学習データ(実在人物写真を含む)をピクセル単位で再現可能と実証。350万枚中94件が学習画像と「ニアコピー」で、特定可能な顔写真・医療画像も含まれた[3]。重複が多い画像・固有名詞と強く結びついた画像は特に再現されやすい。企業がファインチューニングすれば機密図面・人物写真・社内資料が第三者プロンプトで部分復元されうる[6]。LAION-5B についてはスタンフォード・インターネット観測所が2023年12月にCSAMを1,008件以上検出し配布停止に至った[7]。違法コンテンツを含む学習データに基づくモデルが商用稼働していた事実は、契約レベルでの来歴担保の必要性を示す。

3. 著作権訴訟の現状 ― Getty Images v Stability AI

2023年1月、Getty Images は Stability AI を米デラウェア州連邦地裁および英国高等法院に提訴[5][8]。1,200万枚以上を許諾なくスクレイピングしたとされ、生成画像に Getty の透かしロゴが歪んだ形で再現されていた点が決定的証拠となった[5]。2025年11月、英国高等法院は商標権侵害を一部認容する一方、英国内での著作権侵害立証は不十分として一部請求を棄却した[8]。米国訴訟は継続中で、Andersen v Stability AI[9]、NYT v OpenAI[10] と並び生成AI時代の知財ルールを形成中である。法務の含意は、「学習データを説明できないモデル」の業務利用は差止・損害賠償リスクを内包し、Indemnification(補償条項)の上限・対象を契約段階で精査する必要があること。

4. プロンプト履歴・利用ログの漏洩

Midjourney は Discord ベースで運営され、標準プランでは全ユーザーのプロンプトと生成画像が公開ギャラリーに自動掲載される[11]。2024年には大手企業社員と思しきアカウントが未発表プロダクトのデザイン案を入力していた事例が報じられた[12]。Civitai では実在人物顔を学習させた LoRA 等が流通し[13]、決済代行圧力で NSFW 規制を強化したが「同意なき第三者顔モデル」の流通は構造問題として残る[14]。系譜には2019年公開停止の DeepNude[15]、派生 Undress AI 系が Telegram 経由で再流通し2024年時点で月間2,400万アクセスに達した事例[16] がある。社員の私的利用が企業ネットワーク経由のログとしてレピュテーションリスクに転化する。DALL-E 3 / Bing Image Creator も2023年10月のローンチ直後からセーフティ回避のジェイルブレイクが報告された[17]。Microsoft AI エンジニア Shane Jones 氏は2024年1月、米上院議員と FTC に書簡を送り Bing Image Creator が安全対策を備えない状態でリリースされていると内部告発した[18]

5. 企業利用における実被害

第一にマーケが Getty Images の透かしが残った画像を入稿し納品先から差し戻された事例[5]。第二に社員が顧客名・新製品コードを含むプロンプトをパブリック Midjourney に入力し競合が発見した事例[12]。第三にロゴ生成で既存企業ロゴと酷似した出力が商標権警告状を招いた事例[19]。生体情報では Clearview AI が SNS から30億枚以上の顔画像を許諾なく収集した件で英 ICO・仏 CNIL・伊 Garante から巨額制裁金を科された[20]。「個人画像が同意なく学習・商用転用される」構造は画像生成AIと同一で、GDPR・改正個人情報保護法の争点を共有する[21]

6. CISO・法務向けチェックリスト

  1. 学習データ来歴の開示:学習データセット特定可能性、CSAM・違法収集データ除外措置をベンダーに書面確認。
  2. 補償条項の精査:第三者からの著作権・商標・肖像権侵害請求に対する Indemnification の上限・除外事由を契約に明記。
  3. プロンプト・出力ログ:学習再利用可否(Opt-out)・保存期間・第三者開示条件を確認し社内規定化。
  4. 出力検査体制:透かし検出・類似度チェック・商標DB照合を商用利用前に実施。
  5. Deepfake・人格権:実在人物の顔・声の学習生成は原則禁止、EU AI Act の deepfake 表示義務[22] に対応するラベリング運用を準備。

7. 統制の打ち手 ― 三層構えの設計

第一層「入力管理」は社内DLPと連携し人名・顧客名・未公開コード・財務数値を含むプロンプトをブロック。第二層「ベンダー選定と契約統制」では学習データ開示・補償・ログ削除権を契約に組込み、Enterprise プラン(OpenAI・Adobe Firefly・Google Imagen 等、学習非利用と補償が明示)への切替を原則とする[23]。第三層「出力検査」では生成画像をリリース前にリバース画像検索・透かし検出・商標DB照合にかける自動パイプラインを構築。三層を欠くといずれかで必ず漏れる。CISO単独でなく法務・知財・広報・事業部を横断するガバナンス委員会の設置が現実解である[24]

「拡散モデルは学習データを記憶しており、適切なプロンプトを与えれば再現可能である。これは個別の脆弱性ではなく、現行アーキテクチャの本質的特性である。」 ― Carlini ほか, “Extracting Training Data from Diffusion Models”, USENIX Security 2023[3]

結論 ― 今期中に着手すべき3点

  1. 利用モデル棚卸しと来歴文書化:社内利用中の全画像生成AI(SaaS・API・OSS)について学習データセット名・補償条項・プロンプト学習設定を一覧化し、未対応モデルは Enterprise 移行または利用停止を決定。
  2. プロンプト統制ポリシーの制定と教育:機密情報・顧客固有名・未公開情報のパブリック設定への入力を明確に禁止し違反時エスカレーションを規程化。Midjourney 標準プランの社内利用は原則禁止。
  3. 出力検査ワークフロー組込み:商用配布画像に透かし検出・類似度検索・商標照合を経ない限り対外公開できない承認フローをデザイン制作プロセスに組み込む。

経営者視点 ― IT統制ではなく経営リスクの問題

経営者にとって画像生成AIの統制は単なるIT部門タスクではない。著作権訴訟が現実化した場合の損害賠償・差止リスク、deepfake 事案で社員・顧客が被害者となるレピュテーション失墜、EU AI Act 違反による全世界売上最大3%の制裁金[22] ― いずれも経営根幹を揺るがす規模である。一方、統制下で活用すればデザイン制作リードタイム短縮・広告制作費の構造的削減という競争優位を生む。「使わない・全面禁止」は競争劣位、「無統制で使う」は破滅的事故を招く。必要なのは利用モデル・利用範囲・補償条項・出力検査の四点をワンセットで意思決定する規律である。CISO・法務・事業部が共通言語で議論できる枠組みを本年度中に整備することを推奨する。生成AIガバナンスは内部統制報告・有価証券報告書のリスク情報開示[25] でも言及が求められる経営アジェンダである。

参考文献

  1. Stanford HAI, Foundation Model Transparency Index, 2024.
  2. NIST, AI Risk Management Framework (AI RMF 1.0), Jan 2023.
  3. Carlini, N. et al., Extracting Training Data from Diffusion Models, USENIX Security 2023. arxiv.org/abs/2301.13188
  4. OpenAI, Enterprise Privacy at OpenAI, 2024.
  5. Getty Images, Statement on Stability AI Lawsuit, Jan 17, 2023.
  6. Somepalli, G. et al., Diffusion Art or Digital Forgery?, CVPR 2023. arxiv.org/abs/2212.03860
  7. Stanford Internet Observatory, Identifying and Eliminating CSAM in Generative ML Training Data, Dec 2023.
  8. England and Wales High Court, Getty Images v Stability AI, [2025] EWHC 2863 (Ch).
  9. Andersen v Stability AI, N.D. Cal., 3:23-cv-00201.
  10. NYT Co. v Microsoft & OpenAI, S.D.N.Y. 1:23-cv-11195, Dec 2023.
  11. Midjourney, Terms of Service.
  12. Ars Technica, AI tool style copying coverage, 2023-2024.
  13. 404 Media, Civitai’s Bounty System, 2023.
  14. 404 Media, Civitai Bans AI-Generated Images of Real People, 2024.
  15. BBC News, DeepNude app removed by creators after backlash, Jun 2019.
  16. Graphika, A Revealing Picture: AI-Generated Undressing Images, Dec 2023.
  17. OpenAI, DALL·E 3 System Card, Oct 2023.
  18. CNBC, Microsoft engineer warns FTC about Copilot Designer safety issues, Mar 2024.
  19. WIPO, Generative AI and Trademark Risk, 2024.
  20. UK ICO, ICO fines Clearview AI Inc, May 2022.
  21. 個人情報保護委員会, 個人情報保護法 改正のポイントとガイドライン, 2024.
  22. European Parliament, EU AI Act (Regulation (EU) 2024/1689), Mar 2024.
  23. Adobe, Firefly Enterprise IP Indemnification, 2024.
  24. ISO/IEC 42001:2023, Artificial intelligence management system.
  25. 金融庁, 記述情報の開示の好事例集, 2024.
SHARE 𝕏 in f

あわせて読みたい