合成データとは ― プライバシー保護の「銀の弾丸」にはならない理由

Picsum ID: 366

「合成データ(Synthetic Data)を使えば個人情報ではなくなるのでGDPRも個人情報保護法も適用されない」——提案書や稟議書でこの一文を見かけたら要警戒である。合成データはAI開発・テスト・データ共有に有効だが、「法的に安全」「プライバシー完全保護」の謳い文句は学術研究と規制当局の見解に照らして過剰である。Stadler ら(2022)は主要な合成データ生成器へのメンバーシップ推論攻撃で、元データの個人が合成データから高精度で再識別可能なことを実証した[1]。英国ICOも2023年ガイダンスで「合成データは匿名化の一手法になり得るが、匿名化そのものではない」と明確化している[2]。本稿はCISOと法務向けに、合成データの技術的限界・法的位置付け・導入判断軸を整理する。

合成データの4生成手法

生成手法は大別して4系統。第一はGAN系で、表形式データ向けのCTGAN/TVAE(Xu ら, 2019)が代表格[3]。忠実度は高いが少数派クラスでモード崩壊を起こしやすい。第二はVAE(変分オートエンコーダ)系で、潜在空間学習により滑らかな生成が可能だが細部精度はGANに劣る。第三は差分プライバシー(DP)を組み込んだDP合成データで、DP-GANやPATE-GAN(Jordon ら, 2019)が代表例[4]。理論的プライバシー保証(ε, δ)が付くが、実務で意味ある水準(ε≤1)では有用性が大きく劣化する。第四がLLMベース合成で、GPT/Llama系で自然言語やタブular生成するアプローチが2023年以降急増。柔軟性は高いが学習データの記憶(memorization)によるリーク、ハルシネーションによる分布歪みが懸念される[5]。どれもDPを使わない限り数学的保証はない点は共通する。

「匿名化」との決定的違い

EU GDPR下では、Article 29 WP Opinion 05/2014(EDPBに継承)が「匿名化」の判定基準として Singling out/Linkability/Inference の3リスクの排除を示した[6]。合成データでも3リスクが残れば依然個人データに該当しうる。EDPBは2024年12月のAIモデル意見書(Opinion 28/2024)でも、生成モデルが個人データを記憶し出力が識別可能ならGDPR対象である旨を確認[7]。英国ICOのAnonymisationガイダンス(2023年)は合成データを独立章として扱い、「匿名化の手段になり得るが、生成過程と出力の双方で再識別リスク評価(motivated intruder test)が必要」とする[2]。日本の個人情報保護法の「匿名加工情報」(法第2条第6項)と「仮名加工情報」の枠組みでは合成データは明示定義されておらず、個人情報保護委員会Q&Aでも「元データに照らして特定個人を識別できない状態か」を実質判断する運用である[8]。日欧いずれも「合成=非個人情報」を自動結論としていない。

再識別攻撃の研究結果

安全性神話を揺さぶった代表研究が Stadler, Oprisanu, Troncoso “Synthetic Data – Anonymisation Groundhog Day”(USENIX Security 2022)である[1]。著者らは主要な合成データ生成器(CTGAN, PATE-GAN, synthpop, BayNet 等)を対象にメンバーシップ推論攻撃を体系評価し、DP保証のない生成器では外れ値レコードへの攻撃成功率(AUC)が0.8以上に達する事例が複数報告された。より重要な発見は「効用とプライバシーのトレードオフが険しく、実用的効用を保ちつつDP保証 ε≤1 を満たすのは困難」という点である。同論文は「合成データは再識別リスク面で新たな安全性を提供していない」と結論し、匿名化手法としての過大評価に警鐘を鳴らした。後続で Annamalai ら(2024)はLLM表形式合成でも記憶リークを実証[9]、Carlini ら(2023)は拡散モデルから学習画像を抽出可能と示した[10]。NIST PSCRのDP合成データチャレンジ(2018年以降)も、高効用と強プライバシーの両立困難を繰り返し可視化している[11]。「今破られていない」=「将来も安全」は成り立たない。

主要ベンダー比較

代表ベンダーを整理する。MOSTLY AI(オーストリア)は金融機関向け表形式データ合成で実績を持ち、DP対応と再識別リスク評価レポート自動生成が特徴、欧州銀行・保険での採用が多い[12]。Gretel.ai(米)はLLM/GANハイブリッドで開発者向けPython SDK・API志向が強く、Privacy Score等の指標をプロダクトに組込んでいる[13]。Aircloak(独, 2014年創業)は動的クエリへのDP応答Diffixエンジンが中核だったが2021年に事業縮小し、技術は Open Diffix プロジェクトに継承された[14]。旧来のベンダーと同列に扱う記事も多いが現状はOSSコミュニティ主体である点に注意。Synthetic Mindsは米スタートアップで金融・保険特化。MicrosoftはAzure上でSmartNoise(OpenDPラッパー)としてDP実装を提供し、MSRとしてもDP合成データ論文を継続発表している[15]。ベンダー選定では「DP対応有無」「第三者攻撃評価の有無」「監査可能なプライバシー指標の提示」を必須要件とすべき。

適切な使い所と禁忌

合成データが機能する典型は、(a)開発・テスト環境での実データ代替、(b)社内教育・研修用、(c)プロトタイピング・機能デモ、(d)統計的傾向のみの外部共有である。一方の禁忌。第一に医療の臨床判断モデル・与信スコアリング等「本番学習データを合成で置換する」用途。分布の裾が意思決定を左右する領域で、生成器の偏りがモデルに継承される。第二に個人特定・再連携・名寄せ前提の用途。個票が一対一で対応しないため本質的に向かない。第三に「GDPR/個情法の対象外にする」目的の使用。ICO・EDPBの見解に反し、法的根拠を欠く移転・公開は越境移転規制や第三者提供同意不備で制裁リスクに直結する。テスト用途でも元データのアクセス権限と同等の管理下に置く原則を崩さないことが鉄則である。

チェックリスト

  • 生成器が差分プライバシー(DP)対応か、ε/δの値を把握しているか
  • Stadler 2022 等の手法で Membership Inference 攻撃評価を実施したか
  • 外れ値レコード(少数派)の再識別リスクを個別に検証したか
  • 合成データを「非個人情報」として扱う法的根拠(ICO/EDPB/PPC解釈)を文書化したか
  • 生成元データのアクセス権限と、合成データ取扱者の権限を同等以上に管理しているか

打ち手

CISO・法務としての打ち手は3段階。第一に、合成データを「匿名加工情報/匿名化データ」と自動的に等置する社内文書・提案書の文言を是正する。規程には「合成データは生成過程と出力の双方でリスク評価を行い、個人データ同等またはそれ以下の保護水準を個別判断する」と明記。第二に、ベンダー選定要件にDP対応・攻撃評価レポート・Privacy Score開示を必須化し、PoCでは外れ値レコードを含む評価データセットで再識別テストを実施。第三に、用途別ポリシーを制定し、テスト・研修用途は許容、本番学習データ代替・第三者提供・越境移転は原則禁止(法務レビュー必須)とする。既存の匿名加工情報運用規程とは別ルールとして独立整備するのが望ましい。

合成データは匿名化ではなく、リスク評価付きの再現模型である。

Omamori AI の結論

  1. 事実: Stadler ら(2022)をはじめとする複数研究が、差分プライバシー非対応の合成データ生成器に対するメンバーシップ推論攻撃の成立を実証している。ICO・EDPBともに「合成データ=匿名化」という扱いを明確に否定している。
  2. 判断軸: 合成データの適否は「生成手法」「DP保証の有無」「攻撃評価の有無」「用途のリスク」の4軸で判断する。ベンダーの謳い文句ではなく、数理的保証と第三者評価に基づく。
  3. 打ち手: 合成データを個人データと同等以上の管理下に置きつつ、テスト・研修等の低リスク用途から段階導入する。本番データ代替・第三者提供は原則法務レビュー必須とし、社内規程に明文化する。

経営者視点で考えるべきこと

経営で押さえるべき論点は「合成データなら個人情報じゃない」という暗黙の前提が、法務・情報セキュリティ・レピュテーションの3方向で経営リスクに跳ね返る点である。第一に法務リスク。EDPB Opinion 28/2024は匿名性判定に「合理的に用いられうる全ての手段」を考慮するテストを課しており[7]、社内で非個人情報と判定した合成データが当局評価で覆る可能性がある。GDPR制裁金は全世界売上の4%が上限。第二に契約・越境移転リスク。顧客・委託契約に「個人データを国外に出さない」条項がある場合、合成データ名目で海外クラウドに渡したことが契約違反となる余地がある。第三にレピュテーションリスク。再識別事例が報道されれば「プライバシーを謳いながら実態は脆弱」という二重の失望が消費者・株主に残る。経営としては合成データを「問題を消す魔法」ではなく「リスクを減らす一手段」と位置付け、投資対効果と残存リスクを定量開示する姿勢が求められる。

参考文献・出典

  1. Stadler, T., Oprisanu, B., Troncoso, C. “Synthetic Data – Anonymisation Groundhog Day,” USENIX Security, 2022.
  2. UK ICO, “Anonymisation, pseudonymisation and PETs guidance – Chapter 5,” 2023.
  3. Xu, L. et al. “Modeling Tabular data using Conditional GAN (CTGAN),” NeurIPS, 2019.
  4. Jordon, J. et al. “PATE-GAN: Generating Synthetic Data with Differential Privacy Guarantees,” ICLR, 2019.
  5. Carlini, N. et al. “Extracting Training Data from Large Language Models,” USENIX Security, 2021.
  6. Article 29 WP, “Opinion 05/2014 on Anonymisation Techniques,” WP216, 2014.
  7. EDPB, “Opinion 28/2024 on AI models and personal data,” 2024年12月.
  8. 個人情報保護委員会, 「個人情報保護法ガイドラインQ&A」最新版. https://www.ppc.go.jp/personalinfo/legal/
  9. Annamalai, M. S. M. S., Gadotti, A., Rocher, L. “Attribute Inference Attacks against Synthetic Data,” USENIX Security, 2024.
  10. Carlini, N. et al. “Extracting Training Data from Diffusion Models,” USENIX Security, 2023.
  11. NIST PSCR, “Differential Privacy Synthetic Data Challenge,” 2018–2021.
  12. MOSTLY AI, “Privacy Documentation and QA Reports,” 公式ドキュメント.
  13. Gretel.ai, “Synthetic Data Privacy Documentation,” 公式ドキュメント.
  14. Open Diffix Project, “Diffix — strong anonymization for analytics,” GitHub.
  15. Microsoft / OpenDP, “SmartNoise: Differential Privacy for Data Science,” GitHub.
  16. Gartner, “Maverick Research: Forget About Your Real Data — Synthetic Data Is the Future of AI,” 2021(2024年までに合成・拡張データが学習データの60%を占める予測).
SHARE 𝕏 in f

あわせて読みたい