エンベディング・ベクトルDBとは ― 埋め込まれたデータは”消せない”のか

Picsum ID: 418

生成AIのRAG基盤を構築したCISOが、ある日法務部から一通のメモを受け取る。「退職した元従業員から、当社が保持する自身の個人データを完全に削除せよとの通知が届いた。ベクターDBのembeddingも対象か」。この問いに即答できる組織は少ない。埋め込み(embedding)は一見無意味な浮動小数点配列だが、2023年以降の研究で「ほぼ元テキストを復元できる」と明らかになった[1]。GDPR第17条「消去権」、改正個人情報保護法30条の利用停止請求は、ベクトル空間に溶けた情報にも及ぶのか。本稿はCISO・法務向けに、embedding/ベクターDBの技術的実体と、「忘却不能性」という新たな法務リスクを整理する。

Embedding の正体

Embeddingとは、テキスト・画像・音声などの非構造データを数百〜数千次元の実数ベクトルに写像する技術である。OpenAI text-embedding-3-largeは3,072次元[2]、Cohere embed-v4.0は最大1,536次元、Voyage AI voyage-3-largeは1,024次元で、いずれもTransformer系の中間表現(もしくは対照学習で最適化された出力層)を使う。ベクトル空間では「意味的に近い概念は近い位置に写像される」という性質(分布仮説)が成立し、コサイン類似度や内積で類似検索できる。MTEB[3]ではVoyage・Cohere・OpenAIの最新世代がいずれも70前後のスコアを競い、性能差は用途依存のチューニング領域に入った。重要なのは、この「意味を保つ写像」こそが、後述する逆変換攻撃を成立させる源泉だという点である。意味が残るからこそ、ベクトルから元文を復元できる余地が残る。

主要ベクターDB製品比較

主要なベクターDB製品は、アーキテクチャとセキュリティ成熟度に大きな差がある。PineconeはフルマネージドSaaSで、SOC 2 Type II・HIPAA・GDPR対応を公表し、Namespaceによる論理分離とRBAC、保存時暗号化(AES-256)を標準装備する[4]WeaviateはOSS/クラウド両対応で、Multi-tenancyを正式サポートし、テナント単位の削除・エクスポート・オフロードが可能[5]QdrantはRust実装のOSSで、Payloadレベルのアクセス制御、JWTベース認証、スナップショット暗号化に対応する[6]Milvus(Zilliz Cloud)はCNCF卒業プロジェクトで、RBAC・TLS・保存時暗号化に加えて、Kubernetes上の大規模運用実績を持つ[7]pgvectorはPostgreSQL拡張として既存のRLS(Row-Level Security)とロール管理をそのまま継承でき、既存DBガバナンスに乗せやすい[8]Azure AI SearchはMicrosoft Entra ID統合・カスタマーマネージドキー・プライベートエンドポイントを備え、エンタープライズ日本法人が最も選びやすい選択肢だ[9]。選定の観点は「削除API・テナント分離・監査ログ・鍵管理(BYOK/CMK)」の4点に集約され、どれか一つでも欠けると、後述のGDPR削除要請への回答が致命的に弱くなる。

Embedding Inversion Attack の衝撃

2023年、コーネル大学のJohn X. Morrisらは”Text Embeddings Reveal (Almost) As Much As Text”(EMNLP 2023)で、vec2textという手法により32トークン程度のテキストがembeddingから92%の精度で復元可能だと示した[1]。被害者側モデルのblack-boxアクセスだけで成立し、OpenAI text-embedding-ada-002に対しても、BLEU 90超で原文を再構築している。2024年以降、MorrisらはさらにMulti-vector対応(mvec2text[10]や、clinical notes(MIMIC-III由来)からの名前・診断名抽出にも成功を報告。Pan et al. (USENIX 2020)は、埋め込みから性別・居住地などの属性を高精度で推論できることを示していた[11]。CISOにとっての含意は明確だ。ベクトルは「ハッシュのような不可逆変換」ではなく、「軽度に難読化された本文」に近い。漏洩時のインシデント分類は、個人情報そのものの漏洩と同等に扱うべきである。RAGで社内規程・顧客メール・医療記録を embedding 化している組織は、ベクトルストアを”機密データストア”として再分類する必要がある。

法的に「削除」要請が来たらどうするか

GDPR第17条は「消去権(right to erasure / right to be forgotten)」を定め、本人の求めに応じて個人データを遅滞なく消去する義務を課す[12]。欧州データ保護会議(EDPB)Opinion 28/2024は、AIモデル内に吸収されたパーソナルデータについても、原則として削除権の対象になりうると明言している[13]。日本では2022年施行の改正個人情報保護法30条に基づき、利用停止・消去請求権が強化され、違反があれば個人情報保護委員会(PPC)の命令・公表の対象になる[14]。PPCが公表する「個人情報の保護に関する法律についてのQ&A」では、委託先・再委託先に保存されたデータの削除責任も本人(提供元の事業者)が負うことが明確化されている[15]。論点は、embedding が「容易に個人を識別できる情報」(個情法2条1項)に該当するかだ。Inversion Attackの存在を前提にすれば、少なくとも識別子や氏名・病歴を含むテキストから生成されたembeddingは、個人データとして扱うのが無難である。監査側(PPC/監督官庁)から「削除したと言うが、ベクターDB・バックアップ・インデックスからも消したのか」と問われた際、「消しました」と証明できる設計でなければ、実質的に利用停止請求に応えられていない。

Machine Unlearning は実用的か

「モデル側に取り込まれた情報」を削除する研究分野がMachine Unlearningである。Bourtoule et al. (2021) のSISA(Sharded, Isolated, Sliced, Aggregated)は、学習データをシャード分割して部分再学習可能にする古典的手法[16]。NeurIPS 2023のMachine Unlearning Challengeでは、数百のチームが参加したが、完全な削除保証と実用的な計算コストを両立する手法は未登場[17]。embeddingの場合、「ベクトル1件を削除」は一見簡単に見えるが、HNSW・IVF-PQなどのANN(Approximate Nearest Neighbor)インデックスは、論理削除後も物理的には残存し、リビルドが必要になる[18]。Differential Privacy(DP)を適用したembedding学習の研究も進むが、ノイズ付与による精度劣化は依然として実用上の障害だ[19]。現実解は「完全忘却」ではなく「検索経路の遮断+物理削除+監査証跡」の三位一体で、法的に説明可能な削除プロセスを構築することである。学術的な”証明可能なunlearning”を待つ姿勢は、2025年時点では通用しない。

チェックリスト

  • ベクターDBの削除APIはハード削除か論理削除か把握しているか(バックアップ・インデックス残存を含む)
  • テナント分離はNamespace/Multi-tenancyで物理的に実現されているか、アプリ層のWHERE句に依存していないか
  • embedding生成時に元テキストのハッシュ・本人ID・生成日時をメタデータに保持し、逆引き削除できるか
  • RBAC・監査ログ・鍵管理(CMK/BYOK)が有効化され、削除イベントがSIEMに連携されているか
  • 削除要請受付から物理削除・バックアップローテ・再学習計画までのSLA(例:30日以内)がプレイブック化されているか

打ち手

設計段階では、(1) embedding化の前に個人識別情報をマスキング・仮名化する前処理層を設け、(2) 個人データを含むベクトルを別名前空間に隔離、(3) 本人ID⇔ベクトルIDのリバースインデックスを必ず持つ。事後対応では、削除要請受付→リバースインデックスで対象ID特定→ベクターDBから物理削除→インデックス再構築→バックアップからの除去→監査ログ記録、という6ステップをSOP化する。法務と情シスの接点に「AIデータ台帳」を置き、どのシステムに誰の・何の目的の embedding が存在するかを常時棚卸しできる状態にしておくことが、PPC・DPA対応の根幹となる。

ベクトルは忘れない。忘れさせる設計をした者だけが、忘れさせられる。

Omamori AI の結論

  1. 事実: Embeddingは逆変換可能であり、個人情報と同等の機密性を持つ。ベクターDBの削除APIだけでは法的”消去”は完結せず、ANNインデックス・バックアップ・派生モデルに残存する。
  2. 判断軸: 「技術的に消去できる構造か」「法的に消去したと説明できるか」「30日SLAで対応完了できるか」の三点で、自社RAG/ベクターDB基盤を再評価する。
  3. 打ち手: 前処理での仮名化・本人ID⇔ベクトルIDの逆引き・名前空間分離・監査可能な削除プロセスを、運用開始前に組み込む。既に稼働中なら、AIデータ台帳の整備から始める。

経営者視点で考えるべきこと

RAGやAIエージェント導入の意思決定は多くがCIO・CTO主導で進むが、法務・コンプライアンス部門がembedding/ベクターDBの性質を理解しないまま承認すると、3〜5年後に深刻な是正コストを生む。GDPRの制裁金は全世界売上の4%、改正個情法でも1億円以下の罰金に加え、PPCの命令・事業者名公表というレピュテーションリスクが伴う。利用停止請求に応えられない設計で運用を続けることは「簿外債務」を積み上げるのと等価だ。経営者が今やるべきは、(1) AIガバナンス委員会を情シス・法務・事業部で組成し、(2) embedding/ベクターDBを含む「AIデータ台帳」を整備し、(3) 削除要請のE2E-SLAをKPIとして経営会議に上げる、の三点。「AI活用のスピード」と「忘却可能性の担保」は二者択一ではなく、設計段階で両立できる。手遅れになる前に、忘れさせる設計を選ぶことが、AI時代の経営者の責任である。

参考文献・出典

  1. Morris, J. X., Kuleshov, V., Shmatikov, V., Rush, A. M. (2023). “Text Embeddings Reveal (Almost) As Much As Text.” EMNLP 2023. arXiv:2310.06816
  2. OpenAI. “New embedding models and API updates.” https://openai.com/index/new-embedding-models-and-api-updates/ (2024)
  3. Muennighoff, N., et al. “MTEB: Massive Text Embedding Benchmark.” https://huggingface.co/spaces/mteb/leaderboard
  4. Pinecone. “Security and Compliance.” https://www.pinecone.io/security/
  5. Weaviate. “Multi-tenancy Architecture.” https://weaviate.io/developers/weaviate/concepts/data#multi-tenancy
  6. Qdrant. “Security.” https://qdrant.tech/documentation/guides/security/
  7. Milvus / Zilliz. “Security Overview.” https://milvus.io/docs/users_and_roles.md
  8. pgvector. https://github.com/pgvector/pgvector
  9. Microsoft. “Security in Azure AI Search.” https://learn.microsoft.com/azure/search/search-security-overview
  10. Morris, J. X., et al. (2024). “Language Model Inversion.” ICLR 2024. arXiv:2311.13647
  11. Pan, X., Zhang, M., Ji, S., Yang, M. (2020). “Privacy Risks of General-Purpose Language Models.” IEEE S&P 2020
  12. 欧州議会. Regulation (EU) 2016/679 (GDPR) Article 17. https://gdpr-info.eu/art-17-gdpr/
  13. European Data Protection Board. Opinion 28/2024 on processing of personal data in AI models (2024年12月)
  14. 個人情報保護法(令和2年改正)第30条. https://www.ppc.go.jp/personalinfo/legal/
  15. 個人情報保護委員会. 「個人情報の保護に関する法律についてのQ&A」. https://www.ppc.go.jp/personalinfo/faq/
  16. Bourtoule, L., et al. (2021). “Machine Unlearning.” IEEE S&P 2021. arXiv:1912.03817
  17. NeurIPS 2023 Machine Unlearning Challenge. https://unlearning-challenge.github.io/
  18. Malkov, Y., Yashunin, D. (2018). “Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs.” IEEE TPAMI
  19. Abadi, M., et al. (2016). “Deep Learning with Differential Privacy.” ACM CCS 2016
SHARE 𝕏 in f

あわせて読みたい