エンベディング・ベクトルDBとは ― 埋め込まれたデータは”消せない”のか

admin · 2026年4月20日 · 最終更新 2026年6月30日 · 13 min read

Vector Data — Can data embedded in vector DBs ever be erased — Photo: Pexels (free stock)

生成AIのRAG基盤を構築したCISOが、ある日法務部から一通のメモを受け取る。「退職した元従業員から、当社が保持する自身の個人データを完全に削除せよとの通知が届いた。ベクターDBのembeddingも対象か」。この問いに即答できる組織は少ない。埋め込み（embedding）は一見無意味な浮動小数点配列だが、2023年以降の研究で「ほぼ元テキストを復元できる」と明らかになった^[1]。GDPR第17条「消去権」、改正個人情報保護法30条の利用停止請求は、ベクトル空間に溶けた情報にも及ぶのか。本稿はCISO・法務向けに、embedding／ベクターDBの技術的実体と、「忘却不能性」という新たな法務リスクを整理する。

Embedding の正体

Embeddingとは、テキスト・画像・音声などの非構造データを数百〜数千次元の実数ベクトルに写像する技術である。OpenAI text-embedding-3-largeは3,072次元^[2]、Cohere embed-v4.0は最大1,536次元、Voyage AI voyage-3-largeは1,024次元で、いずれもTransformer系の中間表現（もしくは対照学習で最適化された出力層）を使う。ベクトル空間では「意味的に近い概念は近い位置に写像される」という性質（分布仮説）が成立し、コサイン類似度や内積で類似検索できる。MTEB^[3]ではVoyage・Cohere・OpenAIの最新世代がいずれも70前後のスコアを競い、性能差は用途依存のチューニング領域に入った。重要なのは、この「意味を保つ写像」こそが、後述する逆変換攻撃を成立させる源泉だという点である。意味が残るからこそ、ベクトルから元文を復元できる余地が残る。

主要ベクターDB製品比較

主要なベクターDB製品は、アーキテクチャとセキュリティ成熟度に大きな差がある。PineconeはフルマネージドSaaSで、SOC 2 Type II・HIPAA・GDPR対応を公表し、Namespaceによる論理分離とRBAC、保存時暗号化（AES-256）を標準装備する^[4]。WeaviateはOSS/クラウド両対応で、Multi-tenancyを正式サポートし、テナント単位の削除・エクスポート・オフロードが可能^[5]。QdrantはRust実装のOSSで、Payloadレベルのアクセス制御、JWTベース認証、スナップショット暗号化に対応する^[6]。Milvus（Zilliz Cloud）はCNCF卒業プロジェクトで、RBAC・TLS・保存時暗号化に加えて、Kubernetes上の大規模運用実績を持つ^[7]。pgvectorはPostgreSQL拡張として既存のRLS（Row-Level Security）とロール管理をそのまま継承でき、既存DBガバナンスに乗せやすい^[8]。Azure AI SearchはMicrosoft Entra ID統合・カスタマーマネージドキー・プライベートエンドポイントを備え、エンタープライズ日本法人が最も選びやすい選択肢だ^[9]。選定の観点は「削除API・テナント分離・監査ログ・鍵管理（BYOK/CMK）」の4点に集約され、どれか一つでも欠けると、後述のGDPR削除要請への回答が致命的に弱くなる。

Embedding Inversion Attack の衝撃

2023年、コーネル大学のJohn X. Morrisらは”Text Embeddings Reveal (Almost) As Much As Text”（EMNLP 2023）で、vec2textという手法により32トークン程度のテキストがembeddingから92%の精度で復元可能だと示した^[1]。被害者側モデルのblack-boxアクセスだけで成立し、OpenAI text-embedding-ada-002に対しても、BLEU 90超で原文を再構築している。2024年以降、MorrisらはさらにMulti-vector対応（mvec2text）^[10]や、clinical notes（MIMIC-III由来）からの名前・診断名抽出にも成功を報告。Pan et al. (USENIX 2020)は、埋め込みから性別・居住地などの属性を高精度で推論できることを示していた^[11]。CISOにとっての含意は明確だ。ベクトルは「ハッシュのような不可逆変換」ではなく、「軽度に難読化された本文」に近い。漏洩時のインシデント分類は、個人情報そのものの漏洩と同等に扱うべきである。RAGで社内規程・顧客メール・医療記録を embedding 化している組織は、ベクトルストアを”機密データストア”として再分類する必要がある。

法的に「削除」要請が来たらどうするか

GDPR第17条は「消去権（right to erasure / right to be forgotten）」を定め、本人の求めに応じて個人データを遅滞なく消去する義務を課す^[12]。欧州データ保護会議（EDPB）Opinion 28/2024は、AIモデル内に吸収されたパーソナルデータについても、原則として削除権の対象になりうると明言している^[13]。日本では2022年施行の改正個人情報保護法30条に基づき、利用停止・消去請求権が強化され、違反があれば個人情報保護委員会（PPC）の命令・公表の対象になる^[14]。PPCが公表する「個人情報の保護に関する法律についてのQ&A」では、委託先・再委託先に保存されたデータの削除責任も本人（提供元の事業者）が負うことが明確化されている^[15]。論点は、embedding が「容易に個人を識別できる情報」（個情法2条1項）に該当するかだ。Inversion Attackの存在を前提にすれば、少なくとも識別子や氏名・病歴を含むテキストから生成されたembeddingは、個人データとして扱うのが無難である。監査側（PPC／監督官庁）から「削除したと言うが、ベクターDB・バックアップ・インデックスからも消したのか」と問われた際、「消しました」と証明できる設計でなければ、実質的に利用停止請求に応えられていない。

Machine Unlearning は実用的か

「モデル側に取り込まれた情報」を削除する研究分野がMachine Unlearningである。Bourtoule et al. (2021) のSISA（Sharded, Isolated, Sliced, Aggregated）は、学習データをシャード分割して部分再学習可能にする古典的手法^[16]。NeurIPS 2023のMachine Unlearning Challengeでは、数百のチームが参加したが、完全な削除保証と実用的な計算コストを両立する手法は未登場^[17]。embeddingの場合、「ベクトル1件を削除」は一見簡単に見えるが、HNSW・IVF-PQなどのANN（Approximate Nearest Neighbor）インデックスは、論理削除後も物理的には残存し、リビルドが必要になる^[18]。Differential Privacy（DP）を適用したembedding学習の研究も進むが、ノイズ付与による精度劣化は依然として実用上の障害だ^[19]。現実解は「完全忘却」ではなく「検索経路の遮断＋物理削除＋監査証跡」の三位一体で、法的に説明可能な削除プロセスを構築することである。学術的な”証明可能なunlearning”を待つ姿勢は、2025年時点では通用しない。

チェックリスト

ベクターDBの削除APIはハード削除か論理削除か把握しているか（バックアップ・インデックス残存を含む）
テナント分離はNamespace/Multi-tenancyで物理的に実現されているか、アプリ層のWHERE句に依存していないか
embedding生成時に元テキストのハッシュ・本人ID・生成日時をメタデータに保持し、逆引き削除できるか
RBAC・監査ログ・鍵管理（CMK/BYOK）が有効化され、削除イベントがSIEMに連携されているか
削除要請受付から物理削除・バックアップローテ・再学習計画までのSLA（例：30日以内）がプレイブック化されているか

打ち手

設計段階では、(1) embedding化の前に個人識別情報をマスキング・仮名化する前処理層を設け、(2) 個人データを含むベクトルを別名前空間に隔離、(3) 本人ID⇔ベクトルIDのリバースインデックスを必ず持つ。事後対応では、削除要請受付→リバースインデックスで対象ID特定→ベクターDBから物理削除→インデックス再構築→バックアップからの除去→監査ログ記録、という6ステップをSOP化する。法務と情シスの接点に「AIデータ台帳」を置き、どのシステムに誰の・何の目的の embedding が存在するかを常時棚卸しできる状態にしておくことが、PPC・DPA対応の根幹となる。

ベクトルは忘れない。忘れさせる設計をした者だけが、忘れさせられる。

Omamori AI の結論

事実: Embeddingは逆変換可能であり、個人情報と同等の機密性を持つ。ベクターDBの削除APIだけでは法的”消去”は完結せず、ANNインデックス・バックアップ・派生モデルに残存する。
判断軸: 「技術的に消去できる構造か」「法的に消去したと説明できるか」「30日SLAで対応完了できるか」の三点で、自社RAG/ベクターDB基盤を再評価する。
打ち手: 前処理での仮名化・本人ID⇔ベクトルIDの逆引き・名前空間分離・監査可能な削除プロセスを、運用開始前に組み込む。既に稼働中なら、AIデータ台帳の整備から始める。

経営者視点で考えるべきこと

RAGやAIエージェント導入の意思決定は多くがCIO・CTO主導で進むが、法務・コンプライアンス部門がembedding／ベクターDBの性質を理解しないまま承認すると、3〜5年後に深刻な是正コストを生む。GDPRの制裁金は全世界売上の4%、改正個情法でも1億円以下の罰金に加え、PPCの命令・事業者名公表というレピュテーションリスクが伴う。利用停止請求に応えられない設計で運用を続けることは「簿外債務」を積み上げるのと等価だ。経営者が今やるべきは、(1) AIガバナンス委員会を情シス・法務・事業部で組成し、(2) embedding／ベクターDBを含む「AIデータ台帳」を整備し、(3) 削除要請のE2E-SLAをKPIとして経営会議に上げる、の三点。「AI活用のスピード」と「忘却可能性の担保」は二者択一ではなく、設計段階で両立できる。手遅れになる前に、忘れさせる設計を選ぶことが、AI時代の経営者の責任である。

参考文献・出典

Morris, J. X., Kuleshov, V., Shmatikov, V., Rush, A. M. (2023). “Text Embeddings Reveal (Almost) As Much As Text.” EMNLP 2023. arXiv:2310.06816
OpenAI. “New embedding models and API updates.” https://openai.com/index/new-embedding-models-and-api-updates/ (2024)
Muennighoff, N., et al. “MTEB: Massive Text Embedding Benchmark.” https://huggingface.co/spaces/mteb/leaderboard
Pinecone. “Security and Compliance.” https://www.pinecone.io/security/
Weaviate. “Multi-tenancy Architecture.” https://weaviate.io/developers/weaviate/concepts/data#multi-tenancy
Qdrant. “Security.” https://qdrant.tech/documentation/guides/security/
Milvus / Zilliz. “Security Overview.” https://milvus.io/docs/users_and_roles.md
pgvector. https://github.com/pgvector/pgvector
Microsoft. “Security in Azure AI Search.” https://learn.microsoft.com/azure/search/search-security-overview
Morris, J. X., et al. (2024). “Language Model Inversion.” ICLR 2024. arXiv:2311.13647
Pan, X., Zhang, M., Ji, S., Yang, M. (2020). “Privacy Risks of General-Purpose Language Models.” IEEE S&P 2020
欧州議会. Regulation (EU) 2016/679 (GDPR) Article 17. https://gdpr-info.eu/art-17-gdpr/
European Data Protection Board. Opinion 28/2024 on processing of personal data in AI models (2024年12月)
個人情報保護法（令和2年改正）第30条. https://www.ppc.go.jp/personalinfo/legal/
個人情報保護委員会. 「個人情報の保護に関する法律についてのQ&A」. https://www.ppc.go.jp/personalinfo/faq/
Bourtoule, L., et al. (2021). “Machine Unlearning.” IEEE S&P 2021. arXiv:1912.03817
NeurIPS 2023 Machine Unlearning Challenge. https://unlearning-challenge.github.io/
Malkov, Y., Yashunin, D. (2018). “Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs.” IEEE TPAMI
Abadi, M., et al. (2016). “Deep Learning with Differential Privacy.” ACM CCS 2016

編集部

Omamori AI 編集部

CISO・情シス・経営層向けに、AIセキュリティの一次情報を編集視点で整理

記事の論点を、自社のリスク評価に

90秒の自己診断 or CISO/情シス向け月次レビュー（顧問契約）でアクションに繋げます。

無料 90秒自己診断顧問契約詳細