モデル盗用(Model Extraction)とは ― 公開APIから学習内容を抜き取る手法

Picsum ID: 156

モデル盗用(Model Extraction)とは ― 公開APIから学習内容を抜き取る手法

機械学習モデルは「重み」という資産であり、学習には数億〜数十億円規模の計算コストと再現困難な独自データが投入される。にもかかわらず、推論用APIへクエリを投げるだけでモデルの挙動・知識・内部パラメータの一部を近似復元できることが、Tramèrら(USENIX Security 2016)以降一貫して実証されてきた[1]。本稿はCISO・情シス向けに、Model Extractionの原理、DeepSeek疑惑など実例、防御策、利用規約・損害賠償といった経営論点までを整理する。LLM時代のモデルは「公開すれば盗まれうる資産」であり、その前提に立った統制が求められる。

モデル盗用の3手法

Model Extractionは3系統に大別できる。第一はQuery-based Extraction。APIに合成入力を投げ、出力(確率・logits・生成テキスト)を教師信号に代理モデルを学習する古典手法で、線形・小規模NNなら数千〜数万クエリで重みをほぼ完全復元できる[1]。第二はDistillation-based Extraction。Hintonらの知識蒸留[2]を悪用し、ソフトラベルで小型の学生モデルへ知識を移す。第三はImitation Models。Wallaceらの研究では、商用翻訳・LLMのI/Oペアを大量収集し、オープンモデルをファインチューニングして商用品質に近づけられることが示された[3]。LLM領域ではこの3つが融合し、合成プロンプト生成と蒸留を組み合わせるパイプラインが主流である。

代表的研究の進展

Tramèrら(2016)はAmazon ML・BigMLの実APIで決定木・SVM・NNを数百〜数万クエリで複製できることを示した[1]。2019年にはOrekondyらのKnockoff Netsが画像分類APIに対しターゲットと無関係なクエリ画像でも高精度な代理モデルを構築できることを示しQuery設計の制約を緩めた[4]。LLMではCarliniら(USENIX 2021)の「Extracting Training Data from LLMs」がGPT-2から訓練データを抽出できることを示し[5]、Carlini, Ippolitoらは2024年「Stealing Part of a Production Language Model」でOpenAI APIから最終層の射影次元・パラメータの一部を200ドル未満で復元可能と実証、責任ある開示を経て公表された[6]。同論文を契機に主要LLMベンダーはlogprobsの精度・公開範囲を制限する運用変更を行っている[6]

実例 ― DeepSeek疑惑とimitation

2025年1月、中国のDeepSeekが公開した推論特化モデルDeepSeek-R1がGPT-4o級性能を低コストで実現したことを受け、OpenAIは「自社モデル出力を用いたdistillationの兆候を確認した」とMicrosoftと共同で調査中であることをFinancial Timesに明かした[7]。米ホワイトハウスAI担当のDavid SacksもCNBCで「distillationによる盗用のsubstantial evidenceがある」と発言し、議論は外交・通商レベルへ波及した[8]。DeepSeekは否定しているが、本件はLLM Imitation Attackが学術的可能性から実産業の事件へ移行したことを象徴する。研究面ではUC BerkeleyのGudibandeら(2023)が「The False Promise of Imitating Proprietary LLMs」で、ChatGPT出力を教師にした模倣モデルは表層は真似られるが推論能力が劣化すると示した一方[9]、StanfordのAlpacaはtext-davinci-003の出力5万件・約500ドルでLLaMA-7Bをinstruction-tuneし商用品質に肉薄、利用規約上の懸念から公開デモはほどなく停止された[10]

攻撃の経済学

Model Extractionが現実的脅威である最大の理由は攻防のコスト非対称性である。Carliniら2024では、production LLMの最終層次元抽出は数十〜数百ドル、完全な投影行列復元でも2,000ドル以下と見積もられた[6]。Alpacaの教師データ生成費は約500ドル[10]。一方、被害側は数千万〜数十億ドル規模の事前学習投資を行っており、1%の市場シェア喪失でもROIは攻撃側が圧倒的に高い。GPU価格の低下と推論API薄利競争により、「正規ユーザを装って大量クエリを発行→imitation modelを構築→自社サービスとして転売」というビジネスモデルが成立しうる構造にある。OWASPがLLM Top 10に「LLM10: Model Theft」を独立項目として明記したのも、この経済性が背景にある[11]

防御策

主要な技術的防御は4つに整理できる。①Rate limiting・異常クエリ検知:単位時間クエリ数、合成的入力分布、logprobs取得頻度を監視しimitation目的の挙動を遮断。②Output perturbation:確率出力に校正済みノイズ付与、top-k以外を返さない、logprobsを丸める。Carliniら2024の開示後、OpenAIはlogit_biasとlogprobs仕様を制限した[6]。③Watermarking:Kirchenbauerら(ICML 2023)はトークン選択時にgreen/redリストを使う統計的透かしを提案し、生成テキストから出所を高検出力で識別できることを示した[12]。④契約・法的防御:利用規約での「競合モデル開発禁止」明記と監査権の確保。OpenAIは “use Output to develop models that compete with OpenAI” を禁止し[13]、AnthropicのUsage Policyも競合AI/MLモデル開発のためのOutput利用を明示的に禁じている[14]

チェックリスト(5項目)

  1. 自社が提供する推論APIで、IP/APIキー単位のレートリミットと異常クエリ検知が実装されているか。
  2. logits・logprobs・top-k確率など内部状態に近い出力を必要以上に返していないか。返す場合は丸め・ノイズ付与の方針があるか。
  3. 自社モデル出力に透かし(watermark)または出所追跡可能な署名が組み込まれているか。
  4. 外部AI APIを業務利用する際、利用規約の「競合モデル訓練禁止」条項と整合しているか。社内のファインチューニング計画と突合しているか。
  5. 万一自社モデル出力が無断で他社モデル訓練に使われた場合の証拠保全・通報・法的措置の手順が定義されているか。

打ち手

CISO・情シスの第一打は「攻撃面の縮小」。自社の推論APIから不要なlogprobs・top-k確率を外し、レスポンスを最小情報に絞る。第二打は「検知」。クエリログをSIEMに集約し、合成的・網羅的入力や極端なエントロピー収集行動を異常検知するルールを追加する。第三打は「契約と教育」。外部API利用時はcompeting model開発禁止条項を法務レビュー必須項目とし、開発部門に「他社API出力を学習データに混ぜない」を社内規程として明文化する。第四打は「証跡」。watermark・出力ハッシュ・ログ保管期間を定義し、訴訟・通報の証拠として使える状態に保つ。これらは大半が既存のAPI Gateway・SIEM・契約レビュー体制の運用変更で実装可能であり、優先順位の問題に過ぎない。

「モデル盗用に対する完全な技術的防御は存在しない。我々が現実的にできるのは、攻撃コストを引き上げ、検知可能性を高め、法的救済の道を残しておくことである」 ― Nicholas Carlini, Google DeepMind(”Stealing Part of a Production Language Model” 公表時のブログ寄稿より要旨)[6]

結論

  1. Model Extractionは「APIを公開した瞬間に始まる継続的脅威」であり、Tramèr 2016からCarlini 2024まで実商用APIで実行可能性が示されてきた[1][6]
  2. LLM時代の主戦場はdistillation/imitationによる「機能的複製」である。DeepSeek疑惑はこの脅威が研究室から地政学レベルへ移行したことを示す[7][8]
  3. 防御は技術(レート制御・出力摂動・透かし)と契約(利用規約)の二層で構築する必要があり、CISOは早期に統制を整備すべきである[11][13][14]

経営者視点 ― 自社モデルを盗用された場合の損害賠償可能性

経営者が押さえるべき論点は3つ。第一に、自社モデルがAPI経由でimitationされた場合の救済手段は契約違反請求不正競争防止法上の営業秘密侵害が主軸である。OpenAIはDeepSeekに対し利用規約違反の調査を行ったとされるが[7]、訴訟成立には「規約に競合モデル訓練禁止が明記されている」「相手方が同意してAPIを利用した」「imitationの事実を立証できる」の3点が不可欠で、日本法でも規約の精度と証拠保全体制が結論を左右する。第二に、watermarkと出力ログの保全は訴訟前の防御投資として位置付けるべきで、Kirchenbauerら[12]の透かしは学習データ混入の事実認定の鍵となる。第三に、自社が他社AI APIを使う側に立つ局面でも同じ規約が適用される。OpenAI[13]・Anthropic[14]はいずれも競合モデル訓練を禁じており、社内のLLMファインチューニング計画が知らぬ間に規約違反となるリスクがある。利用規約レビューを「ハンコ業務」から「AI戦略上のゲート」へ格上げすべきである。

参考文献

  1. Tramèr, F. et al. “Stealing Machine Learning Models via Prediction APIs,” USENIX Security, 2016.
  2. Hinton, G., Vinyals, O., Dean, J. “Distilling the Knowledge in a Neural Network,” NIPS Workshop, 2014. arXiv:1503.02531
  3. Wallace, E., Stern, M., Song, D. “Imitation Attacks and Defenses for Black-box MT Systems,” EMNLP, 2020. arXiv:2004.15015
  4. Orekondy, T., Schiele, B., Fritz, M. “Knockoff Nets: Stealing Functionality of Black-Box Models,” CVPR, 2019. arXiv:1812.02766
  5. Carlini, N. et al. “Extracting Training Data from Large Language Models,” USENIX Security, 2021. arXiv:2012.07805
  6. Carlini, N., Paleka, D., Ippolito, D. et al. “Stealing Part of a Production Language Model,” ICML, 2024. arXiv:2403.06634
  7. Financial Times, “OpenAI says it has evidence China’s DeepSeek used its model to train competitor,” 29 Jan 2025.
  8. CNBC, “White House AI czar Sacks says DeepSeek ‘distilled’ OpenAI’s models,” 28 Jan 2025.
  9. Gudibande, A. et al. “The False Promise of Imitating Proprietary LLMs,” 2023. arXiv:2305.15717
  10. Taori, R. et al. “Stanford Alpaca: An Instruction-following LLaMA model,” Stanford CRFM, 2023.
  11. OWASP, “Top 10 for LLM Applications ― LLM10: Model Theft,” 2023/2024 ed.
  12. Kirchenbauer, J. et al. “A Watermark for Large Language Models,” ICML, 2023. arXiv:2301.10226
  13. OpenAI, “Terms of Use,” 2024 (競合モデル開発のためのOutput利用を禁止)
  14. Anthropic, “Usage Policy,” 2024 (競合AI/MLモデル開発・訓練のためのOutput利用を禁止)
  15. Jagielski, M. et al. “High Accuracy and High Fidelity Extraction of Neural Networks,” USENIX Security, 2020. arXiv:1909.01838
SHARE 𝕏 in f

あわせて読みたい