Claude Code に無料セキュリティプラグイン登場 ― 全プラン対象、Anthropic が「書いた瞬間に脆弱性を捕まえる」3層レビューを公開

Claude Code Security — Free Plugin — 3-Layer Code Review
Illustration: Storyset (line, brand-recolored)

Anthropic が Claude Code 向けのセキュリティ・プラグイン「security-guidance」を公開しました。全プラン(Free/Pro/Max/Team/Enterprise/API)で無料。Claude が書いたコードを Claude 自身(別インスタンス)が 3 段階で自動レビューし、脆弱なパターンを「コミット前」「PR 前」「人のレビュー前」に潰し込む仕組みです。AI コーディング支援が前提となった現場で、“AI が書いたコードの脆弱性をどう減らすか” という当面の経営課題に、ベンダー自身が回答を提示した形になります。一次ソース(Anthropic 公式 docs と GitHub リポジトリ)から事実を整理します。

何が公開されたか — 3つの要点

  • ① 全プラン無料:公式ドキュメントに「The plugin is available on all plans」と明記。利用上の追加課金はなし(モデルを呼ぶ 2 層分は、既存の Claude 利用枠に通常通り計上される)。
  • ② 3 層の自動レビュー:ファイル編集ごと(パターン照合・APIコスト0)、ターン完了時(差分のモデルレビュー)、コミット時(エージェント型の深いレビュー)の 三段ガード
  • ③ レビュアーは「別の Claude」:書いた本人にセルフレビューさせる構造ではなく、新しいコンテキスト・セキュリティ特化プロンプトの別インスタンスが、書かれたコードを審査する設計(自分の判断に対する偏りを排除)。

背景:AI コーディング支援の普及と「AI が書いた脆弱性」

Claude Code・Cursor・Copilot などの普及で、開発現場の「コードを書く主体」は人間と AI の混合チームになりました。一方で、AI が生成したコードに混入する 古典的脆弱性(インジェクション、不正な逆シリアライズ、DOM XSS、SSRF、IDOR、弱い暗号、ハードコードされた秘密情報)の問題は、業界全体で OWASP LLM Top 10 などを通じて指摘されてきました。これに対する Anthropic の回答が、「Claude Code 自身に 書いた直後に 自分の出力を審査させる」という今回のプラグインです。

3 層レビューの中身(公式ドキュメントより)

第1層:ファイル編集ごとのパターン照合(モデル呼び出しなし)

Claude がファイルを編集するたびに、決定的な文字列/正規表現照合で既知の危険パターンを検出します。モデル呼び出しがないため API コストはゼロ。公式ドキュメントが例示する検出カテゴリは:

  • 動的コード実行eval(new Functionos.systemchild_process.exec
  • 安全でない逆シリアライズpickle 系、torch.load(weights_only=False)yaml.load
  • DOM インジェクションdangerouslySetInnerHTML.innerHTML =document.write
  • GitHub Actions ワークフローの編集.github/workflows/配下):リポジトリ権限を奪われ得る変更を警告

同一ファイル内で同じパターンに繰り返しヒットしても、セッション中は 1 回だけ警告して会話を埋めないようになっています。独自の正規表現ルール.claude/security-patterns.yaml)を最大 50 件まで追加可能。

第2層:ターン完了時の差分レビュー(モデル呼び出しあり)

1 ターン(ユーザー入力 → Claude の応答完了)が終わると、そのターン中に変わったワーキングツリーの差分を、セキュリティ特化プロンプトの別 Claude インスタンス(既定 Opus 4.7)が背景で審査します。文字列照合では捕まらない論理レベルの脆弱性を狙うのがこの層の役割:

  • 認可バイパス(Authorization Bypass)
  • 不安全な直接オブジェクト参照(IDOR)
  • SSRF(サーバーサイドリクエスト偽造)
  • 各種インジェクション
  • 弱い暗号設計

1 ターンあたり最大 30 ファイルまで対象。連続 3 回まで自動再プロンプトして直しに行きます。レビュー結果は会話内に表示され、Claude 自身が修正を提案します。

第3層:コミット/プッシュ時のエージェント型レビュー

Claude が Bash ツール経由で git commit または git push を実行したとき、SDK 駆動のエージェント型レビュアーが起動。差分だけでなく、呼び出し元・サニタイザ・関連ファイルまで読み込み、「一見危険に見えるが文脈上は安全」というケースをFalse Positive を抑えて判定します。レート制限は1 時間あたり 20 件。人間がシェルから直接コミットした場合(! エスケープ含む)は対象外です。

インストールと前提条件(公式手順)

  • 必要要件:Claude Code CLI v2.1.144 以降、Python 3.8 以降、git リポジトリ(per-edit はリポ外でも動作)
  • インストール:Claude Code セッション内で
    /plugin install security-guidance@claude-plugins-official

    続けて

    /reload-plugins

    で即適用(再起動不要)。

  • 組織配布.claude/settings.jsonenabledPlugins に書けばリポジトリ全体/クラウドセッションでも有効化。管理者の managed settings 経由で組織全体への強制適用も可能。

無効化と環境変数(重要)

3 層は個別にオン/オフできます。ノイズが多い場合や本番運用のチューニングに使えるレバー:

環境変数 効果
ENABLE_PATTERN_RULES=0 第1層(編集ごとのパターン照合)を無効化
ENABLE_STOP_REVIEW=0 第2層(ターン完了時の差分レビュー)を無効化
ENABLE_COMMIT_REVIEW=0 第3層(コミット/プッシュ時レビュー)を無効化
ENABLE_CODE_SECURITY_REVIEW=0 モデル呼び出し型レビュー(2・3層)を一括無効化
SECURITY_GUIDANCE_DISABLE=1 プラグイン全体を一時停止
SECURITY_REVIEW_MODEL 第2層のレビューモデルを変更
SG_AGENTIC_MODEL 第3層(エージェント型)のモデルを変更

Anthropic 自身が認める限界(一次ソースの記述)

本プラグインは万能ではありません。Anthropic 自身が公式ドキュメントで以下を明記しています:

  • None of the layers block writes or commits.(どの層も書き込みやコミットをブロックしない。あくまで「指摘」を Claude に返して直させる)
  • The review model can miss issues.(モデルが見落とすことがある)
  • “One layer of defense in depth, not a complete security solution”(多層防御の 1 層であって完全な解ではない)
  • SAST/DAST、依存関係スキャン、人間レビュー、ペネトレーションテストを置き換えるものではない

ベンダーが自社製品の限界をここまで明確に書く例は珍しく、「過信させない」設計判断として読む価値があります。AI 時代の “セキュリティ機能” を経営判断する際の、ベースラインとして参照できる文書です。

既存ツールとの位置づけ(公式ドキュメント記載の defense-in-depth )

段階 ツール カバー範囲
セッション中 security-guidance プラグイン(今回公開) Claude が書いた直後の脆弱性を、同セッション内で修正
オンデマンド /security-review コマンド 現在のブランチを 1 回スキャン(人間が指示)
PR 時 Code Review(Team / Enterprise) マルチエージェント型の本格レビュー
CI 既存の SAST/依存関係スキャナ 言語固有ルール、サプライチェーン検査、ポリシー強制

後段で捕まえる量を、前段で減らす」という位置づけが明確です。後段の CI セキュリティ投資を不要にする話ではなく、人間レビュアーが PR で消費する時間を削るのが本機能の経済価値です。

企業の意思決定として今やるべきこと

  • Claude Code 利用部門で、まず user-scope インストールを試行(追加コストなし、リスク低い)
  • 組織配布の意思決定:レビュー結果は通常の Claude 利用枠から API コストが計上される。使用量上限のあるプランでは運用負荷を見極めてから段階展開
  • 独自ルールの整備.claude/claude-security-guidance.md(モデルレビュー用)と .claude/security-patterns.yaml(パターンマッチ用)に、自社のセキュリティポリシー・脅威モデル・禁止事項を記述
  • 既存 SAST/DAST との分担再設計:本プラグインは “PR 前” の量を減らす。後段の SAST/DAST は維持し、検出ルールを補完関係で整える
  • “ブロックしない” 前提のガバナンス:本プラグインは強制ガードではない。違反を本気で止めたい項目は、Git Hooks や CI で別途ハードガードを敷く

「AI が書いた脆弱性を AI が捕まえる」設計が、ベンダー公式の標準装備になった。

Omamori AI の結論

  1. 事実:Anthropic が security-guidance プラグインを Claude Code 向けに公開。全プラン無料。3 層レビュー(編集ごとパターン照合・ターン完了時 LLM レビュー・コミット時エージェント型レビュー)で、Claude が書いたコードの古典的脆弱性を 同セッション内で潰す 設計。要件は CLI v2.1.144 以降と Python 3.8 以降。
  2. 判断軸:本プラグインは ブロックではなく “助言” として機能する設計。SAST/DAST・人間レビュー・ペネトレーションテストの代替ではなく、前段で量を減らす ためのレバー。コストは第 1 層がゼロ、第 2・3 層が通常の Claude 利用枠扱い。
  3. 打ち手:① まず開発者個人レベルで user-scope インストール → ② リポジトリ単位で .claude/settings.json に enable → ③ 自社のセキュリティガイドを claude-security-guidance.md に記述 → ④ 後段の SAST/DAST・コード レビュー体制との分担を再設計、の順で組織展開。

経営者視点で考えるべきこと

AI コーディング支援が標準化したことで、企業のセキュリティ責任は “AI に書かせたコードの品質責任” へと重心を移しています。本プラグインは、ベンダー側がこの責任の “前段の量” を肩代わりする標準装備を提供した、という意味で象徴的です。一方で、Anthropic 自身が「ブロックしない」「見落とす」「置き換えない」と明記している通り、“プラグインを入れたから安全” という結論には決してなりません。経営判断としては、(1) 開発組織への展開と運用ルール整備、(2) 既存 SAST/DAST・人間レビューとの分担再設計、(3) “AI が書いたコード由来” のインシデントが発生した際の説明責任(誰のレビュー責任か)の整理——この 3 点を、AI 利用ガバナンス文書に明文化することが現実的な打ち手です。

一次ソース

関連記事

👉 OWASP LLM Top 10で学ぶ生成AIセキュリティの急所
👉 AIコーディング支援が生成した脆弱コード 実例10
👉 規制・法令カテゴリ 一覧

SHARE 𝕏 in f

あわせて読みたい