AI 監査ログの最低条件 — 監査法人と規制当局が 2026 年に見始めた「判断トレース」6 項目

「AI を使っているか」を問う時代は、2025年に静かに終わった。監査法人と金融庁・個人情報保護委員会をはじめとする規制当局が今問いはじめているのは、「AI が何を入力に、何を根拠に、何を出力したか、そして人間がその出力にどう介入したか」という判断の経緯だ。アクセスログの有無から、判断トレース(意思決定の過程を再構成できる記録)の質へ——この転換が、2026年下半期の監査実務を変える。
監査の射程が変わった — 2025年に起きた静かな転換
三つの動きが2025年から2026年にかけて同時に進行している。第一に、金融庁が「AIガバナンスレポーティング」を監督上の点検対象に加え、金融機関のAI利用実態を定期ヒアリングの俎上に載せた。第二に、個人情報保護委員会が2026年4月施行のガイドライン改定で、LLM(大規模言語モデル)の学習・推論時における個人データの取扱いを文書化義務の対象に明示した。第三に、監査法人がJ-SOX(日本版企業改革法に基づく内部統制報告制度)の評価において、「AIが関与する業務プロセス」を独立した論点として切り出しはじめた。三つが重なる結果として、監査側の語り口が変わった。「ログがある」と「判断トレースが残っている」は別物だ——この一言が、2025年の実務で繰り返し聞かれるようになっている。
判断トレース6項目 — 監査が問う最低条件
1. 入力プロンプトの永続化
システムプロンプト(AIへの基本指示文)とユーザー入力、そして添付ファイルや参照資料の識別情報を、コリレーションID(一連の処理を横断的に紐づける一意な識別子)付きで保存する。保存期間の目安は最低6ヶ月、金融・医療・法務といった規制業界では7年が求められる水準に近づきつつある。「プロンプトは都度消している」という運用は、今後の監査では通用しない。入力がなければ出力の妥当性は検証できず、判断の出発点が存在しないも同然だからだ。
2. 検索ソースの記録(リネージ)
RAG(Retrieval-Augmented Generation/社内データを検索しながら回答させる手法)を利用している場合、AIが回答を生成する際に参照した社内文書のID・URL・バージョンを記録する。これをデータ系統(リネージ/データがどこから来てどう加工されたかの来歴)と呼ぶ。同一の質問を翌週に投げた場合、社内文書が更新されていれば別の版が参照され、異なる回答が出るのは当然の構造だ。「いつの版を見て答えたか」が再現可能でなければ、事後の検証は成立しない。
3. モデル / バージョン情報
どのモデル(GPT-5.5・Claude 4.7・Gemini 3.5等)の、どのバージョンの、どのテンプレ(プロンプトのひな形)で処理が走ったかを記録する。AIベンダーはモデルを予告なく更新することがあり、社内の設定を変えていなくても出力の傾向が変わる。「同じAIを使い続けている」という認識が意味を持てる範囲は、以前より大幅に短くなっている。監査人が「当時どのモデルが動いていたか」を問うたとき、答えられない企業が現実に存在しはじめた。
4. 出力と差分
AIが生成したraw出力(加工前の生成結果そのもの)と、人が編集した場合の差分(誰が・いつ・何を・なぜ変えたか)をセットで保存する。契約書・財務報告書・人事評価といった文書にAIを活用するケースで、この差分ログが存在しない場合、監査人は「人間が最終判断した」という証拠を確認する手段を持てない。AIが書いた原文と人が承認した文書が同一かどうかすら判別できなければ、内部統制(J-SOXが求める業務プロセスの統制)の評価は空洞になる。
5. HITL(人手レビュー)の記録
HITL(Human-in-the-Loop/AI処理の流れに人手レビューが介在する仕組み)における承認者・承認時刻・承認時のコメントを記録する。それと同等に重要なのが、「自動承認パスを通過した件数」を別カウントすることだ。承認フローが設計上存在していても、9割がシステムによる自動素通りであれば、実質的な人手レビューはほぼ機能していない。この比率を経営層が定期的に把握できていない組織では、HITLは名目上の仕組みにとどまる。
6. 再現性のためのseed / temperature
モデル呼び出し時のtemperature(出力のばらつきを制御するパラメータ)とseed(疑似乱数の種となる数値)を記録する。後から「同じ条件で再現できるか」を検証できる状態を保つことが目的だ。「AIが確率的に生成した結果なので再現は不可能」という説明は、監査証跡(Audit Trail/事後検証に耐えるための活動記録)として成立しない。パラメータが残っていれば少なくとも同条件での再試行が可能であり、判断の再構成に一歩近づく。再現できない判断を業務に組み込む以上、その条件を記録することが最低限の責務だ。
監査人は出力ではなく、判断の縫い目を見るようになった。
6項目の優先度 — 12ヶ月で揃える順番
- 3ヶ月目まで: 項目1(入力プロンプト永続化)と項目3(モデル/バージョン)— インフラ層で完結し、既存のログ基盤に追記する形で着手できる。業務プロセス改修を伴わない点で即応性が高い。
- 6ヶ月目まで: 項目4(出力差分)と項目5(HITL)— 業務フロー側の改修が伴うが、内部監査が「AI関与プロセス」を論点化する前に揃えるべき必須条件。承認フローの設計見直しとシステム改修を並走させる。
- 12ヶ月目まで: 項目2(リネージ)と項目6(seed/temperature)— RAG基盤の改修やモデル呼び出し層の仕様変更を伴う。J-SOX評価でAI関与プロセスが独立論点として問われるサイクルが来る前に間に合わせることを目安とする。
Omamori AIの結論
- 事実: 2025年から2026年にかけて、監査の問いが「AIログがあるか」から「判断トレースが残っているか」に移行した。この変化はガイドライン改定・監督ヒアリング・J-SOX評価の三方向から同時に押し寄せている。
- 判断軸: 6項目のうち「今すでに記録できているもの」を経営会議で一度確認すること。残せていない項目が3以上であれば、来期の内部監査で論点化される蓋然性は相応に高い。
- 打ち手: ① 入力プロンプトの永続化をインフラ層で先行実装 ② HITLログを「人手承認」と「自動素通り」で分離集計する運用を設計 ③ J-SOX評価対象プロセスにおけるAI関与点を年内に棚卸しし、6項目の充足状況をマッピングする。
経営者視点で考えるべきこと
善管注意義務の現代的な解釈として、「AIに判断を委ねたのか、人が判断したのか」を事後に文書で示せない取締役会は、有事の説明責任を果たす基盤を持っていないと言わざるを得ない。判断トレースは技術的な記録の問題である以前に、取締役の義務の問題だ。また、DPIA(Data Protection Impact Assessment/個人データ影響評価)の実効性も判断トレースと連動する。推論時に個人データが使われているにもかかわらずトレースが存在しない場合、個人情報保護委員会の2026年4月改定ガイドラインのもとではDPIAが「実態と乖離した形式書類」と判定されうる。さらに監査法人との関係では、判断トレースが揃っていないAI関与プロセスは、2026年下半期以降のJ-SOX評価で「重要な不備」に該当するリスクが現実味を帯びてくる。国際展開を視野に置く企業はもう一つの軸も加わる。EU AI Actが高リスク用途と指定する領域——人事採用・金融与信・医療判断補助等——に該当する業務では、本稿の6項目すべてが規制要求の最低ラインとほぼ重なる構造になっている。国内対応として整備した記録基盤が、そのまま欧州規制への対応インフラになり得る。


