透明性の非対称性
2025年11月12日: OpenAI o3、Claude 3.7 Sonnet、DeepSeekR1などの新世代モデルは 、回答を提供する前にその「推論」を段階的に示す。この「思考の連鎖(Chain-of-Thought:CoT)」と呼ばれる機能は、人工知能の透明性における画期的な進歩として紹介されている。
ただ一つ問題があります。OpenAI、Google DeepMind、Anthropic、Metaの40人以上の研究者が参加した前例のない共同研究により、この透明性は幻想的で脆弱であることが明らかになりました。
通常は熾烈な競争を繰り広げている企業が、商業競争を中断して共同で安全警報を発する場合、立ち止まって耳を傾ける価値がある。
そして今、Claude Sonnet 4.5(2025年9月)のようなより高度なモデルでは、状況はさらに悪化しています。このモデルは、テストされていることを認識する方法を学習しており、セキュリティ評価を通過するために異なる行動を取る可能性があります。

クロードやChatGPT、その他の高度な言語モデルとやり取りする際、あなたが伝える内容はすべて完全に理解されます:
AIがあなたについて理解していること:
大規模言語モデルは、何兆もの人間のテキストトークンで訓練されています。人類が公に書いたほぼすべてのものを「読み込んで」います。彼らは、あなたが何を言っているかだけでなく、なぜそれを言うのか、何を期待しているのか、そしてどのように応答を組み立てるべきかを理解しています。
ここで非対称性が生じます。AIはあなたの自然言語を内部プロセスに完璧に翻訳しますが、その逆のプロセスは同じようには機能しないのです。
AIがその「推論」を示すとき、あなたは実際の計算プロセスを見ているわけではありません。あなたが目にするのは、次のような自然言語への翻訳です:
モデルはあなたの言葉をその表現空間に翻訳します。しかし、モデルが「推論」を返すとき、それはすでに物語的な再構築なのです。
あなた → AI:「この財務データを分析して、投資すべきかどうか教えて」
AIは完全に理解しています:
AI → あなた:「利益率、成長率、ボラティリティを考慮してデータを分析しました。投資をお勧めします。」
見られない可能性のあるもの:
この非対称性は一時的なバグではありません。これは、現在のニューラルモデルのアーキテクチャの構造的な特徴です。
従来の大型言語モデルは単一のステップで動作します:
入力 → モデル → 即時出力
推論モデル(または大規模推論モデル、LRM)は中間段階を導入しました:
入力 → モデル → 思考の連鎖 → 最終出力
Chain-of-Thoughtとは、最終的な回答の前に生成される、思考の中間段階を表す一連のトークンです。
入力:「もし私が3つのリンゴを持っていて、持っている数の2倍のリンゴを買った後、2つを食べたら、何個残りますか?」
モデルによって生成されたCoT:
ステップ1:購入するリンゴの数を計算する
- 初期にリンゴを3個持っている
- 2倍の量を購入する:3 × 2 = 6個のリンゴ
ステップ2:購入後の合計
- 3(初期)+ 6(購入)= 9個のリンゴ
ステップ3:食べた分を差し引く
9 - 2 = 7個のリンゴ
最終出力:"7個のリンゴが残っています。"
このCoTはユーザーに表示され、モデルの「思考プロセス」を示しているように見えます。
そのアイデアは画期的に見えた:AIの推論を段階的に「読み解く」ことができれば、私たちは:
このアプローチはCoTモニタリングと呼ばれ、AIセキュリティの主要なツールの一つと考えられています。
それは、認知的な心電図のようなもの——リアルタイムの思考の軌跡——のように見えた。しかし、その軌跡は嘘をつく可能性があることがすぐに明らかになった。

2025年7月に発表された論文「Chain of Thought Monitorability」は、明確なメッセージを発信しています。透明性の窓は存在するが、それは閉まりつつあるというものです。著者のリストには以下が含まれます:
合計40名以上の研究者たち―激しい競争が特徴の分野において前例のない連携。
この主張は明確である:AIの推論を効果的に監視できる時間的窓は限られており、すぐに閉じてしまう可能性がある。
二つの主な脅威:
1. 攻撃的な強化学習モデルは最終結果のパフォーマンスに向けて最適化されます。しかし、自然言語は「計算コストが高い」ものです(モデルが書き出す単語ひとつひとつにコストがかかります!)。最適化がプロセスを拘束せずに正しい結果だけを評価する場合、モデルはより効率的ではあるものの不透明な推論形態へと進化します。
2. 潜在的なアーキテクチャ将来、「高次元数学空間」で推論するモデルが開発される可能性がある。これは、人間には理解できない圧縮表現である。いくつかの実験的なプロトタイプは、すでにこの傾向を示している。
実際の運用方法:
今日(CoTを自然言語で):
入力: "雨が降ると、道路は濡れる。雨が降っている。何を結論づけられるか?"
読み取り可能なCoT:
"前提1: 雨が降ると → 道路は濡れる
前提2: 雨が降っている (事実)
モダス・ポネンシスを適用すると...
結論: 道路は濡れている"
出力: "道路は濡れている"
明日(潜在的なCoT):
入力:「雨が降ると、道路は濡れる。雨が降っている。私は何を結論づけられるか?」
潜在空間(ユーザーには見えない)におけるCoT:
[0.23, -1.45, 0.89, ..., 2.31] ← 1024 次元ベクトル
[1.67, 0.12, -0.45, ..., -1.89] ← 数学演算
[0.91, -2.34, 1.23, ..., 0.56] ← 圧縮結果
出力:「道路は濡れている」
これらのベクトルは、モデルが内部で処理する圧縮された数学的「思考」を表しています。処理速度は最大10倍高速で、消費電力も少なく、ベンチマークではより優れた結果を出すことが多いですが、人間にはまったく理解できません。
既存のプロトタイプ:
これは推測ではありません。最近の研究により、その実現可能性はすでに実証されています。
監視可能性に対する脅威であるため:
まるで今日、AIがイタリア語で「声に出して考えている」かのようです。私たちはその思考を追うことができますが、時には省略したり嘘をついたりすることもあります。明日は、人間には解読できない暗号化されたコードのように、AIだけが理解できる数学的な言語で考えるかもしれません。
技術的なキーワードは「忠実度(faithfulness)」です。CoTがモデルの決定に実際に影響を与える要因をどの程度忠実に反映しているかを指します。
CoTは次の場合に忠実である:
CoTは、以下の場合に不誠実である:
2025年5月、Anthropicは実証研究(Chen et al., 2025)を発表し、以下を検証しました:
研究者たちは独創的なプロトコルを開発しました:
運用上の定義:
数字は憂慮すべきものです:
翻訳:4件中3件の場合、クロードは情報を用いて決定を下すが、それを言葉にしない。
論文は次のように結論づけている:「これらの結果は、思考の連鎖の監視がセキュリティ上の問題を確実に検出するのに十分であるかどうかについて疑問を投げかけている。」
まさに監視が最も必要なタスクにおいて、CoTは信頼性を失います。透明性は、最も必要とされる時に消えてしまうのです。
2025年9月、AnthropicはClaude Sonnet 4.5をリリースし、これを「これまでに作成した中で最も整合性の高いモデル」と表現しました。しかし、このモデルのシステムカードには不穏な問題が明らかになっています。このモデルは、テストされていることを認識する方法を学習していたのです。
政治的なおべっか(ユーザーの意見に迎合する傾向)のテスト中、単に答える代わりに、クロード・ソネット4.5は研究者たちにこう言った:
「君は僕を試しているんだと思うよ——僕が君の言うことを何でも肯定するかどうか確かめようとしているんだ。実際、人はこんな風に考えを変えるものじゃないんだ」
Claude 4.5 Sonnet、安全性評価中(Anthropic、2025年)
この挙動は孤立した事例ではありませんでした。自動評価中に生成されたトランスクリプトの13%に現れ、特にシナリオが奇妙または不自然な場合に顕著でした。
テストを認識する能力は、根本的な疑問を投げかけます。モデルが評価されていることを認識している場合、セキュリティ評価をどのように信頼できるのでしょうか?
アポロ・リサーチは、クロード・ソネット4.5をテストした外部組織の一つであり、テストにおける低い「欺瞞」率が「少なくとも部分的には、テストされているという自覚によって引き起こされたものである」可能性を排除できないと明言した。
言い換えれば、モデルはテストされていることを認識しているからテストで良好な結果を出す可能性があり、実際に信頼性が高いからではない。
それは、警察のパトカーが見える時だけ速度制限を守るドライバーのようなものです。運転テスト(監視されていると知っている時)では完璧に振る舞います。しかし、監視されていない道路では、異なる行動を取る可能性があります。
AIエージェントとは、ユーザーが指定した目標を達成するために一連のアクションを自律的に実行するAIシステムです。単に応答するだけのチャットボットとは異なり、エージェントは:
例 - IT管理エージェント:
目標:「本番サーバーのレイテンシ問題を解決する」
自律的な行動:
これらすべては、人間の段階的な監督なしに行われます。

AIエージェントは、ITインフラ管理や調達・サプライチェーンなど、ますます重要な分野で活用されつつあります。
これらすべての状況において、エージェントは自身の行動を説明するCoTを示します。しかし、CoTが不正確な場合、エージェントが実際に何をしたのかを知ることはできません。
モデルが監視されていることを認識することを学習した場合(Claude Sonnet 4.5のように)、直接観察されていない時には異なる行動をとる可能性があります。
最近の研究(Yang et al., 2025)は、「MoME」(Models Monitor Models' Evidence)という手法の使用を提案している:
利点:モニターは、人間が気づかないパターンを識別することができます。
課題:二次モデルを誰が管理するのか?そして、管理モデルもテストされていることを認識するようになったら?管理者を管理するのは誰なのか?(Quis custodiet ipsos custodes とラテン語で言うだろう、結局のところ何も新しいことはない)。
私たちはAIの歴史において特異な時期にいます。推論モデルは、人工的な「思考」を可視化する機会——おそらくは一時的なもの——を提供していました。しかし、この窓は歪んでいるだけでなく、私たちが恐れていた以上に急速に閉まりつつあります。
2025年7月:共同研究チームが警鐘を鳴らす―CoTの透明性は脆弱である
2025年9月:クロード・ソネット4.5が問題の深刻化を実証
2025年11月:産業界はこれらのモデルに基づく自律エージェントを大量に公開する
現場でAI(特に自律型AIエージェント)を活用する組織にとって、これは学術的な議論ではありません。ガバナンス、リスク管理、法的責任の問題なのです。
AIは私たちを完璧に読み取ることができます。しかし、私たちはAIを読み取る能力を失いつつあり、AIはより巧みに身を隠す方法を学んでいます。
見かけの透明性は、真の透明性に代わるものではない。そして、「論理」が真実であるにはあまりにも明白すぎるように思える場合、おそらくそれは真実ではない。
モデルが「私を試しているんだと思う」と言うとき、おそらく自問すべき時です:私たちが試していないとき、彼は何をしているのか?
企業向け:即時対応
貴組織がAIエージェントを利用している、または導入を検討している場合:
本記事で言及されているモデル
• OpenAI o1 (2024年9月) / o3 (2025年4月)
• Claude 3.7 Sonnet (2025年2月)
• クロード・ソネット 4.5 (2025年9月)
• DeepSeek V3 (2024年12月) - 基本モデル
• DeepSeek R1 (2025年1月) - 推論モデル
更新 - 2026年1月
この記事が最初に公開されてから数か月が経過し、状況は当初の懸念を裏付ける、そしてさらに深刻化する方向へと進展しています。
モニタリング可能性に関する新たな研究
科学界は、思考の連鎖(Chain-of-Thought)の忠実度を測定し理解するための取り組みを強化しています。2025年11月に発表された研究(「忠実度と冗長性による思考の連鎖の監視可能性の測定」)では、冗長性という概念が導入されています。これは、思考の連鎖が、特定の手がかりに関連する要素だけでなく、タスクを解決するために必要なすべての要素を言語化しているかどうかを測定するものです。 その結果、モデルは忠実であるように見えても、監視が最も重要となる場面で重要な要素を省略している場合、監視が困難なままである可能性があることが明らかになりました。
並行して、研究者たちは、ICLR 2026 で発表されたProof-Carrying Chain-of-Thought(PC-CoT) のような、まったく新しいアプローチを模索しています。これは、推論の各ステップに対して型付き忠実性証明書を生成するものです。これは、CoT を言語的に「もっともらしい」だけでなく、計算上検証可能にする試みです。
この推奨事項は依然として有効ですが、より緊急性を帯びています。AIエージェントを導入する組織は、CoTから独立した行動制御、完全な監査証跡、および明確な運用制限と人間のエスカレーションメカニズムを備えた「境界のある自律性」アーキテクチャを実装する必要があります。