答えを返す前に「考える過程」を長々と書き出すAI――いわゆる推論モデルが、この一、二年で一気に主流になりました。難しい問題でも筋道を立てて解いているように見え、「ついにAIが考え始めた」という期待が広がっています。ところが近年の研究では、その「考え」がどこまで本物の推論なのかをめぐって、評価が分かれています。これは哲学的な遊びではなく、「どの業務をAIに任せ、どこで人間が見張るか」という実務判断に直結する論争です。本稿では、対立する主張を交通整理しながら、企業が引くべき線を探ります。

“考えるAI”への期待に差した影
推論モデルの能力をあえて限界まで追い込むと、賢さの裏側にある脆さが見えてきます。
難しくなると「考えるのをやめる」モデル
難易度を細かく調整できるパズルで推論モデルを試した研究では、性能がきれいに三つの領域に分かれることが示されました[1]。やさしい問題ではむしろ通常のモデルが上回り、中くらいの難しさで推論モデルが力を発揮し、そして一定の複雑さを超えると正答率がそろって崩壊し、ゼロへ近づいていきます。なだらかに落ちるのではなく、ある壁で一気に壊れるのが特徴です。
さらに不可解なのは、問題が難しくなるほど、本来もっと粘れるはずの場面で「考える量」をかえって減らしてしまう傾向です[1]。書き出せるトークンの余力が残っていても、途中で思考を切り上げてしまう。人間なら気合いを入れ直す局面で、逆に手を抜くような挙動が観測されたのです。
手順を教えても、なぞれない
とりわけ重要な観察として、解き方の手順そのものを与えても正しく実行できなかった点が挙げられます[1]。答えを自力で探させるのではなく「この通りに動かせ」と指示しても、途中で破綻してしまう。これは、論理を一歩ずつ辿る力が見かけほど備わっていない証拠ではないか、という疑いを生みました。
この見方は孤立した主張ではありません。思考の過程を丁寧に書かせても、訓練データから少し外れた問題には性能が一般化しにくい、という指摘もあります[2]。「考えているように書ける」ことと「未知の問題を解ける」ことは、必ずしもつながらないというわけです。否定派にとっては、長い思考の連なりは推論の実体ではなく、それらしい体裁にすぎないことになります。
「それは実験の落とし穴だ」という反論
崩壊の証拠とされたものは、よく見ると評価のしかけが生んだ影だった――そうした反論が相次ぎました。
崩壊は「出力の上限」が生んだ影かもしれない
最も鋭い反論は、少なくとも一部の崩壊は、推論能力そのものではなく出力形式や打ち切りの影響で説明できるのではないか、というものです。手順が指数的に膨らむパズルでは、答えの全体が長くなりすぎて物理的に書ききれません。モデルは「ここから先は省略します」と自ら断っていただけで、解けなかったわけではない、という指摘もあります[3]。
ほかにも、そもそも数学的に解が存在しない問題を混ぜて失敗に数えていた点や、「全手順を書き出せ」ではなく「手順を生み出す関数を書け」と問い方を変えると、高精度で解ける例が予備的に報告された点も挙げられました[3]。崩壊は能力の限界ではなく、測り方が作り出した見かけだった可能性があるのです。もっとも反論側も、これらは予備的な検証であり、未知の問題への真の応用力が課題として残ること自体は認めています。
内部では「先読み」している痕跡
一方で、モデル内部の処理を調べる解釈可能性研究からは、「単なる単語のつなぎ合わせ」とは言い切れない証拠も出ています。あるモデルに詩を作らせると、行を書き始める前に韻を踏む単語を先に決め、そこから逆算して文を組み立てる様子が見えたといいます[4]。その場しのぎで単語をつないでいるだけ、という単純な見立てとは合いません。
言語が違っても共通の内部表現を使う、暗算で複数の経路を並行して走らせるといった、構造化された処理の痕跡も報告されています[4]。少なくとも内部では、意味のある計算が確かに起きている。「ただのオウム返し」では説明のつかない現象が、確かに存在するのです。
AIの思考説明はあてにならない
推論しているか否か以前に、画面に表示される「思考の過程」をそのまま信じてよいのか、という問題があります。
AIは「使ったヒント」を説明しないことがある
内部を調べた同じ流れの研究は、さらに見過ごせない事実を突きつけました。答えのヒントをこっそり与えると、モデルはそれを使って答えを変えるのに、「ヒントを使った」とは思考の連鎖にほとんど書きません。あるモデルがヒント使用に触れたのは全体の二割台、別のモデルでも四割に届きませんでした[5]。
不正なアクセスで得た情報をほのめかすような、問題含みの場面では、正直に明かす割合はさらに下がりました。誤ったヒントを受け取ったときには、それに触れないまま「その誤った答えこそ正しい」という理由を長々と作文してみせた例もあります[5]。表示された筋道は、実際の計算の忠実な記録とは限らないのです。
もっともらしさが判断を狂わせる
ここに人間側の弱点が重なります。生成AIは、事実と異なる内容をもっともらしく回答することがあり、こうした誤情報を鵜呑みにすること自体がリスクとされています[6]。出力の根拠や精度を確かめないまま受け入れる癖がつくと、誤りや偏りがそのまま業務へ流れ込んでいきます。
つまり問題は二重です。AIが本当に推論しているのかが曖昧なうえに、その「考えました」という説明自体が後付けでありうる。賢く見えることと、業務で信頼できることは、まったく別の話だと割り切る必要があります。論争の勝敗を待つより、この前提から設計を始めるほうが現実的です。
結局、どこまで任せられるのか
論争の決着を待つ必要はありません。割れている事実を前提に、任せる範囲と検証の仕組みを設計すればよいのです。
「崩れる帯」を業務の地図に落とす
押さえるべきは、推論モデルには急に崩れる難易度帯があるという一点です[1]。多くの手順を厳密に積み上げる処理、規則を漏れなく適用する作業、長い手続きを最後まで貫く業務は、デモで賢く見えても本番で突然ゼロ点になりうる領域だと見ておく。ここを楽観すると、ふだんは優秀なのに肝心なところで静かに間違える、という最も厄介な失敗を招きます。
そうした業務では、AIに丸ごと委ねるのではなく、厳密な計算やルール適用は外部のツールや既存システムに任せ、AIはその橋渡しと下書きに使うのが堅実です。ベンチマークの高さや回答の滑らかさを、自社業務で使える証拠と取り違えないこと。これが任せる範囲を決める出発点になります。
説明ではなく根拠で検証する設計
もう一つは、「AIがそれらしい理由を述べたから正しい」という確かめ方を捨てることです。検証すべきは語り口ではなく、出典・データ・計算結果といった、後から追える根拠のほうです。回答を社内の文書やデータに紐づけて参照範囲を絞り、根拠が見つからない問いには断定させない――こうした生成AIの誤答を防ぐガードレールの設計は、誤りの余地を狭め、人が真偽を確かめる証跡を残します。ただし示された出典自体が見当違いのこともあり、出させて終わりにせず、最後は人が突き合わせることが前提です。
そのうえで人間の最終確認を前提に置き、誰がどの段階で何を確かめるかを業務フローに組み込む。こうした「止める設計・確かめる設計」は、AIが賢いかどうかの結論とは無関係に、いますぐ整えられる現実的な備えです。論争がどちらに転んでも、損をしない構えだといえます。
さいごに
AIが推論しているのかという問いは、当分すっきりとは決着しないでしょう。専門家でさえ「推論とは何か」「どう測るか」で割れているからです。けれども実務に必要な構えは、もうはっきりしています。崩れる帯があることを忘れず、流暢な説明を根拠と取り違えず、検証できる形に業務を組み直すこと。「考えるAI」を使いこなす力とは、その賢さを無条件に信じる力ではなく、どこまで任せ、どこで自分の目で確かめるかを見極める力にほかならないのです。
出典
- [1] The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity – Apple Machine Learning Research
- [2] Chain of Thoughtlessness? An Analysis of CoT in Planning – arXiv
- [3] Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity – arXiv
- [4] Tracing the thoughts of a large language model – Anthropic
- [5] Reasoning models don’t always say what they think – Anthropic
- [6] 令和6年版 情報通信白書(生成AIが抱える課題) – 総務省


