生成AIに毎月いくら払っているか、正確に答えられる経営者は多くありません。それでも請求書は、月を追うごとに確実に重くなっています。不思議なのは、AIの「単価」はむしろ猛烈な勢いで下がっているという事実です。単価は下がっているのに支払総額は増える――この一見矛盾した現象こそ、生成AIの運用コストが利益を圧迫し始めた本当の理由です。本稿では、コストが膨らむ構造を解き、利益と両立させるための「コストを設計する」という発想を整理します。
単価は下がっているのに、なぜ請求は増えるのか
値上げが起きているわけではありません。むしろAIの利用単価は歴史的な速さで下がっています。それでも総額が増えるのは、見るべき指標が「単価」ではなく「消費量」に移ったからです。
トークン単価は歴史的な速さで下落している
生成AIの利用料は、同じ性能なら年を追うごとに劇的に安くなっています。ある研究機関の分析では、同等性能モデルの推論価格は中央値で年50倍、速いものでは年900倍ものペースで下落しました[1]。ただし、この急落が今後も同じペースで続くとは限らない点には、調査元自身も注意を促しています。別のベンチャーキャピタルの試算でも、推論コストは同じ性能なら年10倍で下がり続け、GPT-3が一般利用可能になった2021年に100万トークンあたり60ドルだった水準は、同じ性能のモデルなら0.06ドルへと、3年で約1,000倍に下がっています[2]。値下げ幅だけを見れば、AIは「安くなり続ける技術」なのです。
それでも総額が膨らむ「消費量」の罠
問題は単価ではなく、消費量にあります。世界全体のトークン使用量は2030年までに24倍へ増えるとの予測もあるなか、現場の使い方が「1問1答」から「自律的に何十手も動くエージェント」へ移れば、1タスクあたりの消費は桁違いに跳ね上がります。実際、ある大手企業は生成AIのコーディング支援を全社的に広げた結果、2026年のAIコーディング予算を4月までに使い切りました[3]。「単価が下がるから安心」という前提のまま使い始めた企業ほど、想定の何倍もの請求に直面しているのです。
コストが見えにくくなる「課金構造の転換」
なぜ今になって急に問題化したのでしょうか。背景には、料金の仕組みそのものが定額から従量へと切り替わった転換があります。支払いが業務量に直結し、しかもその中身が見えにくくなったのです。
定額制から「使った分だけ」へ
2026年に入り、少なくとも開発支援AIでは従量課金化が明確に進みました。ある大手の開発支援AIは6月1日に全プランを従量制へ移行し、利用をモデル別のトークン消費で換算する「AIクレジット」(1クレジット=0.01ドル)方式に切り替えています[4]。法人向けAIでも、固定の座席料に実消費に応じた従量料金を組み合わせる二部構成のプランが見られます[5]。定額制の時代は支払額が読めましたが、従量制では使うほど増えます。コストが業務量と一直線に結びつくようになったのです。
「見えないこと」が最大の課題になった
コスト管理を担う実務者の世界では、いまやAI支出の管理が最優先テーマです。ある業界団体の調査では、1,192人の回答者のうち98%がAI支出を管理しており、その割合は2年前の31%から急増しました。そして彼らが挙げる最大の難所は、ほかでもなく「AIコストの可視化」でした[6]。誰が、どの業務で、どれだけ消費したのかが見えなければ、予算超過は事後にしか分かりません。コストが利益を圧迫するのは、料金が高いからではなく「見えないまま増えるから」なのです。

コストを「管理対象」として設計する
ここまでの構造を踏まえれば、打ち手は明確です。コストを偶然の結果に任せず、最初から「設計し、管理する対象」として扱うことです。鍵は、モデル選定・上限設定・効果測定の三点を仕組みにすることにあります。
タスクに応じてモデルを選び分ける
すべての業務に最高性能のモデルを当てる必要はありません。高性能・特殊用途のモデルでは、出力単価が100万トークンあたり数十ドルに達する例もあり[2]、「とりあえず一番賢いモデル」を全社の既定にすると、単価の面でも不利になります。先進企業では、簡単な処理は軽量モデルへ、複雑な判断だけ高性能モデルへと自動で振り分ける「モデルルーター」の導入も始まっています[3]。タスクとモデルを対応づける設計こそ、コストを左右する最初の分岐点です。
上限・可視化・効果測定をセットで回す
従量課金の時代に効く統制は、現場の我慢ではなく仕組みです。組織単位・ユーザー単位で支出上限を設定できるサービスも増えており[5]、特定の部門にトークン上限を設ける運用も始まっています[3]。上限を設けておけば、誤った使い方や暴走的な処理が予算を一気に食い潰す事態も防げます。同時に欠かせないのが、消費量と、それが生む成果を並べて測る視点です。AI単体ではなく変革した業務プロセスの成果をROIとして計測する手順を整えておけば、コストの妥当性を経営に説明しやすくなります。あるコンサルティング会社がAI変革を全面的に実行した先進20社を分析したところ、投資1ドルあたり約3ドルの利益(EBITDA)を生み、平均で約20%の利益向上が見られたとされます[7]。国内のAIシステム市場が2024年の約1.3兆円から2029年に約4.2兆円へ拡大すると見込まれるなか[8]、投資を止めるのではなく「測りながら使う」設計が問われています。

さいごに
生成AIのコストが利益を圧迫するのは、料金の高さではなく「設計の不在」が原因です。単価は下がり続けるのに総額が増えるのは、消費量が業務とともに膨張し、それを見える化も統制もしていないからにほかなりません。タスクに応じたモデル選定、組織・ユーザー単位の上限設定、そして消費量と成果を突き合わせる効果測定。この三つをセットで回せば、コストは「読めない不安」から「管理できる投資」へと姿を変えます。社内チャットやRAGによるナレッジ検索、議事録作成、問い合わせ対応、稟議・経費精算といった日常業務も、エージェント化が進めば同じトークン消費の管理対象になります。社内でAIを広げる局面だからこそ、複数のモデルを業務に応じて選び分けられる基盤と、利用状況を可視化する仕組みを、導入の初期設計に組み込んでおくことをお勧めします。
出典
- [1] LLM inference prices have fallen rapidly but unequally across tasks – Epoch AI
- [2] Welcome to LLMflation – LLM inference cost is going down fast – Andreessen Horowitz
- [3] The token bill comes due: Inside the industry scramble to manage AI’s runaway costs – TechCrunch
- [4] GitHub Copilot is moving to usage-based billing / Updates to GitHub Copilot billing and plans – GitHub
- [5] Plans & Pricing | Claude – Anthropic
- [6] State of FinOps 2026 Report / State of FinOps Survey press release – FinOps Foundation
- [7] Rewiring for AI: From ambition to advantage – McKinsey & Company
- [8] 国内AIシステム市場予測を発表 – IDC Japan

