油圧カッターが、一冊また一冊と本の背を切り落としていく。断裁された紙の束はスキャナーへ送られ、読み取りが終われば廃棄されます。ある大手AI企業は、数百万冊にこの処理を行っていました[1]。学習用の”本物の言葉”を得るためだけに、正規購入した紙の本を物理的に壊していったのです。
奇妙に聞こえるかもしれません。AIはもう、インターネット中の文章を学び尽くしたはずではなかったのか。ところが2024年以降、その前提が静かに崩れ始めています。本稿の主張はシンプルです。AIが自らの生成物でインターネットの文章を、ひいては自らを汚していく時代には、汚染されていない”本物のデータ”こそが希少資源になる。そして企業にとってのそれは、Webのどこにもない自社の独自データにほかなりません。

AIは自らが生んだ言葉で劣化していく
「モデル崩壊」とは何か
生成AIが吐き出した文章や画像は、いまや猛烈な勢いでインターネットに積み上がっています。次の世代のAIは、その海の中から学習データをすくい上げます。つまりAIが、AIの作ったものを食べて育つ循環が生まれつつあるのです。
この循環が続くとどうなるか。ある査読論文は、モデル生成物を無差別に学習へ使い続けると、出力に元へ戻せない欠陥が生じることを示しました[2]。特徴的なのは、まず失われるのが分布の「テール」――めったに現れない知識、少数派の視点、言い回しの多様性だという点です。世代を重ねるほど、AIは平均的で無難な出力へと痩せ細っていきます。
これが「モデル崩壊」と呼ばれる現象です。同じ劣化は大規模言語モデルに限らず、画像などの生成モデルでも起こりうると報告されています。合成物が合成物を生む連鎖の先で、AIはゆっくりと個性を失っていくのです。
崩壊は”性能低下”として見えにくい
厄介なのは、この劣化が分かりやすい形では現れないことです。テストの点数が急落するわけではなく、ありふれた問いにはむしろ流暢に答え続けます。崩壊は、珍しい知識や独創的な発想が、いつの間にか静かに欠け落ちていく形で進みます。
さらに、評価の物差しそのものが揺らぐ問題もあります。モデル崩壊とは別に、評価用ベンチマークの問題や解答、あるいはそれに近いデータが訓練データに含まれ、性能を正しく測れなくなる「ベンチマーク汚染」も指摘されています。そうなると「うちのAIは問題なく動いている」という手応えも、崩壊が始まっていないことを保証しません。見えないところで多様性が削れていく――それがこの現象の本当の怖さです。
なぜAI企業は紙の本を裁断してまでデータを集めるのか
油圧カッターが映す”本物データ”の価値
冒頭の裁断の話へ戻ります。この裁断・スキャンの事実は、海賊版サイト由来の書籍データ取得・保管をめぐる著作権訴訟の資料の中で明らかになったものです。裁判所は、正規購入した書籍のスキャンと原本廃棄は公正な利用と認めた一方、海賊版由来のコピーの取得・保管は認めませんでした。その後この企業は、少なくとも15億ドル(およそ2,200億円)の和解案に合意したと報じられています[3]。データの「入手経路」が明暗を分けたのです。
なぜそこまでするのか。背景には、AI学習に適した人間由来の公開テキストが、2026〜2032年ごろに現在の需要に対して使い切られる可能性がある、という推計があります[4]。良質な”本物の言葉”はもはや無尽蔵ではなく、出版社やメディアとの提携を含め、静かな奪い合いの対象になりつつあります。紙の本を壊してでもデータを確保する動きは、その希少化を映す鏡なのです。

崩壊を防ぐ鍵は「本物の人間データを混ぜること」
では、合成データはすべて悪でしょうか。そうとも言い切れません。近年の研究は、崩壊が深刻化するのは毎世代ごとに本物のデータを合成データで”置き換え続けた”場合であり、本物の人間データを蓄積しながら混ぜ込めば、モデルは安定を保ちやすいと報告しています[5]。鍵は、十分な量の本物を手元に保ち続けることにあります。
この知見は、技術論を超えた含意を持ちます。価値の源泉は「合成か本物か」という二択ではなく、どれだけ確かな人間由来のデータを手元に抱えているかに移っていく、ということです。本物のデータを持つ者が、崩壊の時代に踏みとどまれる。ここから話は、AIを開発する巨大企業だけでなく、AIを使う企業すべての問題へ接続します。
本物データが希少になる時代の企業の競争優位
汎用モデルは横並び、差がつくのは独自データ
最新の汎用モデルは、いまや誰もが同じものを使えます。あるコンサルティング会社は、汎用AIの利用自体はもはや差別化要因ではなく、参加の最低条件になったと指摘します[6]。同じモデルを叩けば、競合も同じ答えを得られるからです。
では何が堀(moat)になるのか。同じ分析は、堀になりうる要素の一つとして、自社の事業活動の中でしか生まれない特権的なデータを挙げます[6]。顧客とのやり取り、現場での判断、業務の履歴――こうした閉じた環境でたまる信号は、他社が容易に真似できません。汎用モデルが横並びになるほど、独自データの差が企業間の差として際立ちます。
社内データは”由来を管理できる”最後のフロンティア
ここでモデル崩壊の議論が効いてきます。出所も定かでないAI生成物でWeb上のテキストが濁っていくのに対し、社内に閉じたデータは、作成者や日時、業務の文脈、承認履歴をたどりやすい独自データです。AIの出力が混じり始めてはいるものの、由来を管理できる分、自社データを”信頼できるデータ資産”として育てやすい立場にあります。稟議に残る判断根拠、顧客対応の記録、ベテランの手順書は、社外に出回らない固有の蓄積です。
見方を変えれば、多くの企業は、AI時代に最も価値が高まる資産を、すでに社内に眠らせています。問題は、それが活用されないまま社内に散らばっていること。この独自データをどう掘り起こすかが、次の競争の分かれ目になります。

独自データをどう競争優位に変えるか
RAGで社内ナレッジをAIに接続する
独自データを活かす現実的な入り口が、RAG(社内データを検索し、その内容を回答に反映させる仕組み)です。汎用モデルの賢さはそのまま借りつつ、回答の根拠を自社の文書やナレッジに縛る。これで外部の濁ったデータでなく、自社の”本物”に基づく出力を引き出せます。
大切なのは、RAGを一度の導入で終わらせないことです。実際、検索の仕組みを入れるだけでは成果が伸び悩みやすく、知識・手順・判断の型という3層で社内の経験を積み上げる設計が要るとも指摘されます。業務のたびに生まれる判断や記録を継続的に取り込み、ナレッジを更新し続ける。そうして初めて、社内データは静的な保管物から、AIとともに育つ資産へと変わります。独自データという堀は、掘り続けることでしか深くなりません。
AI-readyなデータ整備が成否を分ける
ただし、データがありさえすれば自動的に活きるわけではありません。ある調査会社は、AIに使える形に整ったデータに支えられていないAIプロジェクトは、その60%が2026年までに放棄されると予測しています[7]。せっかくの独自データも、散在し形式もばらばら、権限管理もなければ戦力になりません。
だからこそ、社内データを検索・参照できる形に構造化し、アクセス権限まで含めて整える設計が要ります。データを持つこと自体が資産である一方、それを使える状態に整えることが、競争優位を成果へ変える最後の一歩になります。
さいごに
AIが自らの生成物で自らを汚していく――モデル崩壊という現象は、一見すると遠い技術の話に映ります。しかしその裏側を読み解けば、結論は驚くほど身近です。合成データがあふれるほど、由来を確認できる人間由来データの価値は上がります。そして企業にとってその有力な候補が、社内に蓄積された独自データです。
紙の本を裁断してまでデータを求める動きは、その価値をいち早く見抜いた者の行動です。同じ性質の資産を、あなたの会社もすでに持っています。それを掘り起こし、AIとつなぎ、使える形に整えること。派手な最新モデルを追うよりも、この地味な一手こそが、これからの企業の競争優位を静かに決めていくはずです。
出典
- [1] AIモデルを構築するために、大量の書籍を破壊したAnthropicの功罪 – WIRED.jp / Anthropic ‘destructively’ scanned millions of books to build Claude – The Washington Post
- [2] AI models collapse when trained on recursively generated data – Nature
- [3] Anthropic著作権侵害訴訟、和解へ──史上最高額の著作権回収に – ITmedia NEWS
- [4] 2026年問題(AI) – 野村総合研究所(NRI) / Will we run out of data? Limits of LLM scaling based on human-generated data – Epoch AI
- [5] Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data – arXiv
- [6] From AI table stakes to AI advantage: Building competitive moats – McKinsey
- [7] Lack of AI-Ready Data Puts AI Projects at Risk – Gartner
