ChatGPT、安定した拡散、その他あらゆる最新のAIシステムを可能にする目に見えない産業
ChatGPTを使ってメールを書いたり、Midjourneyで画像を生成したりするとき、人工知能の「魔法」の背後にあるものについて考えることはほとんどありません。しかし、すべてのインテリジェントな応答と生成された画像の背後には、数十億ドル規模の産業が存在します。
MarketsandMarketsによれば、2029年までに年間27.7%の成長率で95億8000万ドルに達するこの分野は、現代の人工知能の真のエンジンである。しかし、この隠れたビジネスは一体どのように機能しているのだろうか?
AIのトレーニングデータの世界では、ほとんどの人が聞いたこともないような企業が数社独占している:
市場シェア28%を誇る業界最大手の Scale AI社は、メタ社の投資後、最近290億ドルの評価を受けた。同社の企業顧客は、高品質のデータに対して年間10万ドルから数百万ドルを支払っている。
オーストラリアに本社を置くアペンは、170カ国に100万人以上のスペシャリストを擁するグローバル・ネットワークを運営している。Airbnb、John Deere、Procter & Gambleなどの企業は、AIモデルの「ティーチング」に同社のサービスを利用している。
これと並行して、LAION(大規模人工知能オープンネットワーク)のようなオープンソースのエコシステムが存在する。LAIONはドイツの非営利団体で、画像とテキストのペア58億5000万件からなるデータセットLAION-5Bを作成し、Stable Diffusionを可能にした。
Common Crawlは、GPT-3、LLaMA、その他多くの言語モデルの学習に使用されるテラバイトの生ウェブデータを毎月リリースしています。
一般の人々が知らないのは、最新のAIモデルを訓練するのにどれほどの費用がかかるようになったかということだ。エポックAIによれば、過去8年間、コストは年2〜3倍に増加している。
最も驚くべき数字とは?AltIndex.comによると、AIのトレーニング費用は2020年以降、4,300%増加している。
最も議論を呼んでいる問題のひとつは、著作物の使用に関するものだ。2025年2月、デラウェア州裁判所は、トムソン・ロイター対ROSSインテリジェンスにおいて、AIトレーニングは直接的な著作権侵害を構成し得るとし、「公正使用」の抗弁を否定する判決を下した。
米国著作権局は108ページに及ぶ報告書を発表し、特定の利用はフェアユースとして擁護できないと結論づけた。
MITテクノロジー・レビュー』誌の調査により、最も広く利用されているデータセットのひとつであるDataComp CommonPoolに、パスポート、クレジットカード、出生証明書の画像が数百万枚含まれていることが明らかになった。過去2年間に200万以上のダウンロードがあり、これはプライバシーの大きな問題を提起している。
専門家の予測によると、2028年までにオンラインで利用可能な人間が作成した公開テキストの大半が使用されるようになるという。この「ピーク・データ」シナリオは、企業を革新的なソリューションへと駆り立てている:
カリフォルニア州AI透明性法では、企業がトレーニングに使用したデータセットを開示することが義務づけられ、EUではAI法で同様の要件が実施されている。
AIソリューションを開発したい企業にとって、このエコシステムを理解することは極めて重要である:
AIのトレーニングデータ市場は95億8000万ドルの価値があり、毎年27.7%の成長率を示している。この目に見えない産業は、現代のAIの原動力であるだけでなく、現代における最大の倫理的・法的課題のひとつでもある。
次回は、現在利用可能なデータセットとツールを使ってAIソリューションの開発を開始するための実践的なガイドとともに、企業がこの世界に具体的に参入する方法を探る。
今すぐ詳細を知りたい方のために、導入ロードマップ、具体的なコスト、ツールスタック一式を含む詳細なガイドをまとめました。
すぐに始められる便利なリンク集
技術的な情報源
AI革命」を待つな。創造するのだ。今から1ヵ月後には、他の人たちがまだ計画を練っている間に、あなたは最初の実用モデルを手にすることができる。