人間vs.人工の創造性:その違いはどこにあるのか(そして、なぜジブリのスタイルは私たちに何かを教えてくれるのか?)
2024年から2025年にかけて、人工知能と著作権に関する議論が劇的に激化した。ニューヨーク・タイムズ紙は著作権侵害でOpenAIを訴え(2023年12月)、ゲッティイメージズはStability AIを訴え、何千人ものアーティストが集団訴訟を起こした。AI企業は、自社のシステムは人間と同じように「学習」すると答えているが、本当にそうなのだろうか?
人間の創造性は常につながりによって発展してきた:シェイクスピアは歴史的な年代記や民話に触発され、ゴッホは日本の版画を研究し、ビートルズはアメリカのロックを演奏することから始まった。芸術家は常に過去の作品を再解釈する。人工知能も同じようなものだとハイテク企業は言う。しかし、「ジブリ・スタイル」の事例は、この物語がいかに単純であるかを明らかにしている。
Midjourney』や『DALL-E』に「ジブリ風」と入力すると、パステルカラー、ふわふわの雲、夢のような風景、大きな目をしたキャラクターなど、宮崎駿監督の傑作に酷似した画像が表示される。技術的には印象的だ。それはまた、深い問題でもある。
スタジオジブリは、その独特の美学を開発するのに何十年も費やした。正確な色調の選択、伝統的なアニメーション技術、日本文化と宮崎監督の個人的なビジョンに根ざした芸術哲学。AIモデルが数秒でその「スタイル」を再現するとき、それは宮崎監督がディズニー・アニメーションや日本の漫画から学んだように、本当に「学習」しているのだろうか?それとも、何千ものジブリのコマから抽出されたビジュアルパターンを勝手に組み替えているだけなのだろうか?
この違いは哲学的なものではなく、法的・経済的なものである。arXivに掲載されたスタンフォード大学の分析(Carlini et al., 2023)によると、Stable Diffusionのような拡散モデルは、特定のプロンプトで促された場合、約3%のケースでトレーニングセットからほぼ同じ画像を再生することができる。これは「ひらめき」ではなく、保存と再生なのだ。
ポーランドのデジタル・アーティスト、グレッグ・ラトコウスキーは、自分の名前がStable Diffusionの120万件のプロンプトに表示されていることを発見した。彼はMIT Technology Review誌にこう語っている。何年もかけて作り上げたものを盗まれたような気分です。
AIトレーニングの規模は、かつてない規模に達している。画像モデルに最も広く使われているデータセットの一つであるLAION-5Bには、インターネットから収集された58.5億の画像とテキストのペアが含まれている。GPT-4は、有料記事、書籍、独占所有権のあるソフトウェアコードなど、インターネットの膨大な部分で学習された。
現在進行中の主要な法的措置:
AI企業は、米国法における「公正使用(fair use)」を持ち出して、この慣行を擁護している。彼らは、トレーニングは「変形的(transformative)」であり、元の市場に取って代わるものではないと主張している。しかし、いくつかの裁判所はこの解釈に異議を唱えている。
キャサリン・フォレスト判事は、ゲッティ対Stability AI事件で、2024年1月に棄却の申し立てを却下し、裁判の続行を認めた。「AIモデルのトレーニングがフェアユースにあたるかどうかの問題は複雑であり、事実関係を徹底的に調べる必要がある。訳注:AI企業は単純にフェアユースを唱えて終わりというわけにはいかない。
法的圧力に直面し、AI企業はライセンス交渉を開始した。OpenAIは以下の企業と契約を結んだ:
GoogleはReddit、Stack Overflow、様々な出版社と同様の契約を結んだ。Anthropicは書籍の使用について出版社と交渉している。
しかし、これらの契約は交渉力のある大手出版社のみを対象としている。何百万人もの個人クリエイター(アーティスト、写真家、フリーライター)が、すでに完成したトレーニングで使用された作品に対して報酬を支払われないままなのだ。
AIは人間のように学習する」という説明は技術的に誤解を招く。根本的な違いを見てみよう:
スケールとスピード:人間の芸術家は一生のうちにおそらく数百から数千の作品を研究する。GPT-4は何兆もの単語を学習してきた。StableDiffusionは何十億もの画像。そのスケールは比較にならず、「インスピレーション」の合理的な定義を超える。
意味的理解:ゴッホが日本の版画を学んだとき、彼はその視覚的パターンを機械的に模倣したのではなく、その根底にある美的原理(負の空間の使用、非対称の構図、自然の強調)を理解し、ヨーロッパのポスト印象派のビジョンによってそれらを再解釈した。彼の作品は、意識的な文化的統合なのである。
AIモデルは人間的な意味での「理解」はしない。サンタフェ研究所のメラニー・ミッチェル教授が『Artificial Intelligence: A Guide for Thinking Humans(人工知能:考える人間のためのガイド)』で説明しているように、「ディープラーニングシステムはパターン認識に優れているが、因果関係の理解や抽象的な推論、世界のメンタルモデルには欠けている」。Stable Diffusionは、ジブリの特徴を "理解 "するのではなく、"ジブリ風 "とラベル付けされた何百万ものピクセルの間の統計的相関関係を抽出するのだ。
創造的意図性:人間の芸術家は、個人的なビジョン、伝えたいメッセージ、呼び起こしたい感情に基づいて、意図的に創造的な選択をする。宮崎監督は、環境主義、平和主義、フェミニズムといったテーマを、意識的な道徳的・芸術的選択に基づいて映画に取り入れている。
AIは統計的確率に基づいて生成する。"プロンプトXとトレーニングセットYが与えられたら、どのピクセル構成が最も可能性が高いか?"そこには意図性もメッセージもビジョンもない。テッド・チャンが『ニューヨーカー』誌に書いたように、「ChatGPTはウェブのぼやけたJPEG」である。
変容と組み換え:パブロ・ピカソはアフリカの仮面を研究したが、キュビスムを生み出した。その変換は急進的で独創的だった。
生成AIモデルは、潜在空間における補間によって動作する。彼らはトレーニングセットの要素を新しい構成に組み替えるが、トレーニングされたデータの統計的分布に縛られたままである。学習された統計的規則性に反するような、真に新しい美学を発明することはできない。MITの研究(Shumailov et al., 2023)によって実証されたように、以前のAIの出力で繰り返し訓練されたモデルは徐々に退化する-「モデル崩壊」と呼ばれる現象である。
ここに中心的なパラドックスがある。AIは、独創的に見える(その特定のジブリ風の画像を見たことのある人間はいない)出力を生成できるが、統計的には派生的である(それらは既存のパターンの補間である)。これは、根本的な革新を伴わない、表面的なオリジナリティである。
これには深い意味がある。哲学者ジョン・サールが有名な「中国の部屋の議論」で主張したように、認知プロセスをシミュレートすることは、それを所有することと同じではない。AIは、人間的な意味で創造的でなくても、創造性をシミュレートすることができる。
この論争に直面して、さまざまな解決策が開発されている:
アーティストのための保護ツール:
オプトアウト登録:
補償の枠組み
政府の規制:
EUのAI法(2024年8月施行)は、生成AIモデルの提供者に対し、使用された著作権のある学習データの詳細な要約を公表するよう求めている。これは、透明性を課す初の規制的試みである。
テネシー州ELVIS法(2024年3月)は、AIが先行している米国の州において、声と肖像のパフォーマーを無許可の使用から保護するために、深い声と映像のフェイクに対する具体的な法律を定めている。
米国議会への提案には、(オプトアウトの代わりに)著作物に対する明示的なオプトインの要求や、トレーニングデータセットの公的登録の創設が含まれている。
2つの未来像が対峙する:
楽観的な見方(AI企業):AIは、フォトショップや音楽シンセサイザーのように、人間の創造性を増幅させるツールである。アーティストはAIを使ってワークフローを加速させ、バリエーションを模索し、創造的なブロックを克服する。人間がビジョンを導き、AIが技術的な部分を実行するハイブリッドな芸術形態が出現するだろう。
具体的な例はすでにある。映画『フロスト』(2023年)はAIを使って背景やテクスチャーを生成し、人間のアーティストがアートディレクションを指導した。ミュージシャンは、SunoやUdioを使って即興演奏用のバッキング・トラックを生成する。作家は、物語のアイデアを議論するための「ラバーダック」としてGPTを使用する。
悲観的な見方(多くのクリエイター):AIは創造性をコモディティ化し、クリエイティブな仕事の経済的価値を侵食し、卓越したスキルを持つエリートだけが生き残るようになる。平均的なクリエイティビティ」は安価なジェネレーターに取って代わられ、クリエイティブな中産階級を破壊するだろう。
Fiverrなどのフリーランス・プラットフォームでは、2023年にイラストレーターやコピーライターへの依頼が21%減少した一方で(Fiverrの2023年第4四半期のデータ)、「AIアート・ジェネレーション」のオファーが爆発的に増加した。グレッグ・ラトコウスキーは、彼のスタイルがStable Diffusionで人気を博して以来、直接の依頼が40%減少したことを目の当たりにしている。
ある種のクリエイティブな仕事(一般的なストックイラストや基本的なコピーマーケティング)は自動化されるだろうが、オリジナリティが高く、コンセプチュアルで、文化的に根ざしたクリエイティビティは人間の領域であり続けるだろう。
人間とAIのコンテンツの区別はますます難しくなるだろう。すでに今日、透かしや情報開示がなければ、GPT-4のテキストと人間のテキスト、あるいはMidjourneyの画像と写真を区別することはしばしば不可能だ。Sora(OpenAIビデオジェネレーター)が公開されれば、その区別はビデオにも及ぶだろう。
これは、真正性についての深い疑問を提起する。AIが生成したジブリ風の画像がオリジナルと同じ感情を呼び起こすとしたら、それは同じ価値を持つのだろうか?哲学者のヴァルター・ベンヤミンは、『技術的複製可能性の時代における芸術作品』(1935年)の中で、機械的複製可能性がオリジナル作品の「オーラ」、つまり時空間的な独自性や真正性を侵食すると主張した。
ジェネレーティブAIはこの議論を極端なものにしている。既存の作品を複製するのではなく、オリジナルを模倣した無限のバリエーションを生成するのだ。それはボードリラ的なシミュラクルム、つまりオリジナルなきコピーである。
何を伝えたいかを知りながら一筆一筆を選ぶ芸術家、特定の感情を呼び起こすためにフレーズを練り上げる作家、意図的に緊張と決着を築く作曲家。AIは結果をシミュレートすることはできるが、そのプロセスをシミュレートすることはできない。
スタジオジブリが声明文(2023年11月)で書いているように、『私たちの映画の魂は、コピー可能なビジュアルスタイルにあるのではなく、私たちが伝えたいストーリーのために一コマ一コマ行うクリエイティブな決断にある。それを自動化することはできない」と述べている。
アートの価値は、結局のところ、人間の経験と深くつながり、理解され、挑戦され、変容させられるという能力に由来する。これをAIが実現できるかどうかは、まだ未解決の問題である。しかし、アートが人間のために人間によって作られ、人間の状況を語るものである限り、アルゴリズムでは再現できないもの、つまり、美的な形に変換された生きた経験の信憑性を保持することができるだろう。
情報源