ChatGPT、ネットニュースを無断使用で学習させて世界的に波紋

2023/03/04 21:00

#IT

　人工知能研究所OpenAIが開発・公開し、世界中で話題となっているチャットボット「ChatGPT」。月間アクティブユーザー数1億人を超える同サービスを支える言語モデル「GPT-3.5」は、ニュース、科学論文、ソーシャルメディア上のやり取り、ウェブページ、顧客センターデータ、音声記録、映画台本、医療および法律関連テキストなど膨大な量のデータを学習しているとされている。

　その精度や未来については、専門家たちによる議論が激しく交わされている。

　一方、最近では学習データを巡るトラブルが表面化する気配をみせている。2月下旬には「人間の記者たちが作成したニュースが、学習に無断で使用されている」という問題提起が各国メディアから相次いだ。

　ウォールストリート・ジャーナルなど大手紙を傘下に持つニューズ・コーポレーションは20日、「ウォールストリート・ジャーナル所属の記者たちが作成した記事を活用してAIを学習させようとするならば、私たちから適切な許可を受けなければならない（中略）しかしOpenAIは私たちと契約を結んでいない」と指摘。この事態を深刻に受け止め、状況を詳しく精査していると強調した。

　なおChatGPTは、ニューヨークタイムズ、ワシントンポスト、ウォールストリート・ジャーナル、USトゥデイ、LAタイムズなど有力紙を学習していることが確認されており、そのなかには有料媒体も複数含まれている。さらに米国のみならず韓国においても同様の問題が提起されており、国内メディアが調査した結果、聯合ニュース、毎日経済、ハンギョレ、朝鮮日報、中央日報など主要メディアの記事が学習対象になっていることが明らかになった。

　また、大手フォトストックサービス・Getty Imagesは、画像生成AI「Stable Diffusion」を開発するStability AIをすでに訴えている。1200万点におよぶ画像データを許可なくコピーしたというのが訴訟の理由だ。今後、CNNやワーナーブラザーズ、ディスカバリーなども、AI開発事業者がデータを学習する場合、コンテンツライセンス費用を課す方針を検討中だという。

　新たなコンテンツを生成するAIは前提として膨大な量のデータを学習する。その際に使用されるデータの著作権が無視されるとなれば、AIを開発した企業だけが労働の対価を独り占めするという状況が生まれかねない。足元の人間の権利をおろそかにすることで、訴訟が頻発し、生成AIの華やかな未来自体が閉ざされてしまう可能性もあるだろう。

　さまざまな業界で訴訟や問題提起が起こるなか、世界の主要メディアは今後どのように対応していくのか。その動きに注目が集まる。