今回の「海外Hot Info」は「AI」が変えるコンテンツ制作の現状や問題点、そして3D生成サービス「Poly」について株式会社トラストバンクの森杉育生さんにお話を伺いました。
世界を席巻し始めた「大規模言語モデル」(LLM)
中村 今回も私、DearOneマーケティング部の中村がお相手を務めさせていただきます。よろしくお願いします!今日はどんなテーマでお話しいただけるんでしょうか?
森杉さん(以下、Mr.モリスギ) 今回は「AI」のコンテンツ制作における最新事例についてお話しできたらと思います。
今、Chat GPTやBing AIなどが1億人以上までユーザー数を伸ばし、さまざまな使われ方が始まっている状況ですが、それらの元になったのは2017年に発表された「大規模言語モデル」(LLM)に関する研究論文です。
LLMとはいわゆる機械学習の一種で、要するに膨大な量のインプットを入れることでで、それをベースに確率論的に「この言葉の次の部分には、こういう言葉が来るはずだ」と、最も確率の高いものを選択・出力するという考え方です。
このようにまずLLMが提唱され、それをベースとして実装したサービスがたくさん登場しているわけです。そこで「LLMとは何か?」とChat GPTに聞いてみたところ、スライドのように概ね正確に回答してくれました。このような内容を確率論的に出していく仕組みになっており、現在各社がこのLLMを実際に用いて、さまざまなモデルやアプリケーションを出している状況です。
例えばOpenAI社のモデルは「GPT」という名前で、実際のアプリケーションとしてはChatGPT、GPTとMicrosoft Bingの組み合わせであるBing AI、そしてDALL-Eという画像生成AIなどがあります。
Googleは「BERT」や「LaMDA」と呼ばれるモデルを作っていて、最近「Bard」というアプリケーションを公開しました。また旧FacebookであるMeta社にも、あまり有名ではないですが「OPT」というモデルやAlphaというアプリケーションがあります。
そして、画像生成系としてStability AIやMidjourneyが画像生成に特化した独自モデルを作って出しているという現状です。その中でもここ最近、ChatGPTがユーザー1億人を突破するなどかなりの広がりを見せていますね。
次に適用分野に注目すると、よくあるのはテキストや画像ですがそれだけではなく、システム開発時のコーディング、音声合成、映像出力、3D生成など、実はメディアコンテンツと呼ばれるものであれば、ほぼあらゆるジャンルに対応しており、それぞれに特化したモデルやアプリケーションが作られている状況です。
その中でGPT-1から発展してきたGPT-3や、DALL-E、Stable Diffusionなどのモデルが適用されたサービスが、今人気になっているというわけです。
中村 かなり広がりを見せていますよね。
Mr.モリスギ はい。前述のように2017年に論文が出て、2018年に初めて実装されたLLMですが、2019年前後のGPT-2の時代には入力できるパラメータ数は15億個でした。それによって一応、今みたいな出力はできたんですけど、若干不自然な形で、まだ実用的ではないといった受け止めをされていました。
それが、2020年の6〜7月頃にGPT-3の登場によってパラメータ数が一気に1,750億個まで増えました。この時点で、少なくとも英語のモデルはほぼ完成しており、例えば実際に文章出力をして、それを機械が書いたかどうかを知らせずに人に読んでもらうブラインドテストをしたところ、60数%の人が騙されたという結果でした。
今流行りのChatGPTもGPT-3で動いているので、3年前には現在とほぼ同じくらいの精度のものはあったわけです。もちろん、ここ3年の間にもチューニングが進んで改善されているでしょうが、ベーシックな部分は実は既に存在していました。
では何が変わったかというと、やはりアプリケーション側で簡単に使えるようになったことが大きく、皆が一斉に使い出したというわけです。
中村 それが今年起きている現象なんですね。
Mr.モリスギ はい。ChatGPT以前にDALL-E、Stable Diffusion、Midjourneyなど、誰もがフリーで使え、Web上でテキスト入力したら画像があっと言うまに出てくるインターフェースが実用化されたので一気に流行ったという側面があると思います。
ChatGPTが実用的な6つの用途と問題点
Mr.モリスギ ChatGPTについては6つほど、実用的に使えそうな用途のポイントをまとめました。まず「Google検索の代わり」。次に「勉強のパートナー」、つまり教科書にある問題を入力して、ChatGPTに回答してもらう使い方。「カウンセラー」は体調が悪かったりメンタルに問題があるときに、どうしたらいいかを聞く。あるいはビジネス上、例えば「LTVを上げるにはどうしたらいい?」といったことを聞くと、それらしい答えを返してくれます。
「コーディング」は命令の与え方を工夫しないとうまくいかなときもありますが、ある程度きっちりしたシステム要件を与えると、「こういうコードがいいのではないか」という提案をしてくれます。特に「コピーライティング」「作詞、ストーリープロット」は使いやすい用途で、例えばあるランディングページのURLを添えて「h1タグで、コンテンツマーケティングをテーマにしたキャッチコピーを10個出してください」と言えば、それらしく10個出してくれます。
中村 すごく便利ですよね。
Mr.モリスギ はい。例えば、「『フジロックのチケット』というテーマで10個出せ」と言えば、ちゃんと10個出してくるんですね。
中村 かなり多くの人の仕事のやり方が変わってきそうです。
Mr.モリスギ そうですね。ただ、現状のChatGPTだと、仕事に使うには不安が大き過ぎる気がします。というのは、Bing AIはそこまででもないのですが、ChatGPTは2021年末までのデータしか学習していないので、最近のニュースのことを聞いても何もわからないですね。
また、これが一番問題なのですが、前述のようにあくまでも確率論的にコンテンツ生成されるので、結構な確率でしれっと嘘を言ってくるんです。しかも、最初の2文は正しいのに、3つ目の文章が間違っているということもあります。
中村 ますます嘘だと見抜きづらくなりますね。
Mr.モリスギ はい。自然に捏造してきます(笑)例えば、「トイレットペーパーに詳しいインフルエンサーを10人挙げろ」と言うと、1人目だけ本当にいる人を挙げて、残り9人については、「トイレットペーパーの使い方を詳しく説明する動画をアップしている◯◯さんです」などと名前まで勝手に捏造して、それっぽい説明ではあるが真っ赤な嘘を言ってくるんですね。
中村 存在しないインフルエンサーを挙げるわけですか。
Mr.モリスギ はい。それも実在する人と混ぜてくるのでなおタチが悪いです。
中村 危険ですね。
Mr.モリスギ ですから、ある意味昔の2ちゃんねるなどと同様、嘘を嘘であると見抜けない人は、特に正確な答えを求めるような場面や用途では使ってはいけないと言えるかもしれません。そこの使い方を誤ると大恥をかくどころか、結構危ういことになりかねないことには注意が必要でしょう。
最近、GoogleがBardのデモを行ったところ、その一部にAIが生成した嘘が少しだけ混ざっていて炎上しました。大した嘘ではなかったのですが、「元々Bardを作った人は誰ですか?」と質問したところ、オリジナルの作者でない人を答えてしまったんです。これ自体はとても小さな間違いなのですが、それがネットでたくさん騒がれ、Googleの株価が10%くらい下がってしまいました。
このようにGoogleやOpenAIが作っている高精度のAIであっても、確率論的に生成する限りこういうことが必ず起こりますので、あまり鵜呑みにし過ぎると危ないということは理解して使った方がいいと思います。
中村 よくわかりました。
Mr.モリスギ もう一つ要注意なのが権利問題です。特に生成系AIで画像などを生成するときに、元となる画像が大量にあり、それを学習させているわけなので、それらは著作権フリー以外の画像の情報も含んでしまっています。
中村 なるほど。
Mr.モリスギ 元々誰かが著作権を持っている画像を機械学習した上で出しているわけなので、「これってクリエイターやアーティストの作品の盗用に当たるのでは?」とも言われていますし、実際に裁判なども起こっています。
中村 そうなんですね。
Mr.モリスギ それから教育上の観点もあります。ChatGPTなどは、テスト問題を解く能力は既に人間より高くなっています。例えば、センター試験や司法試験の問題集をChatGPTに学習させ、実際に試験を解かせればかなりの高得点を取れるといったことが実証されています。
これをオンライン教育などの途中でこっそり使われてしまったら、「子どもたちにとって教育にならない」、「不正ツールが蔓延してしまう」といった懸念が指摘されており、利用禁止すべき状況を規定・調整する機関/企業/サービスが生まれつつある状況です。
中村 そこは悩ましいジレンマですね。
Mr.モリスギ 今挙げたような諸問題があるため、LLMも「全てを解決する万能AIだ!」といった状況にはまだ程遠いというのが現実的な認識です。しかし、今後数年経てば、これらがどんどん改善される可能性は大いにあると思われます。
「3Dイメージ界のGetty Images」? 3D生成AI「Poly」!
Mr.モリスギ ChatGPTについてはすでに色々なところで紹介されていますので、ここからはより現場サイドに近い生成系AIサービスの事例を紹介していきます。LLMをベースとしたAIは、これからスタートアップなどを介して、誰もが現場で使うツールにどんどん入ってくることが予想されます。
BingAIは汎用AIという側面が強いですが、それよりも領域特化し、かつユーザーに使いやすい形にパッケージングすることで新しいビジネスやユースケースを作るということが今起こっていますので、そうした事例を3個ほど紹介します。
まず1つ目は「Poly」です。これは簡単にいうと、ChatGPTのような文章による入力指示から、3Dを生成するものです。ChatGPTはプロンプトを入力すれば、それに対してひょいと答えが返ってくるシンプルなインターフェースだと思いますが、Polyではそれに加えて、生成された3Dオブジェクトをプレビュー・編集したり、既存ソフトと連携した形で出力できるなど、現場サイドにとって気の利いた仕様になっています。
例えば、Fortniteにおける、「草が生えている石畳のフィールド」を作りたいとします。普通であれば素材サイトで希望に近いテクスチャーの素材を買い、それを3Dモデルにべたっと貼り付け、さらにそれを編集ソフトで調整したものをUnityなどに入れて初めて、ゲーム上の素材として使えるようになります。
一方、Polyを使うと、例えば「草が生えている石畳の地面の画像を作って」と指示を出せば、こちらのスライドにあるような素材が瞬時に出てきます。
中村 途中のプロセスを全部すっ飛ばしてということですか。
Mr.モリスギ はい。そのほか色味や草の生え方などを微調整することもでき、エクスポートすればそのままゲームの中で使える感じに仕上がります。ざっくりとしたイメージはプロンプトベースで生成して、細かい調整はエディターでという構成が使い勝手を良くしてくれてますね。Polyが現在無料で使えるので、既に200 万個以上の3Dオブジェクトが作られています。
それ以外にも、イラストや効果音なども生成可能で、3D生成系のGetty Imagesを目指しているのではないかと思われます。しかも、Getty Imagesではいろいろな写真の中から希望の写真を自力で探して集めることが必要でしたが、Polyではそれをほぼ完全自動化しており、扱えるオブジェクトの数も加速度的に増えているので、かなり巧みにやっている印象です。
中村 3Dオブジェクトの素材に困ったらPolyを見ておけばいいという感じですね。
≪中村`s Memo≫
「Poly」など制作現場サイドにとって気の利いたAI/LLMサービスがたくさん登場している!
―次回の【海外Hot Info】では、「プロンプトクリエイター主流社会へのパラダイムシフトが来る?動画編集AI『runway』はじめ生成系AIが描く未来」について、引き続き森杉さんにお話を伺います。次回もぜひお楽しみに!