制作30時間がわずか10秒に!? アニメーションも自由自在! テキストを入れるだけで「動く・喋る」アニメ動画が完成
FROGMANと花奈澪がパーソナリティをつとめる、TOKYO FMで放送中の「鷹の爪団の人工知能ちょっと来い!~AIを使って世界征服じゃ!~」。AIのエキスパートや、クリエイター、アーティストなどをゲストに迎え、エンターテインメントにおけるAIの面白さや可能性を掘り下げていく番組です。

今回の放送は、ゲストにDLEの椎木秀樹さんをお迎えして、DLEが開発した広報動画を自動生成する「しゃべくりAI」について伺いました。

(左から)FROGMAN、椎木秀樹さん、花奈澪

◆吉田くんの声の仕掛け人が登場!

吉田くん(AI音声):今夜のゲストは、YouTube、メディア、D2Cで新規事業を行い、NFT領域も渡り歩き、今はキャラクター×AIを現場で形にする男。DLEでAIプロジェクトに関わり、AI吉田くんのプロデュースにも携わった、椎木秀樹さんです。

花奈:まさにAI吉田くんにも関わっていらっしゃる、DLEの椎木秀樹さんがお越しくださいました。よろしくお願いします。

椎木:こんばんは、よろしくお願いします。

FROGMAN:まさしくこの吉田くんの声も仕掛けているというか、プロデュースをしているということなんですよ。

花奈:で、DLEをまさに今どんどん新規開拓していると。

FROGMAN:DLEって最近AI、AIってなっているじゃないですか。新しいテクノロジーをどんどん取り入れている原動力というか、コアエンジンが椎木秀樹さんなんですよ。

花奈:この番組にふさわしいゲストが来てくださいましたね。

FROGMAN:今、社内で一番取り組んでやっているのって何なんですか?

椎木:社内では「しゃべくりAI」ですね。

花奈:以前にご紹介もありましたけれども、ちょっと簡単にもう一回、リスナーの皆さんにどんなサービスかお話いただいてもいいですか?

椎木:「しゃべくりAI」は、企業、店舗、自治体さんなどが、公式SNSアカウントを通じて行う情報発信に対して、AIキャラクターが代わりにしゃべって、動く広報動画で、コンテンツを自動生成するサービスになります。

広報担当者はテキスト情報を入力するだけで、キャラクターの発話、動作、表情を伴う短尺動画を作ることができます。

花奈:セリフを入れ込むだけで、吉田くんがしゃべってくれる広報動画がポンと出来上がると。

FROGMAN:そういうことです。結構自治体とかって、ゆるキャラのアカウントとかを皆さん作っているんですよ。でも大体テキストだったり、写真を入れ込むぐらいはあるけれど、どうしても華がないじゃないですか。

そこに動画を載せられたらいいなと思いながらも、いざ動画を作ろうとするとコストがかかってしまう。「それを簡単に作れますよ、お安くできますよ」っていうのが今回の「しゃべくりAI」なんです。

椎木:やっぱりアニメーションを作ろうとなってくると、単純に企画、ナレーション、イラストを起こして、アニメーション化してって流れになって。さらにそれぞれに制作会社さんがいらっしゃって、手配をすることを考えると、短尺の2〜3分でも本当に30時間とか何十時間もかかる世界だと思うんです。それを「しゃべくりAI」を使うと、ものの10秒で本当に動画が作れます。

FROGMAN:実は今日、お持ちいただいているということで。

椎木:はい、今日のためにしゃべくりAIで作ってきた動画がありまして、吉田くんと総統とあと総統の英語版を作ってきました。

FROGMAN:おおー! 多言語ができる。

椎木:じゃあ吉田くんからお聞きください。

吉田くん(AI音声): 「しゃべくりAI」は、企業、店舗、自治体などが公式SNSアカウントを通じて行う情報発信に対して、AIキャラクターがしゃべる、動く、伝わる広報動画を自動生成するサービスですよ。

花奈:おおー! なんかいつものAI吉田くんよりさらになめらかな感じがします。

FROGMAN:テンポよくしゃべってる。

椎木:で、総統がですね。

総統(AI音声):「しゃべくりAI」は、企業、店舗、自治体などが公式SNSアカウントを通じて行う情報発信に対して、AIキャラクターがしゃべる、動く、伝わる広報動画を自動生成するサービスじゃ。投稿テキストを入力するだけで、キャラクターの発話、動作、表情を伴う短尺動画へと自動変換できるのじゃ。うーん、これ面白い試みじゃのう。

花奈:すごーい!

FROGMAN:総統のほうがなんか完成度が高い(笑)。

花奈:途中で入った「うーん」みたいなよく総統がやるやつって、あれ台本にないですよね。

椎木:ないです。自動で「総統だったらここに“うーん”を入れるだろう」みたいな。

FROGMAN:テンポがいいんですよ。会話のリズムがいいの。合成音声でナレーションするとどうしても1分も聴けないんだけど、キャラクターで総統のこのしゃべりのテンポ感というかリズム感だと聴けるね。すごい進化しましたね。

◆野沢雅子さんの声がグローバル展開!?

椎木:次に、英語版を。総統はもちろん英語をしゃべったことはないんですけど、総統の声質で英語版を作るとこんな形になります。

(AI音声:総統の英語ナレーション)

花奈:うわー! でも想像つくわ。

FROGMAN:もう英会話教室に行かなくていいってことだね。これ、どうやってやったんですか? 英語の収録をしたわけじゃないじゃないですか。

椎木:総統の声質をトレースして、英語のモデルが別にございますので、それをマージするような形で作ります。今の進化はすごいです。

FROGMAN:ちょっと前まで、英語のボイスを作ろうと思ったら英文を読んで読み込ませて、そのデータを元にして作らなければいけなかった。

椎木:そうなんですよ。キャラクターの声質を統一したまま多言語化ができるっていうのは、1つのキャラクターのグローバル展開として、かなりすごいことですよね。

FROGMAN:今後、「ドラゴンボール」も野沢雅子さんの声で世界展開することができるっていうことですよね。

椎木:そういうことです。

FROGMAN:声優さんにとってもすごくメリットが大きいし、可能性があるよね。野沢雅子さんの声で聞いている人たちって限られちゃうじゃん。でも野沢さんのお芝居をみんなが聞けるようになるってことだね。「しゃべくりAI」を作るときに一番大変だったことって何でしたか?

椎木:今でこそAI技術が本当に使いやすくなって、いいクオリティのものが簡単に作れるようになっていますけど。ChatGPTが出始めた2022年末とか2023年って、まだまだキャラクターに転用できるほど技術って進化していなかった記憶があるので、そういう意味で言うと苦労は当時からしていましたね。

もっと進めば、今は「しゃべくりAI」には未実装ですけど、テキストを入力しただけでそのテキストの文脈から、「ここはちょっと泣きながら言ったほうがいいな」とか「ここは怒って言ったほうがいい文章だな」みたいなのをAIが推測して、その通りに抑揚を変えて話してくれるっていうのは可能だと思います。

FROGMAN:自治体の広報だと、残念なお知らせとか、お祭りやりますよっていうのに合わせて読み分ける時代も来るわけですね。

椎木:同じ「ありがとうございます」でも、雰囲気によって変わってくるじゃないですか。残念ながら言うのか、とてもハッピーに言うのかで違ってくると思うので、そういった文脈を理解した上で使い分けていくことができるようになるということですね。

<番組概要>

番組名:鷹の爪団の人工知能ちょっと来い!~AIを使って世界征服じゃ!~

放送日時:毎週木曜 21:30~21:55

パーソナリティ:FROGMAN、花奈澪

番組Webサイト: https://www.tfm.co.jp/podcast/ai/