マーケティングや研修では動画を使うことが多いですが、制作には高額なコストと専門技術、そして時間が必要でした。もし、AIで講師のアバターを生成し、日本語で話してくれるなら大幅な工数とコストを削減できます。とは言え、SoraやMidjourneyといった動画生成AIと音声クローンAIを組み合わせて映像を作るのも現実的ではありません。そこでおすすめなのが「HeyGen」です。→過去の「柳谷智宣のAIトレンドインサイト」の回はこちらを参照。
AIアバターを生成する「HeyGen」とは
HeyGenは驚くほどリアルなAIアバターを生成できるクラウドサービスです。2020年に中国で創業したHeyGenは、個人クリエイターから企業まで広い層をターゲットに、手ごろな価格のプランを用意しており、人気を集めました。2024年6月の資金調達ラウンドでは、企業価値を5億ドルと評価されており、驚異的なスピードで成長しています。
HeyGenはフリープランも用意されていますが、動画に透かしが入るので商用利用ができません。ビジネス用途であれば、月額29ドルのクリエイタープランか、月額39ドルのチームプランを契約しましょう。大企業向けのエンタープライズプランもあり、こちらは要相談です。
HeyGenには100種類以上のアバター、300種類以上の音声が収録されており、自由に使えます。言語も日本語を含む40以上に対応しています。とは言え、やはり自分や社員など、実在の人物をアバターにしたいという人も多いでしょう。
「HeyGen」でアバターを作成する
HeyGenでは、とても簡単にリアルなアバターが作れます。まずは、写真を20枚ほど用意し、フォトアバターを作ってみましょう。HeyGenの「Avatars」画面から「Create New Avatar」をクリックし、「Start with photo」をクリックします。続いて、その人物が映っている写真を20枚以上アップロードし、学習させます。
利用する写真は、バストアップでも全身でもいいのですが、見切れていたり、モノクロなどのエフェクトがかかっていたり、複数人数が写り込んでいるのはNGです。
数分で学習が完了するので、画像を生成してみましょう。英語でプロンプトを入力するのですが「avatar」という単語が、学習させた人物となります。例えば「アバターがレッドカーペットを歩いている写真」や「アバターが大学で講演している様子」などと英語で入力すると、その画像が生成されるのです。
超リアルな画像も生成できるので、著作権や肖像権には注意してください。適当なプロンプトでも、本人かと思うような写真が生成されてしまいます。くれぐれも他人の写真を使い、ディープフェイクを作らないようにしましょう。
次は、声をクローンしましょう。「AI Voice」画面を開き、「Create New Voice」をクリックし、「Instant Voice Cloning」をクリックします。
自分の声を2分程度録音したファイルをアップロードします。どんな文章を読み上げても構いませんが、静かな環境で、明瞭に発音しましょう。こちらも、学習は数分で済みます。
準備ができたら「Create video」をクリックし、編集画面に入ります。まずは、縦型動画(Portrait)か横型動画(Landscape)を選び、「Avatar」を選択し、先ほど生成した静止画を選択します。
次に「Script」を開き、セリフを入力します。もちろん、日本語でOKです。また、上部のメニューから学習させたオリジナル音声を選んでおきます。アクセントはオリジナルだと自分の発音に近くなるのですが、学習データが足りないと、おかしくなることがあります。十分にトレーニングされた「Japanese」を選択しておくとよいでしょう。
また、「Voice Setting」を開くと、スピードや音量などを調整できます。「Preview」では音声のみ再生できます。映像は動きませんが、「Submit」を押すと、きちんとリップシンクした動画が生成できます。
動画は口元が動くだけでなく、瞬きもしますし、首を傾げたり、頭を動かしてリアリティがあります。海外サービスだからか、口元がやや大げさに動く傾向にあります。今回はプリセットされているアクセントを選択したので、筆者の話し方ではありませんが、声はとても似ています。
動きのあるリアルな動画を作成する「Avatar Ⅳ」
さらに動きのあるリアルな動画を作る場合は「Avatar Ⅳ」機能を利用します。ホーム画面から「Photo to Video with Avatar Ⅳ」をクリックし、元となるアバターの静止画をアップロード。スクリプトを入れ、動画を生成してみましょう。
椅子を回転させたり、手を動かしてろくろを回したりと、動いているので、さらにリアリティが増しています。ただし「Photo to Video with Avatar Ⅳ」画面からは、音声は選べるもののアクセントは選べません。プリセットのアクセントを利用する場合は、あらかじめ音声を生成し、そのファイルをアップロードする必要があります。
今回のサンプル動画はオリジナルアクセントで生成しているので、少し発音が変になっています。学習させた録音の滑舌が悪かったのかもしれません。
ユニークなのが、「URL to Video」です。AmazonやEbayなどの商品紹介URLを入れると、自動的にAIがスクリプトを作成し、動画テンプレートに合わせてアバターにセリフを話させることができるのです。ショート動画やアフィリエイト動画を量産できる可能性があります。
この機能を使うには、まず本人のビデオアバターを作る必要があります。最初の「Create Your Avatar」画面で、今度は「Start with video」を選びます。ビデオアバターは1つしか作成できません。
続いて、音声をクローンする時のように、自撮りした動画をアップロードするのですが、それに加えて、本当に本人かどうかリアルタイム動画でのチェックもあります。Webカメラなどで自分を撮影し、画面に表示された文章とコードを読み上げる必要があるのです。
では、商品紹介動画を作ってみましょう。「Labs」画面から「URL to Video」をクリックします。
Amazonなどの商品ページのURLを入力すると、トークスクリプトの案を3つ提示してくれます。好みのセリフをクリックするだけと手軽なのがうれしいところです。内容もしっかりしていました。もちろん、自分でスクリプトを入力することも可能です。
次はテンプレートです。アバターがどのように製品を紹介するのかを選びましょう。きちんと人物を切り抜き、製品画像の上に乗せてくれます。従来は動画編集ソフトを駆使しなければできなかった作品が、AIを使えば素人がぽちぽちとクリックするだけで作成できるというのが驚きです。
途中、言語とアクセントを選ぶ画面が出ます。言語は日本語を選べばいいのですが、筆者が契約しているクリエイタープランだとオリジナルアクセントしか選べないのです。プリセットのアクセントが選べないので、少し日本語の発音がおかしくなります。
Teamプランにすればいいのですが、39ドルのうえに最低2アカウントからの契約なので高くついてしまいます。今回は、オリジナルアクセントで生成しています。英語の場合は、オリジナルアクセントでもきれいに発音してくれるので比較してみてください。こちらも声は筆者の声です。日本語も早くブラッシュアップされることを期待したいところです。
以上が、超簡単に自分をアバターにして自分の声でしゃべらせる動画を生成できるHeyGenの使いかたです。社内の研修動画やSNSに投稿する動画などを作成するのがはかどります。アバターによる動画作成に興味があるなら、ぜひHeyGenに触ってみることをおすすめめします。