シリコンバレー101(936) YouTube黎明期を彷彿させるハイパーリアルな合成メディアの台頭

サンフランシスコに拠点を置くRephrase.aiがシリーズAで1,060万ドルを調達した。同社は、テキストスクリプトにアバター、音声、背景をマップし、AIが生成する人間そっくりのアバターをマーティングやコンテンツ作成など幅広い用途に利用できるようにする。「ハイパーリアルなシンセティック・メディア」を活用するソリューションを提供しており、Amazon、Johnson&Johnson、Microsoft、PwCなど50社以上のエンタープライズ顧客を抱える。

AIが生成するアバターなんて不要、人間が自分でやれば良いと思う人もいるかと思う。しかし、例えば会議の中で配られた資料の内容を読み上げる説明を受けて、その時間がもったいないと思ったことはないだろうか。プレゼンテーションにはただ資料を配るだけ以上の効果はある。だが、皆が集まって説明を聞く必要があるかは疑問が残る。そこでリアルなアバターによるプレゼンテーションを作成し、会議までに視聴しておいてもらって、会議では最初から質疑応答やコメントについて議論することで短時間で効果的に会議を進められる。そうしたソリューションをRephrase.aiは提供している。

Mondelez Internationalに、Rephrase.aiとRespeecherが作成したインドの俳優シャー・ルク・カーン氏のデジタルアバター

世界的に経済環境の厳しさが増したこの1年にあって、ハイパーリアルなシンセティック・メディアのスタートアップに限っては資金調達ラウンドや買収成功が次々に成立している。例えば、Synthesia（21年12月に5000万ドルのシリーズB）、Metaphysic（22年1月に750万ドルのシード）、Neosapience（22年2月に2150万ドルのシリーズB）、Deepdub（22年2月に2000万ドルのシリーズA）、Soul Machines（22年2月に7000万ドルのシリーズB）、D-ID（22年3月に2500万ドルのシリーズB）、Papercup（2022年6月に2000万ドルのシリーズA）、Murf AI（22年9月に1000万ドルのシリーズA）。そしてSonantic（2022年6月にSpotifyが買収）、VocaliD（22年6月にVeritoneが買収）などだ。

Sonanticは映画「トップガンマーヴェリック」で、咽頭癌から発声が困難になったヴァル・キルマー氏の声を再現して話題になった。「The Mandalorian」や「The Book of Boba Fett」でマーク・ハミル氏の声をRespeecherがディエイジング(若返り)し、Resemble AIが「The Andy Warhol Diaries」のアンディ・ウォーホル氏の声を生成するなど、特に最近は音声合成が話題になることが多い。先週、「スターウォーズ」シリーズで暗黒卿「ダース・ベイダー」の声を40年以上にわたって務めてきた俳優ジェームズ・アール・ジョーンズ氏が同役からの引退を発表。同時に同氏の声を基に作成した合成音声を今後ダース・ベイダーに使用する許可を出したことを明らかにした。

ここ数年の合成メディアの進化のペースはすさまじい。「The Mandalorian」でのマーク・ハミル氏のディエイジングでは音声だけではなく映像もAIによる合成の利用が検討されたが、当時は十分に満足できる映像が得られず、従来のメイキャップによるディエイジングが用いられた。しかし、2021年の「The Book of Boba Fett」では製作現場に採用されるぐらいに合成映像技術は劇的に進化した。無機質な違和感を覚える「不気味の谷」が完全に払拭されたわけではなく、作品映像としての採用はまだ限定的である。だが、シーンのアイデア出しやプロトタイプ作成といった作業では「不気味の谷」が気になることよりも、より速いペースで行えるメリットの方が大きいと思えるぐらい自然な表現が可能になり始めている。そうしたエンターテインメントの世界の変化と同じことが、ビジネスや私達の暮らしの様々なシーンでも見られようになろうとしている。

それは良いことばかりではない。ハイパーリアルな合成メディアの技術は「ディープフェイク」とも呼ばれる。Rephrase.aiが資金調達発表と同じ週に、Microsoft Researchのエリック・ホロビッツ氏の「On the horizon:Interactive and compositional deepfakes」という論文が話題になった。AIを駆使して本物とそっくりの画像や映像を作るディープフェイクの進化によって、その脅威がさらに深刻化すると指摘している。

脅威の可能性として、第1にあたかも本物の人間と話しているかのような錯覚を起こさせる「インタラクティブ・ディープフェイク」が登場する。そして複数のディープフェイクを合成し、フェイクで出来事や歴史を編み出す「コンポジショナル・ディープフェイク」も可能になると予測する。メッセンジャーや電話で自然に会話している相手が「実はボット」ということがすでに珍しくなくなってきているが、実在の人物と聞き分けられないオレオレ詐欺、Web会議映像の偽装、陰謀論のありもしない証拠や架空のスキャンダルのでっち上げ、世論の誘導、裁判証拠の偽造といったような悪用が起こり得る。ホロビッツ氏は、予見できる害に対する「警戒」が重要であるとし、AIやML（機械学習）技術の進化を見据えて、技術が悪用される可能性、許容される使用方法や望ましい活用方法、コントロールや規制について関連する複数のセクターを横断して取り組んでいく必要性を指摘している。

リアルな合成メディアを巡る昨今の状況は、YouTubeがスタートアップと呼ばれていた頃の議論を思い出させる。今のモバイル世代は想像できないと思うが、スマートフォンが登場する前の時代、誰でも簡単にビデオを投稿・公開できるサービスとして誕生したYouTubeは怪しいサービスと見なされていた（だから、Googleによる買収は驚かれた）。私が初めてYouTubeを記事で前向きに紹介した時、編集部から「このサービスは大丈夫ですか?」という確認があったのが忘れられない。当然である。当時は今のような個人が活躍するクリエイター経済なんて理想でしかなかった。YouTubeが動画コンテンツ作成の民主化を掲げていても、同サービスがTV番組や映像作品をアップロードする違法行為をはびこらせて終了する可能性の方がはるかに現実味があったのだ。

しかし、ブロードバンドの普及とともにオンラインコンテンツの主流がテキストから画像へとシフトし始めた。次はビデオである。そして、2007年に初代iPhoneが登場し（YouTubeの誕生は2005年）、若い世代を中心にTVからスマホに画面の移行が起こって、クリエイター経済の誕生から今のYouTubeの環境が整うことになる。

2026年にはオンラインコンテンツの90％がAI生成のコンテンツになるといういささか信じがたいレポートも現れている。リアルな合成メディアがディープフェイク墜ちすることなく、このままデジタルコンテンツの新世代を形成できるかどうかは分からない。可能性の話をすると、VR（仮想現実）/メタバースがインタラクティブなデジタルアバターの次のステージになるだろう。10月11日にMetaが「Meta Connect」というメタバース関連イベントを開催し、同イベントで次世代のVRデバイスを披露すると見られている。

Metaというと、CEOのマーク・ザッカバーグ氏がこの夏に公開したカートゥーンのようなアバターが嘲笑を買い、少しリアルに近づけた改良版アバターにアップデートするという騒動があった。たしかに最初のアバターはお粗末すぎたが、好意的に受け止めると、今VRで見た目にもリアルなアバターを動かした時に人々に生じる感情に配慮し、あえて今はリアルから遠ざけているとも想像できる。でも、ザッカバーグ氏自身は以前から今後のメタバースの予測の中で、VRの次の大きな波を起こすことの1つに「リアリスティックなアバター」を挙げているのだ。