お久しぶりのインタビュー記事です。今回は、画像分野の中でも物体の検出・認識ではなく、画像・映像を生成する技術を専門としているEmbodyMeで代表取締役社長を務める吉田一星さんにお話を伺いました。
吉田一星氏プロフィール
慶應義塾大学卒業後、ヤフーに入社。コンピュータビジョン、機械学習、検索、分散処理などの研究開発に関わり、コンピュータビジョン、VR/ARの技術を世界に先駆けてスマートフォンに応用したサービスを複数立ち上げた。
2016年に株式会社EmbodyMeを創業。
受賞歴にSIGGRAPH Asia Emerging Technologies採択、経済産業省Innovative Technologies採択、未踏ソフトウェア創造事業採択、 IVS Launchpad準優勝、グッドデザイン賞受賞など
こんにちは! 早速ですが、吉田さんの会社のビジョンについて教えて下さい。
「AIを用いた次世代のコンピュータグラフィックスでデジタルコンテンツ産業に変革を起こす」です。ディープラーニングの中でもGANやVAEなどの深層生成モデルがコア技術になります。コンピュータビジョン(CV)が画像から何かしらの情報を抽出することが目的であるのに対し、深層生成モデルは画像を生成することを目的にしています。深層生成モデルとCVは逆のタスクだと考えています。EmbodyMeでは、AIのうちこの深層生成モデルを活用してデジタルコンテンツを生成することをミッションとしています。
EmbodyMeの主力のプロダクト、サービスを教えてください。
今年、XpressionというiPhoneアプリをリリースしました。これは、自分の顔を撮影すると、自分の顔の動きで他の人の顔を乗っ取ることができるアプリです。説明するよりも動画1を見ていただいたけばすぐに内容を理解してもらえると思います。
Xpressionの強みは何ですか?
現時点でコンペティターがいないことです。類似の既存研究はありますが、あくまでも研究レベルです。あらかじめビデオを解析、学習させておく必要があります。ある程度長い時間写っているようなビデオでないと動作しない、静止画も動かない、処理が重たいといった課題もあります。
一方、Xpressionは、撮影すると瞬時に自分の顔で他人の顔を乗っ取ることができます。動画だけでなく絵画などの静止画を動かすこともできます。既存研究よりも数十倍の高速化を実現しており、iPhoneでもリアルタイムで動作可能であることも大きな強みです。
Xpressionの原理を簡単に教えて下さい。
Xpressionでは3つのディープラーニングのモデルが同時に動いています(図1)。
1つ目は、カメラ映像から3D顔形状と、表情を推定するモデルです。
2つ目は、Youtubeなどの動画から3D顔形状と、表情を推定するモデルです。
3つ目は、口の中などの写っていない箇所の映像を創り出す生成モデルです。
今後はどのように技術、プロダクトを進化させる予定ですか?
まずは、声や文字だけから表情を動かせるようにする予定です。そして、表情だけでなく、頭部や体全体を動かせるようにしていき、最終的には頭部や体全体の映像を生成、人以外のあらゆるものの映像を生成することがゴールです。
複数人の顔が写っている場合は対応していないようですが?
はい。現時点では複数人が写っている場合には対応していません。今後は複数人の表情を同時に動かすのもおもしろいのではないかと考えています。
苦労した点はどこですか?
GANの学習です。なかなか思ったような結果が出ませんでした。かなり長い学習時間をかけないと結果がわからず、ハイパーパラメータなどの調整を短い学習時間で回してしまっていたのが原因でした…。
ビジネスの可能性について教えてもらえますか?
モバイルアプリ広告の市場が3.5兆円、デジタルコンテンツの市場が80億円と言われて言いますので、十分な市場の大きさがあると考えています。
よく聞かれるのが肖像権、著作権です。アプリにデフォルトで入っているものはクリアしていますが、今後、芸能人やキャラクターなどと正式にタイアップしていきたいと考えています。
最後に起業した感想を聞かせて下さい。
起業は大変ですが夢があります。自分で自由に方向性を決められますし、協力者も本当に協力してくれます。そういった意味で会社員時代よりもやり易いですね。
今回は、本連載で紹介してきた物体の検出、認識のディープラーニングではなく、画像、映像をAIが創り出す生成モデルを活用しているベンチャー企業さんのインタビューでした。Xpression、なかなかおもしろいアプリなので是非インストールして使ってみて下さい。吉田社長が思ってもいなかった使い方をするユーザーさんが登場する予感がします! Android版も開発中とのことですので、Androidユーザーの方もリリースされてないか定期的にチェックしてみて下さい!!
著者プロフィール
樋口未来(ひぐち・みらい)日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。
日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。
専門:コンピュータビジョン、機械学習