北陸先端科学技術大学院大学(JAIST)と早稲田大学(早大)の両者は8月2日、初心者でもプロレベルのアニメ画を作成できる生成AI技術を開発したことを共同で発表した。

同成果は、JAIST 創造社会デザイン研究領域のZhengyu Huang大学院生、同・謝浩然准教授、同・宮田一乘教授、早大 理工学術院の福里司講師らの共同研究チームによるもの。詳細は、コンピューティング分野全般を扱う学術誌「ACM Digital Library」に掲載された。

アニメ画を作成するという作業は、絵コンテや設定資料を基に立体的かつ高度に抽象化されたキャラクタを描く力や、頭の中に思い浮かんだものを再現する表現力などが求められ、自分で作ってみたくても初心者にとっては非常にハードルの高い技術やセンスが求められるものとなっている。

そうした背景から、近年、生成系人工知能(生成AI)を応用しラフなスケッチ画から高品質なアニメ画を自動生成する方法が模索されている。しかし、ユーザが描くラフなスケッチは、描きたいアニメ画の完成図を予測するための情報が不足しているため、創作意図に沿った高品質な画像を生成させることが非常に難しいという。

さらに、ユーザが満足するアニメ画を生成するには、ユーザによる加筆と生成AIによる画像出力の繰り返しなど、ユーザによる試行錯誤が必要不可欠であるものの、既存の生成AIはスケッチの制作過程が考慮されておらず、加筆前と加筆後での出力結果が異なってしまうことが課題となっていた。その結果、生成AIは、アニメ画のような芸術作品の生成には不向きといわざるをえなかったとする。そこで研究チームは今回、制作過程における線の描き方をシミュレートし、ラフなスケッチから高品質なアニメ画を生成する新たな生成AI技術の開発を試みることにしたという。

今回の技術は、深層学習フレームワークに基づいており、創作プロセスと生成AIにおける潜在空間の探索処理を行うとする。また、最新の高解像度画像生成モデルであるAI「StyleGAN」が利用されており、2段階の訓練法が採用された。

提案手法では、線の描き方(ストローク)によって、生成AIの出力結果をコントロールするため、StyleGANの潜在空間にて、スケッチのストローク情報とアニメ画の輪郭線(黒線)に関連付ける技術「stroke-level disentanglement」が新たに考案された。これにより、ユーザは意味的なラベル情報の代わりに、ストロークを描くだけで出力結果(アニメ画)の局所的な輪郭線特性と自動マッチングさせ、出力結果の一致性に大きく関与できるという。さらに、1本のストロークに対するdisentangled(もつれを解くの意)な表現を実現するために教師なし学習フレームワークが導入された。

  • 今回の生成AI技術を用いたアニメ画の生成結果の一例

    今回の生成AI技術を用いたアニメ画の生成結果の一例。画像生成AIは、細部が欠けている不完全な描画ばかりでなく、完全なスケッチからでも画像を生成する際には固有の困難に直面してしまう。今回の技術は、スケッチ過程全体で一貫して入力スケッチに合致した高品質の結果を生成することが可能。(a)ユーザによる最終的なスケッチ(入力)、(b)詳細モードでのガイダンス(線の色は意味的領域分割の結果)、(c)参照画像選択後の生成結果(カラー画像)が示されている。(出所:早大Webサイト)

提案技術における2段階の訓練方法の詳細としては、はじめに、事前訓練された生成AIを基に、画像エンコーダ(=出力アニメ画に対する潜在変数の推定)の訓練が行われた。次に、生成されるアニメ画の輪郭線を描画するための工程を擬似的にシミュレートすることで、描き途中のスケッチに対する画像エンコーダ(=ストロークから潜在変数の推定)の訓練を追加データなしで行ったとする。これにより、たとえユーザが絵を描く途中段階であっても、ストロークのdisentangledな表現に合致しつつ、高品質な画像を安定的に生成することが可能となったとした。

提案の生成AI技術を検証するため、アニメ肖像画の制作インタフェース「AniFaceDrawing」(以下「AFD」)が開発され、その有用性の評価が行われた。ユーザスタディとして15名の大学院生を対象に、AFDを使用してアニメスタイルの肖像画を自由に制作してもらったとする。

  • 手描きスケッチ内のストロークと関連付ける「stroke-level disentanglement」の概要図

    手描きスケッチ内のストロークと関連付ける「stroke-level disentanglement」の概要図(出所:早大Webサイト)

なお、ユーザはスケッチを描く際、アニメ画の完成予想図に対するガイダンスのモード切り替えが可能とされた(大域的な情報の可視化、または詳細部の可視化)。これにより、被験者は表示されたガイダンスが自分の望む結果に合致したらそのタイミングで「ピン留め」の作業を行い、その作業を繰り返しながら入力スケッチをさらに洗練させることができるという。また、参照画像を選択することで、生成されるアニメ肖像画にカラー情報を付与することも可能とした。

  • 開発ユーザインタフェース「AniFaceDrawing」

    開発ユーザインタフェース「AniFaceDrawing」(出所:早大Webサイト)

最後に、被験者に対しアンケート調査が実施されたところ、生成結果に対する満足度や、ユーザが描く線画と生成されたガイダンスのマッチング率において、提案インタフェースが高く評価されたとする。

長期的には、今回の研究成果は生成AI技術の普及に貢献し、ユーザの創造的活動を支援することで、身体性に紐づけされたスキルの障壁をなくし、人間の創造的能力を最大限に拡張することが期待されるとした。