パナソニック ホールディングス(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカは6月4日、カリフォルニア大学ロサンゼルス校((以下、UCLA))の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発したと発表した。
マルチモーダルな生成AIが抱える課題
異なるデータ形式同士の変換を実現するマルチモーダルな生成AIは、学習データに通常、取り扱いたいデータ全てのペアを用意する必要がある。
しかし、テキスト、画像、音声がすべてそろったデータは入手方法が限られバリエーションを増やすにはコストがかかることが課題となっている。
この課題の解決に向け、取り扱いたいデータ形式をすべて含む異なるデータの組み合わせが完全にそろっていなくても学習できる手法が提案されたが、入力データを平均することで実現しており、表現能力の観点で改善の余地があるという。
OmniFlowの特徴
OmniFlowは、各データ形式に特化した生成AI(テキストから音、テキストから画像)を柔軟に組み合わせることで3組すべてのモーダルから成るデータ(テキスト・音・画像)の枚数が少なくても高精度なAny-to-Anyモデルを学習でき、学習データの作成コストを大きく削減することに成功した。
具体的には、既存の画像生成フローマッチングの枠組みを拡張する形で、生成の過程で3つの異なるデータ特徴を連結して処理することで、平均するだけでは得られないデータ間の複雑な関係を学習する。
評価実験では、「テキスト→画像」、「テキスト→音」生成タスクの性能を既存手法と比較。その結果、OmniFlowはAny-to-Any手法(Generalist)、各タスクに特化したスペシャリスト手法の中で最良の性能を獲得することが確認された。また、OmniFlowの学習に必要なデータサイズは他のAny-to-Any手法と比べて最大60分の1程度まで削減できることもわかったという。