パナソニック ホールディングス(パナソニックHD)およびパナソニック R&Dカンパニーオブアメリカ(PRDCA)は6月4日、カリフォルニア大学ロサンゼルス校(UCLA)の研究者らと共同で、テキスト・画像・音声といった異なるデータ形式を自由に相互変化できる、“Any-to-Any”手法のマルチモーダル生成AI「OmniFlow」を開発したことを発表した。

  • OmniFlowのイメージ図

    パナソニックHDはテキスト・画像・音を相互変換可能なマルチモーダル生成AI「OmniFlow」を開発した(出所:パナソニックHD)

この発表に際しパナソニックHDは、オンライン説明会を開催。同社 DX・CPS本部 デジタル・AI技術センターの小塚和紀氏、加藤祐介氏が登壇し、パナソニックにおけるAI開発指針やOmniFlowの強みについて解説した。

幅広い事業を有するパナソニックが目指す“Scalable AI”

あらゆる分野においてAIの活用が不可欠となっている昨今、パナソニックグループは、2025年1月に“AIを活用したビジネスへの変革を推進するグローバルな企業成長イニシアティブ”として「Panasonic Go」を発表。AI活用の拡大により競争力を高めることを目指しており、パナソニックHDの技術部門としても、この趣旨に沿ったAI開発やプラットフォーム構築に貢献する取り組みを進めている。

リアルな空間を対象としたさまざまなビジネスを展開するパナソニックは、AIについて、そのものだけが商品となるのではなく、事業領域それぞれに対してドメイン知識を有する人が“使いこなす”ことで価値を発揮するものだとする。そのためAIのすべてを自前で開発することを目指すのではなく、必要に応じて外部の技術を積極的に活用しているといい、スタートアップ企業をはじめ、海外大学とも連携を図っているという。

ただ小塚氏によると、幅広い事業を展開する同社グループにとって、AIの活用・実装には高いハードルがあるとのこと。各現場に適用させるためのデータ構築やチューニングが都度必要になるため、適用には手間がかかる傾向にあるのだ。しかし裏を返せば、こうしたAIの現場適用における課題を解決できれば、AIを活用した商品・サービスを急速に拡大できる。そのため同社ではAI開発における指針として、あらゆる顧客の信頼に応える“Responsible AI”に並び、さまざまな顧客へと素早く届ける“Scalable AI”を目指して、AI開発プロセスの高度化に取り組んでいるとする。

  • パナソニックのAI開発指針

    パナソニックの2つのAI開発指針(出所:パナソニックHD)

AI開発コストの多くを占める“教師データ”

AIの開発プロセスは、AIの目的を定める企画・設計に始まり、教師データの構築、アルゴリズム開発、学習・評価、そして推論という流れで進む。このプロセスにおいて非常に重要なのが、教師データの収集とアノテーションで、これらの工程がAIの性能を決めるといっても過言ではない。そのため現在ではデータ収集およびアノテーションに開発プロセス全体で要するコストの半分以上が割かれているといい、その効率化が強く求められている。

さまざまな現場に携わるパナソニックグループにとっても、AIの適用にはそれぞれ異なる教師データが必要となるため、その収集やアノテーションはボトルネックとなっていたとのこと。そのためパナソニックHDでは、階層的な画像認識を行うマルチモーダル基盤モデル「HIPIE」の開発や、アノテーション作業の大幅削減と高精度化を実現する技術を有するFastLabelとの協業など、Scalable AIの実現に向けアノテーション効率化に貢献する多様な取り組みを進めてきた。

さらに現在では、そんなAI開発プロセス効率化の範囲をさらに広げる取り組みとして、データ収集作業を効率化する新技術の開発に着手。幅広い領域でそれぞれ専門的かつ莫大な数の教師データを得るため、それぞれの領域に適したデータをAIによって生成する手法の実現を目指しており、2024年12月に発表した生成AIチューニング技術「Diffusion-KTO」では、AIの生成した画像を良悪いずれかで判定するだけで、教師データに適した画像を生成可能にしていた。

そして今回発表された「OmniFlow」では、パナソニックが目指す“リアルな空間へのAI適応”を実現するため、画像やテキストに限らず、音声も含む変換が可能なマルチモーダル生成AIを実現。画像とテキストの入力から音声を出力したり、入力したテキストから画像と音声を出力したりと、Any-to-Any手法でのデータ生成が可能になったのである。

  • OmniFlowの概要図

    マルチモーダルでの学習データ生成が可能なOmniFlowの概要図(出所:パナソニックHD)

特化型AIを柔軟に組み合わせ高性能マルチモーダルAIに

今回パナソニックHDが開発したOmniFlowは、音声・画像・テキストに対応したマルチモーダル生成AI。加藤氏によると、こうしたマルチモーダル生成AI自体はこれまでにも存在していたものの、さまざまな課題が残されていたという。

まず学習の面では、各モーダルが正しく対応したペアデータの取得が困難という課題がある。またAIモデル構築においてはこれまで、単一モーダルに特化したAIを組み合わせる手法と、それぞれのAIをマルチモーダル化させるため作り込む手法が取られてきたとのこと。しかし前者では各モーダルの特徴を平均化した出力となるため性能が低く、一方の後者では性能は高いものの作り込みに要するコストが高く、実用化へのハードルとなっていた。

そこで今回パナソニックHDは、単一モーダル特化型の生成AIを用いつつ、画像生成フローマッチングと呼ばれる枠組みを拡張することで、生成過程における3モーダルのデータ特徴を連結して処理し、各データ間の複雑な関係を学習できるようにしたとのこと。各モーダルのデータ生成に優れた特化型AIを活用するため、高い性能を発揮するモデルでありながら、すべてのモーダルからなるデータを大量に学習する必要がなく、マルチモーダル性能獲得に必要なコストを大きく削減できるとした。

なお加藤氏によると、OmniFlowでのデータ生成性能を検証した結果、テキストの入力から画像、あるいは音声を出力した場合、既存手法よりも高品質の生成が実現されたとのこと。また既存のマルチモーダル手法に比べて、学習データ数は最大で60分の1にまで削減されたとしている。

雑音や環境音の教師データ生成にも貢献可能

小塚氏はOmniFlowを活用した今後のユースケースとして、音声認識AIの現場適用に向けて必要な環境音や雑音などの生成を挙げる。これらは実際の音声で学習データを収集することが難しいうえ、業種によってそのニーズはさまざまであることから、OmniFlowでの生成が教師データ収集の効率化に大きく貢献できるとした。

またDiffusion-KTOとの併用も効果的だとしており、商品や現場の数が多い領域に対しては、両ツールを活用して教師データを生成することで、学習に費やす期間を短縮できるという。

  • OmniFlowとDiffusion-KTOを併用したAI展開

    OmniFlowとDiffusion-KTOを併用したAI展開イメージ(出所:パナソニックHD)

なおパナソニックHDは、AIの社会実装を加速させ、顧客のくらしやしごとの現場へと貢献するAI技術の研究・開発を今後も推進していくとしている。