画像や動画、音声などの複数のコンテンツを入出力できる汎用性を持った生成AIは、「マルチモーダル基盤モデル」と呼ばれ、さまざまな可能性を持っていることから大きな注目を集めている。
こうした状況を踏まえ、Dataikuが7月19日に開催した技術カンファレンス「EVERYDAY AI SUMMIT TOKYO」では、生成AIや今後のAI活用などをテーマにした講演が多数実施された。事例講演「マルチモーダル生成AIの利活用と可能性」に登壇したのは、三菱電機 DXイノベーションセンター 主席研究員博士(情報科学)澤田友哉氏だ。同氏は、生成AIの基礎と今に至るまでの歴史について解説した上で、三菱電機における実際の業務での活用事例を紹介した。
生成AI活用、今のトレンドは?
登壇した澤田氏は、まず生成AIの位置付けについて説明した。生成AIは2017年頃から発展した深層学習技術の1つであり、膨大なデータを学習し新しいデータを生成する能力を持つ。人工知能(AI)、機械学習(ML:Machine Learning)、深層学習(DL:Deep Learning)の発展を経て、現在の生成AIに至ったという歴史的背景がある。
総務省が公表する「情報通信白書令和6年版」によると、生成AIの市場はヘルスケアや金融分野で特に成長が見込まれている。こうした人に根差したデータを多く持つ業界においては、今後さらなる発展が期待されるという。
生成AIモデルの特徴として、澤田氏は、大規模なニューラルネットワークで構成された「Transformer」という仕組みを用いていることを挙げる。Transformerは、パラメーター数が増大するほど性能が向上するため、人間をしのぐ性能を獲得しつつある一方で、汎化性能を持つほど独自モデルの学習には莫大なコストがかかる。こうしたことから、現在は大手ベンダーのモデルを利用し、RAG(Retrieval-Augmented Generation:検索拡張生成)やプロンプトエンジニアリングを用いて導入・運用コストを抑えつつ、自社に合わせるのが主流だという。
現在のAI技術の目指す方向性
続けて澤田氏は、2010年代のDLの台頭から、2014年のGAN(Generative Adversarial Network:敵対的生成ネットワーク)の登場、2017年のTransformerの提案を経て、現在のマルチモーダル基盤モデルに至る歴史を紹介した。Google Geminiをはじめとする最新のモデルは、テキストだけでなく画像、音声、映像など複数のモダリティを扱えるようになってきている。
「生成AIは、自らデータを作り出す能力を持っている。作り出すデータの形式は画像、音声、映像、テキスト、さらにはセンサー情報など、多岐にわたる」と澤田氏は説明する。
「従来のAIシステムでは、これらのモダリティを個別に処理して判断を下すことが一般的でした。しかし、現在のAIに期待されているのは、これらの多様なモダリティを統合的に扱い、単一のモデルでさまざまな問題に対処できる能力です」(澤田氏)
つまり、1つのAIモデルが異なる種類のデータを入力として受け取り、複数の課題を解決できるようになることが、現在のAI技術の目指す方向性と言える。
三菱電機におけるマルチモーダル生成AIの活用事例
では、三菱電機では生成AIをどのように活用しているのだろうか。澤田氏は、同社における生成AIの活用事例として次の4つを紹介した。
1. パワー半導体のスペック情報比較
三菱電機では、Dataikuのプラットフォームを利用し、公開されている自社・他社のパワー半導体スペックシートのPDFから自動で比較シートを作成するシステムを構築した。従来、他社情報のサーベイは人手で行っていたと言うが、同システムでは、マルチモーダルAIとしてGeminiを採用し、PDFに含まれる表や図面から耐電圧・耐熱温度、サイズなどの情報のテキストを抽出してJSONフォーマットで出力。プロンプトエンジニアリングを駆使することで、300製品に対する2248の数値を図表から求めるタスクにおいて、98%の成功率を達成したという。
2. 顧客との議事録からのニーズ抽出
2つ目は、営業活動のなかで蓄積された顧客との議事録や動画から、特定のキーワードに関する顧客のニーズや課題を抽出するシステムだ。「曖昧な情報検索が得意」という生成AIの特徴を活用し、大量の情報から効率的に必要な情報を取り出すことができる。澤田氏によれば、現在は、RAGを使用して議事録などを基に生成AIに事業企画を生成させるトライアルを進めているところだ。
3. 画像認識による情報抽出
3つ目は、マルチモーダル生成AIを用いた画像認識システムである。写真や衛星画像から指定された対象(森林、建物、海など)を検出し、視覚化するというもので、災害時の情報収集や、製品の簡易的な外観検査などへの応用が期待される。「Dataiku Webapps」を使って構築し、AIモデルには「CLIPSeg」を採用した。
4. IoTと生成AIを活用した空調制御
ソラコムと松尾研究所による研究プロジェクト「IoT x GenAI Lab」との共同実証実験では、Dataikuのサポートを受けながら、IoTセンサーで取得した照度や温度などのオフィス環境データを基に生成AIが最適な空調機器設定を予測するシステムを開発した。1カ月半の実験期間で、電力消費量を47.92%削減し、オフィス勤務者の快適性も向上させたという。
共通の課題は技術面だけではない
「最新の基盤モデルは驚異的な汎用能力を持ち、特別な学習をせずともある程度の問題解決が可能になっている」と澤田氏は語る。この能力がAI導入のコストを下げ、AIの民主化を推進しているというわけだ。
「Dataikuのようなプラットフォームを活用することで、マルチモーダル生成AIを簡単に利用でき、企業は自社の課題に合わせた生成AIソリューションを効率的に開発・導入できます」(澤田氏)
また、生成AIに関しては、技術面だけなく、組織編成などについても共通の課題となることが多い。澤田氏は、「(プラットフォーマーによる)ユーザー会などへの参加を通じ、知見を共有することが重要」だと強調した。
生成AIの急速な進化と普及により、企業はこれまで解決が困難だった課題に新たなアプローチを見いだしつつある。三菱電機の事例は、マルチモーダル生成AIがさまざまな業務領域で実用的な価値を生み出せることを示していると言えるだろう。