ガートナージャパン(Gartner)は9月10日、2027年までに生成AIソリューションの40%がテキスト、画像、音声、動画など複数のデータ形式を同時に処理できる「マルチモーダル」になるとの見解を発表した。これは2023年の1%からの大幅な増加となり、AIと人間のインタラクションが強化され、生成AIの差別化につながるとしている。
マルチモーダル生成AIは、Gartnerの「Hype Cycle for Generative AI, 2024(生成AIのハイプ・サイクル:2024年)」において、オープンソースの大規模言語モデル(LLM)とともに、早期に採用することで競争優位性を高め、市場投入までの時間を短縮する可能性がある技術として特定されており、今後5年以内に組織に大きな影響を与える可能性があるとしている。
また、Gartnerは、今後10年以内に主流となる可能性が最も高い生成AIイノベーションとして、ドメイン固有の生成AIモデルと自律エージェントも2つを挙げている。
マルチモーダル生成AIは、通常では実現不可能な新機能を実現し、エンタープライズ・アプリケーションに広範な影響を与えるという。この影響は特定の業界やユースケースに限定されず、AIと人間のあらゆる接点に適用可能。現在、多くのマルチモーダル・モデルは2~3つのモードに限定されているが、今後数年でさらに多くのモードが組み込まれるようになるとGartnerは予想する。
オープンソースのLLMは、商用アクセスを広げ、開発者が特定のタスクやユースケース向けにモデルを最適化することで、生成AIの導入による企業価値を加速させるディープ・ラーニングのファウンデーション・モデルだという。さらに、モデルの改善と価値向上を目指す企業や学術機関、研究機関の開発者コミュニティにアクセスできるようにし、協力して取り組むことが可能になるということだ。
ドメイン固有の生成AIモデルは、特定の業界やビジネスニーズに最適化され、精度、セキュリティ、プライバシーを向上させながら、コンテキストに沿った回答を提供できるようにするという。これにより、汎用モデルほど高度なプロンプトエンジニアリングが不要になり、特化したトレーニングによって誤った回答のリスクを低減できるとしている。
自律エージェントは、人間の介入なしで目標を達成する複合システムで、さまざまなAI技術を用いて環境におけるパターンを識別し、意思決定を行い、一連のアクションを実行してアウトプットを生成する。環境を学習を続けることで性能が向上し、より複雑なタスクにも対応できる可能性があるということだ。