サイバーエージェント、大規模“視覚”言語モデル(VLM)を公開‐日本語に対応

サイバーエージェントは6月13日、同社独自の大規模視覚言語モデル(VLM:Vision Language Model)を公開した。このVMLのパラメータ数は75億で、ベースモデルの一部を米Hugging Faceが運営するWebサイト「Hugging Face Hub」に公開したという。

公開されたモデルは同社独自の日本語大規模言語モデル(LLM)で合成されたデータセットをメインに学習したもので、商用利用可能なオープンソースソフトウェアで提供される。ユーザーは同モデルのチューニングを行うことにより、画像を加味した対話AI(人工知能)などの開発もできる。

近年、米OpenAIが開発した「GPT-4o」を始めとした画像も扱えるLLMが急速な進化を遂げている一方で、既存の公開されているVLMのほとんどは英語を中心に学習されており、日本文化の理解や日本語での会話に強いVLMは少ない状況だという。

日本語VLMの開発に取り組んでいるサイバーエージェントは、同モデルを一般公開することで、より多くの人に日本語の視覚言語モデルに関する最先端の研究開発に取り組んでもらいたい考えだ。