Stability AI、商用利用できる日本語画像言語モデルを公開

画像生成AI（人工知能）サービスを手掛ける英Stability AIの日本法人Stability AI Japanは11月13日、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしたことを発表した。

Japanese Stable VLMは、入力した画像に対して文字で説明を生成できる画像キャプショニング機能に加え、画像についてのユーザーの質問に回答することもできる。

出力キャプションで使ってほしい単語を入力することが可能な「タグ条件付きキャプショニング」機能

同社によると、8月に発表された研究目的に作られた日本語画像言語モデル「Japanese InstructBLIP Alpha」と同等レベルの性能を達成しているという。また、同サービスではなかった出力キャプションで使ってほしい単語を入力することができる「タグ条件付きキャプショニング」機能なども備わっている。

Japanese Stable VLMを活用することで、チャット形式で画像について応答できるほか、動画のフレームを抜き取ることで、動画キャプショニングやリアルタイム動画の質問応答ができる。