博報堂テクノロジーズは3月12日、日本語に特化した画像とテキストの理解を深めるための視覚言語事前学習(Vision-Language Pre-training : VLP)モデルを開発し、無償公開(ただし非商用に限る)したことを発表した。

なお、開発されたVLPモデルの技術的詳細や応用例については、博報堂テクノロジーズの公式Hugging Faceページを通じて提供される。

開発されたVLPモデル

多くのVLP技術は、英語中心の開発により、日本語データへの対応が不十分とされてきた。博報堂テクノロジーズは、画像エンコーダの改良と訓練データ量の増加、言語エンコーダの能力強化を通じ、日本語特化VLPモデルを開発することに成功した。

今回開発されたモデルは、画像検索、テキストからの画像生成、画像のタグ付け、画像に対する質問応答など、多岐にわたる応用が可能となっている。例えば「桜の花が満開の公園」など具体的なシーンを日本語で検索した際、関連度の高い画像を正確に見つけ出すことが可能となる。

同社は、今回のモデル公開により、研究コミュニティやAI技術の開発者に対し、より高度な日本語の視覚言語理解の基盤を提供したい考え。加えて、今後も継続的な技術革新を通じて、研究コミュニティへの貢献を強化していくとしている。