Microsoftは現地時間2023年3月8日、OpenAIが開発したAI(人工知能)のChatGPTを活用するVisual ChatGPTの概要を、GitHubarXivで公開した。ChatGPTのモデルは言語で学習しているが、Visual Foundation Models(視覚基盤モデル)を自然言語(ChatGPT)から用いることで、画像加工を実現している。

  • Visual ChatGPTのデモンストレーション(すべてGitHubより)

    Visual ChatGPTのデモンストレーション(すべてGitHubより)

開発陣は「特定領域に関する深い知識を提供するVisual Foundation Modelsは、一般的な知識と深い知識の両方を活用して、さまざまなタスクに対応できるAIの構築を目指している」とVisual ChatGPTの目的を説明した。GitHubからGitファイルをcloneし、ビルドに必要なパッケージをインストールすれば、ローカルやクラウドの仮想マシンでビルドできる(詳細はGitHubを参照)。下図はプロジェクトページに掲載中の構造だが、ユーザーはオレンジ部分のテキストを入力すると、画像加工を実行する仕組みだ。

  • Visual ChatGPTのアーキテクチャー

    Visual ChatGPTのアーキテクチャー