まるで人間と会話しているかのような質の高い回答を返す対話型AI「ChatGPT」。その開発元であるOpenAIは同時期に、テキストから画像を生成することができる「DALL·E」も公開した。本稿執筆時点で提供されている最新版は「DALL·E 3」だ。
本連載では、このDALL·E 3を使った画像生成について、サンプルを交えながら解説していく。
自然言語による質の高いやり取りを実現したChatGPT
2022年11月、OpenAIはChatGPTのプロトタイプを一般公開した。ご存じの通り、インターネット上の大量のテキストデータを用いて学習した内容をベースに、対話形式で質問に応えてくれるAIチャットボットだ。まるで人間の言葉を理解しているかのような自然なやり取りが可能なことで、注目を集めた。
それ以前から「デジタルアシスタント」というジャンルで、似たようなサービスは存在している。Amazonの「Alexa」やAppleの「Siri」、Microsoftの「Cortana」、Googleの「Googleアシスタント」などだ。確かにいずれも、テキストや音声による簡単な命令を理解し、機能してくれる。
しかし、ChatGPTの精度はこれらとはレベルが違った。より複雑な自然言語を理解し、長文かつ自然な回答を返してくれる。その挙動を見て、映画「スターウォーズ」に出てくるプロトコルドロイド「C-3PO」や映画「アイアンマン」に出てくる自律型人工知能システム「J.A.R.V.I.S」を連想した方も多かったんじゃないかと思う。ChatGPTはC-3POやJ.A.R.V.I.Sほど自律的には動かないが、会話の反応はこれを想起させるものだった。
テキストから画像を生成するDALL·E
ChatGPTを公開したOpenAIは、同時期にテキストから画像を生成するモデルについても発表した。こちらも多くのユーザーに衝撃を与えた。次の画像をご覧いただきたい。
上記の画像は、OpenAIが提供するサービス「ChatGPT Plus」経由で次のように生成を指示したものだ。
最初の画像は「満月を背景に日本の神社で舞を踊るかんなぎ。生成する画像は横長で。」という指示で生成されている。2つ目の画像は「満月を背景に日本の神社で舞を踊るかんなぎ。アニメ風。生成する画像は横長で。」という指示によって生成されたものだ。