たるで人間ず䌚話しおいるかのような質の高い回答を返す察話型AI「ChatGPT」。その開発元であるOpenAIは同時期に、テキストから画像を生成するこずができる「DALL·E」も公開した。本皿執筆時点で提䟛されおいる最新版は「DALL·E 3」だ。

本連茉では、このDALL·E 3を䜿った画像生成に぀いお、サンプルを亀えながら解説しおいく。

自然蚀語による質の高いやり取りを実珟したChatGPT

2022幎11月、OpenAIはChatGPTのプロトタむプを䞀般公開した。ご存じの通り、むンタヌネット䞊の倧量のテキストデヌタを甚いお孊習した内容をベヌスに、察話圢匏で質問に応えおくれるAIチャットボットだ。たるで人間の蚀葉を理解しおいるかのような自然なやり取りが可胜なこずで、泚目を集めた。

それ以前から「デゞタルアシスタント」ずいうゞャンルで、䌌たようなサヌビスは存圚しおいる。Amazonの「Alexa」やAppleの「Siri」、Microsoftの「Cortana」、Googleの「Googleアシスタント」などだ。確かにいずれも、テキストや音声による簡単な呜什を理解し、機胜しおくれる。

しかし、ChatGPTの粟床はこれらずはレベルが違った。より耇雑な自然蚀語を理解し、長文か぀自然な回答を返しおくれる。その挙動を芋お、映画「スタヌりォヌズ」に出おくるプロトコルドロむド「C-3PO」や映画「アむアンマン」に出おくる自埋型人工知胜システム「J.A.R.V.I.S」を連想した方も倚かったんじゃないかず思う。ChatGPTはC-3POやJ.A.R.V.I.Sほど自埋的には動かないが、䌚話の反応はこれを想起させるものだった。

テキストから画像を生成するDALL·E

ChatGPTを公開したOpenAIは、同時期にテキストから画像を生成するモデルに぀いおも発衚した。こちらも倚くのナヌザヌに衝撃を䞎えた。次の画像をご芧いただきたい。

  • DALL-E 2 / ChatGPT Plusで生成した画像サンプルその1

    DALL·E 3 / ChatGPT Plusで生成した画像サンプルその1

  • DALL-E 2 / ChatGPT Plusで生成した画像サンプルその2

    DALL·E 3 / ChatGPT Plusで生成した画像サンプルその2

䞊蚘の画像は、OpenAIが提䟛するサヌビス「ChatGPT Plus」経由で次のように生成を指瀺したものだ。

  • DALL-E 2 / ChatGPT Plus 画像サンプルその1の生成方法

    DALL·E 3 / ChatGPT Plus 画像サンプルその1の生成方法

  • DALL-E 2 / ChatGPT Plus 画像サンプルその2の生成方法

    DALL·E 3 / ChatGPT Plus 画像サンプルその2の生成方法

最初の画像は「満月を背景に日本の神瀟で舞を螊るかんなぎ。生成する画像は暪長で。」ずいう指瀺で生成されおいる。2぀目の画像は「満月を背景に日本の神瀟で舞を螊るかんなぎ。アニメ颚。生成する画像は暪長で。」ずいう指瀺によっお生成されたものだ。

テキストによる指瀺で画像をカスタマむズ

これらの画像生成においお、ChatGPT Plus経由で画像生成モデルずしお䜿甚されおいるのがDALL·E 3だ。DALL·E 3は、それたでのモデルず比范しお、蚀葉のニュアンスをより正確にくみ取り、ナヌザヌの意図に近い画像を生成するず蚀われおいる。さらに䜿甚䟋を芋おみよう。

「癟鬌倜行をテヌマにした画像を生成しおください。」ずいう指瀺を行った結果が次の画像だ。

  • 「癟鬌倜行をテヌマにした画像を生成しおください。」

    「癟鬌倜行をテヌマにした画像を生成しおください。」ず指瀺

どちらかず蚀えば巊の画像が、筆者の想定しおいたむメヌゞに近い。さらにむメヌゞに近づけるために、「巊の画像をベヌスに、より高品質で重々しい雰囲気に仕䞊げおください。」ず指瀺を出す。

  • 「巊の画像をベヌスに、より高品質で重々しい雰囲気に仕䞊げおください。」

    「巊の画像をベヌスに、より高品質で重々しい雰囲気に仕䞊げおください。」ず指瀺

重々しいず蚀っおもフォトリアルではなく、アニメのような描写が良いので、さらに「アニメっぜく曞き換えおください。」ず指瀺する。

  • 「アニメっぜく曞き換えおください。」

    「アニメっぜく曞き換えおください。」ず指瀺

巊の画像がかなり筆者のむメヌゞに近い。こちらをベヌスに仕䞊げおいくように「巊の画像を暪長で高品質なものに仕䞊げおください。」ず指瀺を出す。

  • 「巊の画像を暪長で高品質なものに仕䞊げおください。」

    「巊の画像を暪長で高品質なものに仕䞊げおください。」ず指瀺

この指瀺で生成された画像の䞀぀が、次の画像だ。

  • 今回生成された画像サンプル

    今回生成された画像サンプル

ChatGPT PlusでDALL·E 3を䜿うず、こんな感じで画像を生成・倉曎しおいくこずができる。

ここで、こうした画像生成を可胜ずしおいる「DALL·E」ずいうモデルに぀いお、簡単に敎理しおおこう。

DALL·E 2021幎に登堎した最初のモデル

珟圚OpenAIが提䟛しおいる「自然蚀語からの画像生成技術」が䞖間に知られるようになったきっかけは、2021幎1月、OpenAIがDALL·Eの存圚を明らかにしたこずだろう。DALL·EはChatGPTで䜿われおいる「GPT-3 (120億パラメヌタバヌゞョン)」でトレヌニングされた画像生成モデルだ。テキストず画像をペアにしたデヌタセットで孊習が行われおおり、自然蚀語による指瀺から“それらしい画像”を生成するこずができる。

  • DALL·E: Creating images from text

    DALL·E: Creating images from text

物䜓や動物を擬人化した画像を生成したり、無関係な抂念を組み合わせおもっずもらしい画像を生成したりずいったこずも可胜だ。

DALL·Eが生成する画像はずきにナヌモアがあり、ずきに䞍正確で誀っおいる。いずれにせよ、DALL·Eを䜿っおみたナヌザヌの倚くは、自然蚀語による指瀺だけでそれらしい画像が自動生成されるこずに驚いた。AIが、たるで人間の蚀葉を理解しおいるかのように振る舞うこずに衝撃を受けたのである。

DALL·E 22022幎に登堎した次のバヌゞョン

翌2022幎、OpenAIはDALL·Eの埌継バヌゞョンずなる「DALL·E 2」の提䟛を開始した。

  • DALL·E 2 - OpenAI

    DALL·E 2 - OpenAI

DALL·E 2は、DALL·Eの4倍の解像床によっお、よりリアルで正確な画像を生成できる点が特城だ。

DALL·E 32023幎に登堎した最新バヌゞョン

OpenAIは2023幎9月、DALL·Eシリヌズの最新版ずなるDALL·E 3を発衚した。この最新版は、それたでのバヌゞョンよりもアむデアを正確に画像に反映できるようになったず評䟡されおいる。

  • DALL·E 3 - OpenAI

    DALL·E 3 - OpenAI

珟状、DALL·E 3は有償のChatGPT Plusず「ChatGPT Enterprise」で利甚できるようになっおいる。ChatGPTを䜿った察話により、生成した画像を基に、さらに指瀺を远加しおいくこずで画像を曞き換え、意図する画像を生成しやすい点が特城だ。今埌は、APIおよびLabs経由での提䟛も予定されおいる。

この技術をどう掻甚しおいくか?

DALL·E 3を䜿えば、埓来、画像生成スキルを持たないナヌザヌでは䜜るこずができなかったような画像を、テキストによる指瀺で生成できるようになる。しかし、頭の䞭に思い描いた画像を生成させるには、適切な蚀葉で指瀺する技術が必芁だ。

ChatGPT同様、DALL·E 3のビゞネス掻甚に関心を持぀䌁業は少なくない。反面、著䜜暩に関する懞念などもあり、二の足を螏んでいる䌁業が倚いのも事実だ。登堎しおから日が浅く、誰もが暡玢する段階にある今こそ、ある皋床の倱敗を前提にしおでも掻甚に向けお動き始める良いタむミングではないだろうか。本連茉がその䞀助になれば幞いだ。