画像生成の未来を体験しよう! DALL·E 3の世界(3) 代表的なサービスやアプリケーション

生成AIを使って自然言語から画像を生成するサービスやソフトウエアはいくつか存在している。この数年で登場した新しいサービスが多い。今回はこうした生成AI技術を使った画像生成サービスやソフトウエアの中でも、特に人気のあるものをピックアップして紹介する。

OpenAIの「DALL·E 3」

まずは、本連載の主題にもなっている「DALL·E 3」だ。ChatGPTを開発したOpenAIが提供する最新の画像生成モデルであり、従来のモデルよりも入力された文章の内容に忠実に画像を生成できるようになったと評価されている。

OpenAIの画像生成技術について、ユーザーの認知度を高めたきっかけは、2021年1月に発表された「DALL·E」だろう。このモデルは当時のChatGPTで使われていたGPT-3 (120億パラメータバージョン)でトレーニングされたもので、自然言語から“それらしい画像”を生成できることを世界中のユーザーが知ることになった。

DALL·Eでは、さまざまなものを擬人化させたり、まるで無関係なものを組み合わせてユニークな画像を生成したりすることができる点が特徴だ。そのため、生成される画像は「現実」という観点から見ると誤ったものもある。

OpenAIは2022年、DALL·Eの4倍の解像度で、よりリアルかつ正確な画像を生成できる「DALL·E 2」の提供を開始。そして2023年9月には、本稿執筆時点で最新版となる「DALL·E 3」を発表した。前バージョンよりも、指定された自然言語から多くのニュアンスを読み取ることで、アイデアをより正確に画像に反映できるようになったとされている。

ChatGPT GPT4/DALL·E 3で「DALL·E 3の開発を行っている牛のプログラマの絵を書いてください。アニメ調で。ちょっとコミカルな感じでお願いします。絵は横長で作成してください。」で生成した画像のサンプル

OpenAIのDALL·E 3は有償版の「ChatGPT Plus」や「ChatGPT Enterprise」から利用できる。OpenAIは、DALL·E 3で生成した画像の権利をユーザーに譲るとし、商用利用も可能だとしている。現時点で最もシンプルに扱えるサービスの一つだ。

Stability AIの「Stable Diffusion」

Stability AIが開発した画像生成ソフトウエアが「Stable Diffusion」だ。2022年にオープンソースソフトウエア（OSS）として公開された。テキストから画像を生成できるほか、画像から画像へ変換を行うこともできる。

Stable DiffusionはStability AIが開発した代表的なモデルの一つであり、GitHubにソースコードが公開されている。公開データの中には、オリジナルのStable Diffusionモデルやその派生物、トレーニング済みの最新モデル、すでにさまざまなデータセットで微調整されたモデルなどがある。

Stability AIは2022年11月、「Stable Diffusion 2.0」を公開しており、同機能を取り込んだアプリケーションもすでに存在している。

Stable Diffusion Onlineで「Please draw a picture of a cow programmer developing DALL-E 3. In a cartoon style. Please make it a bit comical. Please create the drawing in landscape format.」で画像を生成

Stable Diffusion Onlineで「Please draw a picture of a cow programmer developing DALL-E 3. In a cartoon style. Please make it a bit comical. Please create the drawing in landscape format.」で生成した画像のサンプル

Stable Diffusionでは、もともと画像の生成に関しては英語で指示する必要があった。だが、2023年11月には日本語を直接扱うことができるようになり、日本語特有の表現を認識するだけでなく、日本の伝統・文化・アート・現代的なものまでを反映した日本語版「Japanese Stable Diffusion XL (JSDXL)」が発表された。

日本語を使って生成AIに画像を生成させる場合、内部的に翻訳ツールを使うことで日本語から英語に指示を変換して使うケースがある。しかし、JSDXLでは日本語で学習を行わせているため、より自然に日本のニーズにあった画像を生成することができると考えられている。また、生成AIでは生成する画像に正しい日本語を書くことができず、不思議な文字を作り出すことが多かったが、そうした点を加味したモデルも用意されている。

現在公開されている画像生成サービスの中では、ソフトウエア自体がOSSとして公開されているという点が目を引く。コンピューティングリソースの利用制限がかかるクラウド版と比べ、自前のコンピュータで制限を気にすることなく使えるという利点もある。ただし、利用するにあたってはある程度コーディングやデプロイといったプログラミングスキルが必要になる。

Microsoftの「Bing Image Creator」

Microsoftは、生成AI技術を使って自然言語から画像を生成する機能を「Bing Image Creator」として提供している。この機能はMicrosoft Bingに組み込まれており、Microsoft BingのWebページの「チャット」経由で画像の生成を指示するできるほか、Microsoft Edgeの「Copilot」機能経由や、Microsoft Edgeサイドバーの「Image Creator」経由で生成を指示することができる。

Bing Image CreatorではDALL·E 3を使っているため、OpenAIのDALL·E 3と似ていると考えられる。使用するにはMicrosoftアカウントでのサインインが必要だ。Microsoft Edgeのサイドパネル経由、もしくはMicrosoft BingのWebページ経由で画像を生成することになる。

MicrosoftはOpenAIに対して繰り返し重要な出資を行っているが、財政的な支援者としてだけでなく、技術的なパートナーシップも確立している。現在Microsoftはさまざまな製品やサービスに対して生成AIの導入を進めており、その背後にはOpenAIと共に開発した技術があると考えられている。

Bing Image Creatorを使って生成した画像の商用利用に関しては、DALL·E 3をそのまま使った場合に比べると説明が曖昧でよくわからないところがある。商用利用を前提とする場合は、Microsoftに相談するか、同じ技術を使っているOpenAIのDALL·E 3を使う方が無難なように見える。

Microsoft EdgeのImage Creatorで「DALL·E 3の開発を行っている牛のプログラマの絵を書いてください。アニメ調で。ちょっとコミカルな感じでお願いします。絵は横長で作成してください。」で生成させた画像のサンプル（その1）

Microsoft EdgeのImage Creatorで「DALL·E 3の開発を行っている牛のプログラマの絵を書いてください。アニメ調で。ちょっとコミカルな感じでお願いします。絵は横長で作成してください。」で生成させた画像のサンプル（その2）

利用している技術がOpenAIと同じであることから、自分の目的とする画像を生成するためにプロンプトに入力すべき自然言語の書き方はDALL·E 3を使う場合と似ていると考えられる。

なお、Microsoftは生成AIを利用した機能やサービスを「Copilot」というブランド名の下に統一する取り組みを始めている。そのため、Image Creatorも名称が変更されたり、Copilotの一部の機能としてほかのサービスに統合されたりしていく可能性もある。この辺りは早いペースで状況が変わっているので、今後の動向に注目しておきたい。

クラウドサービスとオンプレミス

DALL·E 3やBing Image Creatorは、いずれもクラウドベースのサービスだ。ユーザーはサブスクリプションの支払いや所定のアカウントでのサインインといった条件をクリアすれば、Webブラウザ経由でサービスを利用することができ、画像の生成を行える。

手軽に使い始められるクラウドサービスがある一方、自前で強力なコンピューティングリソースを備えたPCを調達して日々大量の画像を生成させる、といった使い方をしたい場合、Stable Diffusionのようなソフトウエアをインストールして使う方法が適している。

当然、実用的な速度で画像を生成するには相応のスペックのグラフィックボードやビデオメモリが搭載されたPCを調達する必要がある。インストールやデプロイ、関連するプラグインの導入なども含めると、それなりに技術力も要求される。

アプリケーションやWebアプリの画像生成機能

既存のアプリケーションやWebアプリ、モバイルアプリなどに生成AIを導入することで、自然言語による画像生成機能を提供し始めたものも増えている。例えば、画像編集アプリケーションの機能の一つとして、生成AIによる画像生成や画像変換などの機能を備えるといった具合だ。こうした機能追加は、今後も増加することが予測されている。