前回、生成AIには著作権という部分において現在進行系で理解や解釈、法整備などが進んでいる段階であることを説明した。今回は、生成AIが作り出す画像の注意点として理解しておくべき特徴について取り上げる。
マウンテンバイクを描いてみる
以下に示すのは、「ChatGPT Plus(ChatGPT4、DALL・E 3)」で「エベレストのような山の頂きに颯爽とたたずむマウンテンバイクを描画してください。画像は横長でお願いします。」というプロンプト入力で生成した画像だ。
実にそれっぽい画像が生成されている。マウンテンバイクをもっと詳しく見たいので、「マウンテンバイクは画面いっぱいに描画してください。」という指示を追加する。結果として、ここでは次のような画像が得られた。これもまた、それらしく仕上がっている。
しかし、画像を詳しく見てみると、いくつかの違和感に気が付く。このマウンテンバイクはかなりユニークは作りになっており、実際には走らないのではないかということだ。
不思議なポイントを整理すると次のようになる。
- ボトムブラケットではなく、サドルの下50cm~60cmほどの位置のフレームにクランクとペダルがついているように見える。チェーンリングとチェーンはついていない。ペダルもペダルの中央ではなく端が接続されている。さらにフレームの内側へ向かってペダルが付いているため、1回転することはできず、動くとしても180度くらいの可動域しかない
- フレームに直接接続されたクランクとペダルは、本来はリアのフレームに接続されたサスペンション機構を意図している可能性がある。雰囲気的に真似をしているが、サスペンション機構と考えるには稼働する可能性が低く、やはりクランクとペダルが付いているように見える
- チェーンリングがおかしな歪み方をしている
- チェーンがスプロケット(リアのギア)に向かっているようだが、角度からするとスプロケットから外れているように見える
ほかにも疑わしい部分がいくつかあるが、特に上記部分は自転車として動くには致命的な間違いであるように見える。
前回、DALL・E 3の特徴として「テキストによる説明からそれらしい画像を生成できる」と説明したが、この「それらしい画像を生成できる」というところがポイントだ。現実にはあり得ないコトやモノを画像として生成する用途には素晴らしい成果を発揮し、ときに人間の発想に新しい視点を与えてくれる。一方、現実的で物理的に正しい機構を描くような用途には向いていない。
不思議な機械時計とエンジン
この不思議さは、機械仕掛けのものや物理法則に正確に従う必要があるものなどにも現れる。例えば、機械時計を考えてみよう。「機械時計の中身を仕組みが分かるように書いてください。画像は横長でお願いします」で画像を生成すると次のようになる。
一見すると、すごくそれっぽい画像だ。しかし、透けて見えるその中身をよく見ていただきたい。
機械時計は歯車が重要な構成パーツになるが、その歯車をよく見てみると不思議なことになっている。まず、構造上絶対に動かないだろうと思われる歯車があったり、歯車の歯がどことも噛み合っていなかったりするものが多数見られる。そして、歯車の歯もかなり雑に削り出されたような作りだったり、動き出したら数分で欠けそうだったりする部分もある。それらしくは見えるのだが、機械時計としては機能しない可能性が高いだろう。
今度は、エンジンの画像生成で試してみよう。「V型6気筒エンジンの内部構造を書いてください。画像は横長でお願いします。」という指定で画像を生成すると次のようになる。
これもすごくそれらしい画像になっている。ぱっと見た感じは、エンジンの内部構造が見える模型や図と似ている。しかしながら、よく見てみるとそもそもV型6気筒エンジンではなくV型8気筒エンジンになっているように見える。何のために用意されているのかわからない部品や、歪んだ歯車もあり、もしこれが動くとしたら未知の技術を使っているのではないかと思う。
このように、現在提供されているDALL・E 3は、物理的に正しいものを描画する用途には向いていないのである。
正しい文字の描画は難しい
生成AIによる画像生成で不思議さが生まれるのは、機械を描画するケースだけではない。特に分かりやすいのは「文字」ではないかと思う。DALL・E 3はそれらしい文字は描画するものの、正確な文字は書くことができない。
例えば、「雪降る中の居酒屋を書いてください。店の看板は「マイナビ屋」にしてください。画像は横長でお願いします。」という指定で画像を生成すると次のような画像が生成される。
それっぽい画像が生成されているものの、看板や提灯に書かれている文字はよく見ると何と書いてあるかわからない。漢字のように見えるが読むことは難しい。文字風ではあるものの、指定した文字ではないし、正確な文字でもない。
ファンタジーな世界観の画像生成は得意
物理的な正確さや、現実的である必要性があまりない場合、DALL・E 3は優れた働きをしてくれる。例えば、「秋の神社で、集めた落ち葉で栗を焼いている狸と狐を書いてください。アニメ風で。画像は横長でお願いします。」と指定すると、次のような画像が生成される。
あまりにも栗を落ち葉の上に載せすぎではないかという疑問は湧いてくるが、そもそも狸と狐が栗を焼くような世界観であり、この絵に特に違和感を感じることはないだろう。
今度は「ビールを飲んで酔っ払っていい気分になっている竜を書いてください。アニメ風で。画像は横長でお願いします。」と指定すると、次のような画像が生成される。
こちらも特に違和感はないように見える。こんな感じのイラストが描かれたステッカーなどもありそうだ。
このように、DALL・E 3が生成する画像はあくまでも“それらしい”画像であるということをよく認識しておくことが必要だ。
* * *
今回説明した内容は、あくまでも現在のDALL・E 3の特徴であることに留意していただきたい。学習させるデータを変えることで、機械的により正確なものをレンダリングできるようになる可能性はあるし、「文字」に正確に言語を反映させる取り組みはすでに存在している。
DALL・E 3のような画像生成AIは、今後、さまざまな分野でアプリケーションやサービスに取り込まれ、活用が進んでいくだろう。生成AI関連の技術は急ピッチで開発が進んでおり、短期間でアップグレードされている。そのスピード感に圧倒されることなく、まずは今できることを調べ、特徴をつかみ、試してみることをお薦めしたい。