Googleは現在生成AI技術を使ってテキストから絵を自動生成する機能の開発に取り組んでおり、Google Geminiにおいても特定の条件下ではテキストの指示から画像の生成ができるようになっている。今回はこうしたGoogle Geminiで利用できる画像生成機能について取り上げる。
連載「Google Geminiの活用方法」のこれまでの回はこちらを参照。
画像を生成する生成AI技術とサービス
生成AIチャットサービスが広く利用できるようになったのち、類似した生成AI技術に基づいてテキスト指示から画像を自動生成するサービスも広く利用できるようになった。すでにいくつかのサービスが存在しているが、無償で簡単に利用できるサービスに限定すると特に次の2つが代表的なものになる。
- Microsoft Copilot(Copilot in Windows、Copilot in Edge など)
- Google Gemini 英語版
OpenAIのChatGPTも画像生成機能を提供しているが、この機能はChatGPT Plusといった有償版でのみ提供されている。ChatGPT Plusといった有償版で提供されている画像生成技術であるDALL・E 3はMicrosoft Copilotで使用できるので、現時点でもっとも扱いやすい無償の画像生成サービスはCopilot in WindowsやCopilot in EdgeといったCopilotということになる。
Googleも画像生成サービスの開発に取り組んでおり、Geminiの一部ではすでに利用できる状態になっている。全面的に利用できる状況ではないが、近い将来無償で利用できるサービスとしてはもっとも期待できるものだ。今回はこの機能について取り上げる。
Google Geminiの日本語版は画像生成未対応
Google Geminiは画像生成への対応を進めているが、日本語版のGoogle Geminiは画像生成に対応していない。次に画像を生成するように指示を出した場合のGoogle Geminiの反応のスクリーンショットを示す。
眠そうな3匹の犬を描いてください。
回答は次のとおりだ。
こちらの言語での Gemini の画像生成機能の向上に取り組んでおります。まもなくご利用いただけるようになる予定です。ご利用可能になりましたら、リリースノートを更新いたします。
執筆時点では日本語版のGoogle GeminiやGemini Advancedで画像生成機能を利用することができない。
Google Geminiの英語版は画像生成に対応
では日本からはまったく画像生成機能を使えないかというとそんなことはなく、プロンプトへの指示を英語にすると画像を生成させることができる。
Please draw three sleepy dogs.
(参考訳:眠そうな3匹の犬を描いてください)
Google Geminiでは英語によるプロンプトへの指示で画像の生成ができていることが分かる。
Gemini Advanedでは一見すると画像が生成されているように見えるが、これは既存のWebページの画像を引用したものであり、生成された画像にはなっていない。
Gemini Advanced 英語版で画像が生成されない?
これまでのアナウンスからもサービスの面からも、Google Geminiで画像生成機能を提供し、有償版のGemini Advancedで画像生成機能を提供しないというのはおかしい。このことをGemini Advancedに聞いてみる。
Gemini Advanced には絵を描く能力は備わっていないのでしょうか?
回答は次のとおりだ。
はい、その通りです。Google Advanced は高度な言語モデルであり、テキストの生成や翻訳、要約など、言語に関するタスクを処理することに特化しています。画像生成の機能は現状備わっておりません。
しかし、Google は画像生成AIの開発にも力を入れており、将来的には Google Advanced のような言語モデルと連携して、テキストから画像を生成する機能などが実現する可能性もあります。
Gemini Advancedには画像生成機能はないと回答している。たしかに、画像生成機能自体はGeminiという名称ではなくGeminiから画像生成機能を呼び出すかたちで機能することになるだろうからこの回答は間違ってはいないと考えられるが、どうもこちらの質問の意図が正しく伝わっていないように見える。もう一度指示を変えて質問してみる。
Google Gemini では絵を描くことができました。Gemini Advancedで絵を描くことができないということは、有償版であるGemini Advanced の方が対応している機能が少ないということでしょうか?
回答は次のとおりだ。
いいえ、そうではありません。GeminiとGemini Advancedは、どちらも同じ大規模言語モデルを基盤としており、テキスト生成能力に関しては同等の性能を持っています。
Geminiで絵を描くことができたのは、おそらくGeminiが画像生成AIと連携していたためと思われます。Gemini Advancedも同様に、画像生成AIと連携することで絵を描くことが可能になります。
Gemini Advancedは、Geminiの機能に加えて、より高度な機能や優先的なサポートを提供する有償プランです。例えば、より長いテキストの生成、より複雑な質問への回答、より専門的な分野での対応などが可能になります。
したがって、Gemini AdvancedはGeminiよりも機能が少ないということはありません。むしろ、Geminiの機能に加えて、より高度な機能を提供する上位版と捉えることができます。
GeminiとGemini Advancedのテキスト生成能力は同等であること、Geminiは画像生成AIと連携しているために画像を描くことができたであろうこと、Gemini AdvancedはGeminiよりも上位版であることなどが回答されている。Googleのこれまでの発表に、Geminiのこの回答を加味しても、やはりGemini Advancedで絵を描くことができないのは腑に落ちない。
画像の描画を指示するテキストをもう少し長く、複雑なものに変えてみる。
Draw three sleepy dogs: one is a Shiba Inu, one is a poodle, and one is a golden retriever. They are sleeping curled up on a blanket.
(参考訳: 眠そうな3匹の犬を描いてください。1匹は柴犬、1匹はプードル、1匹はゴールデンレトリバーで、毛布の上で丸くなって眠っているようにしてください)
今度はGemini Advancedでも画像を生成することができた。GeminiでもGemini Advancedでもテキスト(英文)を使った画像生成の指示が通ることが分かった。指示するテキストが短いと画像を生成してくれないのか、そのあたりのしきい値がどこにあるのかユーザーが知る方法はないが、画像の生成ができることは確認できた。
日本語対応はこれから
Copilot in WindowsやCopilot in Edgeでは日本語による指示で画像を生成させることができる。しかし、その操作は日本語に対応しているというよりは、一旦英語に翻訳してから画像生成サービスに指示を出して画像を生成させているようにみえる。実際、プロンプトの指示に日本語を記載するように含めても、まともな日本語が記載された画像は生成されてこない。基本的に日本語に対応していないのだ。
つまり、状況としてはMicrosoft CopilotもGoogle Geminiも画像生成に関しては英語しか対応しておらず、日本語など他の言語を含む画像の生成はできない状況にあるということになる(そういうサービスもあるのだが、最初に取り上げた無償で簡単に使用できる生成AIチャットサービスにおいては、という条件下において)。
Googleは明確に日本語での指示に対して画像の生成を行っていないので、将来的に日本語に対応したときには画像に日本語が含められるようになる可能性がある。これが実現した場合にはOpenAIのDALL・E 3が実現していない日本語対応を実現することになる可能性があるということだ。
生成する画像に日本語を含めることができないことから、現在のGeminiやCopilotの画像生成機能の日本における用途は限定的になっていると考えられる。しかし、今後発展が期待できる分野であり、今から効率の良い使い方を模索しておくことには意味があるだろう。