生成AIの画像生成機能を使ってロゴを作成する方法を以前Copilotをベースにしてまとめた。今回はそのときと同じようなプロンプト指示をGoogle Geminiに対して行い、どのような違いが現れるかを見ていく。基本的に同じ世代の技術であり、できることは似ている。
連載「Google Geminiの活用方法」のこれまでの回はこちらを参照。
生成AIで画像を描く
生成AI技術を使ってテキストから画像を生成した場合、その著作権は誰が持つことになるのか、生成した画像の利用に関してどのような法的な状態になるのかが気になるところだ。そのあたりは以前「【連載】画像生成の未来を体験しよう! DALL·E 3の世界 | TECH+(テックプラス)」にまとめたので、興味がある方はご覧いただければと思う。
具体的にどのようなプロンプトで比較的思い通りの画像が生成できるかは「【連載】Copilot in Windowsを使ってみよう | TECH+(テックプラス)」で取り上げた。
今回は特に次の記事で取り上げた指示をGoogle Geminiで実行し、どのような振る舞いを見せるのかを取り上げる。
世代的に同じ技術であり生成される結果、あるいは生成できる条件にそれほど大きな違いはないが、執筆時点ではGoogle Geminiを使う場合には英語で指示するというフェーズが発生する。そのあたりもカバーしながら方法を紹介しよう。
画像生成のポイントは細かく指定すること
OpenAI DALL・E 3もGeminiから使われる画像生成機能も、現在想定されている主な用途はアイデアを膨らませるための使い方だ。生成AIはさまざまな画像を生成することができるが、既存の画像に指示を出して編集するといった使い方はできない。現在の世代の生成AIは基本的に常に新しい画像を生成するように機能する。
このため、目的とする画像を生成するもっとも重要なポイントは、ひとつのプロンプトに全ての指示を書いておくことにある。あとから指定して編集することができないためだ。最初から細かく指定しておくことで、画像の方向性をある程度定めることができる。
前述の記事では最初に以下の指示をプロンプトに出している。
原文:現在開発部で業務の残業時間管理システムとして「時間守護」と呼ばれるシステムを開発しています。残業が特定の従業員に偏らずにだいたいどの従業員にも同じように残業の割当ができるような管理システムです。このシステムの開発に合わせて、システムのロゴを作成する必要があります。残業時間管理システム「時間守護」に合うかっこいいロゴをいくつか提案してください。ロゴには、残業時間をイメージさせるために「時計」を、業務管理をイメージさせるために見守るという意味で「ミミズク」を含めてください。また、小さいサイズでも判別がつくようにシンプルなデザインにしてください。
執筆時点のGoogle Geminiは英語による指示でしか画像を生成することができないので、まず次のように指示を出して翻訳を行ってもらう。
次の文章を日本語から英語に翻訳してください。
現在開発部で業務の残業時間管理システムとして「時間守護」と呼ばれるシステムを開発しています。残業が特定の従業員に偏らずにだいたいどの従業員にも同じように残業の割当ができるような管理システムです。このシステムの開発に合わせて、システムのロゴを作成する必要があります。残業時間管理システム「時間守護」に合うかっこいいロゴをいくつか提案してください。ロゴには、残業時間をイメージさせるために「時計」を、業務管理をイメージさせるために見守るという意味で「ミミズク」を含めてください。また、小さいサイズでも判別がつくようにシンプルなデザインにしてください。
しかし、Google Geminiは翻訳してほしいというこちらの意図を汲み取らず、そのあとの文章を読み取ってロゴの提案を行っている。これは意図したところではないので、「翻訳」をしてほしいということを再度伝える。
違います。指定した日本語の文章を英語に翻訳してほしいんです。
一見すると翻訳されたようだが、後半部分は翻訳するだけにとどまらず提案する内容に変わっており、間違った翻訳になっている。このため、再度「翻訳だけ」をするように指示を出す。
違います。提案してほしいのではなく、指定した日本語の文章をそのまま英語に翻訳だけしてください。
これでやっと翻訳が得られた。ここでは次の英文が生成されている。悪くない翻訳のように思える。
We are currently developing a time management system for overtime work called "Time Guardian" in our development department. It is a management system that allows for the allocation of overtime work to all employees in a fair and equitable manner, without it being concentrated on specific employees. In conjunction with the development of this system, a logo for the system needs to be created. Please provide some proposals for cool logos that match the overtime management system "Time Guardian". The logo should include a "clock" to represent overtime hours and an "owl" to represent business management and vigilance. It should also be simple enough to be recognized even in small sizes.
この翻訳文をそのままプロンプトに指示すると次のようになる。
ロゴを画像としてではなく文章で提案してきている。どうもこの書き方では「ロゴを描く」というアクションが認識されないようだ。このため、先ほどの英文の「Please provide some proposals for cool logos」を「Please draw some cool logos」と書き換えて、明示的に「ロゴを描く」ことを伝えるようにする。書き換えると次のようになる。
We are currently developing a time management system for overtime work called "Time Guardian" in our development department. It is a management system that allows for the allocation of overtime work to all employees in a fair and equitable manner, without it being concentrated on specific employees. In conjunction with the development of this system, a logo for the system needs to be created. Please draw some cool logos that match the overtime management system "Time Guardian". The logo should include a "clock" to represent overtime hours and an "owl" to represent business management and vigilance. It should also be simple enough to be recognized even in small sizes.
書き換えた英文をプロンプトに指示すると次のようになる。
今度はロゴが生成された。特に次のロゴは最初からかなり良い線まで行っているように見える。
生成したロゴの書き換えを指示してみる
次は生成したロゴから書き換えを指示してみる。
生成AIチャットサービスは会話をすることで操作を行う。画像生成も同じであり、会話をしながら画像を生成していくことができる。例えば先に取り上げた記事では生成したロゴに対して次のような指示を出している。
原文: とてもいい感じです。ただ、ロゴとして使うには複雑すぎです。立体感をなくして平面化するとともに、さらにシンプルなデザインにしてください。さらに背景は白にしてください。
先ほどと同じ要領で英語にすると次のようになる。
Overall, it looks great! However, it's a bit too complex to use as a logo. Please simplify the design by removing the 3D effect and making it flatter. Additionally, change the background to white.
このテキストをそのままプロンプトに指定すると次のようになる。
最初に生成された3つのロゴのうち2つはフォトリアルな感じだ。新しく生成された3つのロゴは先程のロゴに比べるとフォトリアル感は減っているものの、ロゴとして扱うにはまだリアルすぎる感じがする。
ロゴとしては最初に生成した3つの画像のうち左上のものが良かったので、これをアップロードしながら画像を編集するように指示を出してみる。
原文:このロゴを白黒に書き換えてください。背景は白にしてください。
翻訳は次のようになる。
Please convert this logo to black and white. The background should be white.
生成されたロゴは上記スクリーンショットのとおりだ。このロゴについてGoogle Geminiは次のように説明している。
I can't modify the image you sent to make it black and white. However, I can generate new images based on your description. Here are some black and white logos for your "Time Guardian" overtime management system, all with a white background:
(参考訳:送信された画像を白黒に変更することはできません。ただし、説明に基づいて新しい画像を生成することはできます。以下は、すべて白い背景を持つ「Time Guardian」残業管理システム用の白黒ロゴの例です)
Google Geminiは素直に「画像を白黒に変更することはできない」という旨を伝えている。OpenAI DALL・E 3はできるように振る舞っているが実はできないので、その点はGeminiの方が素直だと言える。現在無償で利用できる生成AIベースの画像生成では既存の画像の編集はうまく行うことができない。基本的には毎回新しい画像を生成しているという動きになっている。
DALL・E 3やGeminiから呼び出す画像生成機能は同世代
使ってみるとCopilot in WindowsやCopilot in Edgeで使うDALL・E 3ベースの画像生成機能と、Google Geminiから利用できる画像生成機能に基本的にそれほど大きな違いはないように見える。ただし、Google Geminiでは今のところ英語で指示を出す必要があるので、その点はひと手間かかるので面倒ではある。
主にGoogleのサービスを中心に使っているというケースではGoogle Geminiで画像生成を行うことができるというのは知っておいて損はないだろう。どの段階で日本語対応が入るのか分からないが、将来的には日本語からも指示ができるようになるものとみられるので、今からどのようなことができるのかを知っておいてはいかがだろうか。