米Googleは10月9日(現地時間)、無料版を含む全ての「Gemini」ユーザーが最新の画像生成AIモデル「Imagen 3」を利用できるようになったと発表した。日本語を含む幅広い言語をプロンプトに使用可能。Geminiで画像生成を依頼すると、デフォルトでImagen 3が選ばれ、無料版でも生成枚数を気にすることなく使用できる。ただし、現時点で人物画像の生成はできない。

Imagen 3は、今年5月にGoogle DeepMindがGoogle I/O 2024で発表した画像生成AIモデルである。高い精度で高品質な画像を生成できることから注目を集めている。

写真、絵画、イラストなど、様々なスタイルの画像生成に対応し、前世代モデルと比較して、髪の毛一本一本や服の質感など、より細部まで表現できるようになった。これにより、生成される画像のリアリティが大幅に向上している。また、光の当たり方や影の表現がより自然になり、立体感や奥行き感が増している。言語モデルの向上でプロンプトの理解力が増し、長く複雑な文章での指示にも、より正確に対応できるようになった。生成速度も向上し、より短時間で高品質な画像を得られる。

Geminiでは、プロンプトごとに1枚の画像が生成される。複数の画像から選択することはできないが、同じ会話内で以前に生成した内容が記憶されるため、例えば猫の画像を生成した後に別の種類の猫に変更するといった修正が可能である。生成された画像のプレビューを確認し、気に入った場合は2048×2048解像度のJPEG形式でダウンロードすることができる。

  • テキストを指定した例

    テキストの扱いも向上しているが、画像生成でコントロールするのは難しい

フォトリアリスティックな風景画、豊かなテクスチャーの油絵、クレイメーションシーンなど、プロンプトで指定するだけで様々な画像を生成でき、クリエイティブな分野から教育、研究まで、幅広い用途での活用が期待されている。唯一の制限は、現時点で人物の画像を生成できないことである。今年初め、Geminiの画像生成で人物の不正確な描写が指摘され、Googleは人物の画像生成を一時停止した。その後、改良した成果を有料版Gemini(Gemini Advanced、Business、Enterprise)に早期アクセスとして試験的に提供し始めた。現在、Geminiに人物の生成が関わるプロンプトを入力すると、「まもなくGemini Advancedで人物の画像生成を利用できるようになります」という案内が表示される。