米OpenAIは3月25日(現地時間)、マルチモーダルな大規模言語モデル「GPT-4o」に統合した画像生成機能を発表した。DALL·Eに代わるChatGPTのデフォルト画像生成機能として、25日より、Plus、Pro、Team、無料プランで提供が始まった。将来的にはAPI経由での利用も可能となる予定である。なお、従来のDALL·Eを利用したい場合は、DALL·E GPTからのアクセスが引き続き可能である。
この画像生成機能は、テキスト、コード、画像といった複数の情報形式を単一のモデルで処理可能とするGPT-4oのマルチモーダル構造を活かしたものであり、OpenAIはネイティブ画像生成と呼んでいる。
DALL·Eは画像生成に特化した独立モデルであり、ChatGPT上ではテキストプロンプトをDALL·Eに転送して画像を生成していた。そのため、GPTは画像の内容を直接理解することはできなかった。
これに対し、GPT-4oではテキストおよび画像の理解と生成が同じモデル内で統合されており、文脈やユーザーの意図を自然に理解した上で画像を生成できる。テキストと画像のシームレスな連携が可能となったことで、生成結果の一貫性と実用性が大きく向上している。
OpenAIは、画像生成技術の開発において単なる視覚的な「美しさ」だけでなく、情報伝達や表現のための「有用性」が重要であると強調している。たとえば、GPT-4oのネイティブ画像生成機能は、DALL·Eと比べて文字の描画精度が高く、看板、ポスター、インフォグラフィックス、メニューなどの生成において、文字を自然かつ正確に配置できる。
また、従来の画像生成モデルではプロンプト内で5〜8個程度のオブジェクトを処理するのが限界であったのに対し、GPT-4oの画像生成は10~20個の異なるオブジェクトを扱えてより正確に配置できる。
さらに、「マルチターン画像生成」が可能であり、対話を通じて段階的に画像を改良していくことができる。たとえば、一度生成した画像に対して「もう少し広角にしてほしい」「背景を夜に変更して」「同じキャラクターで別のポーズにして」などといった指示を出すと、一貫したビジュアル要素を保ちながら修正が行われる。
この継続性は、これまでのAI画像生成では実現が難しかった点である。キャラクターが持つ小道具、背景などの要素を複数回にわたり変更しても整合性が保たれるため、ゲーム開発やビジュアル制作など、反復的なデザイン作業において大きな利点となる。
GPT-4oのネイティブ画像生成は、テキストと言葉の間にあった壁を取り払い、画像生成をより創造的で直感的なツールへと進化させるものである。一方で、いくつかの課題も報告されている。たとえば、ポスターのような縦長画像を生成した際に端が切り取られてしまったり、非ラテン文字でテキストの描画に不具合が生じる。また、DALL·Eと比べて画像生成にやや時間がかかる点も留意すべき点である。