GPT-4oが進化 - 写真じゃなかった、美しく正確な画像を生成

OpenAIは3月25日(米国時間)、「Introducing 4o Image Generation | OpenAI」において、同社のマルチモーダルモデル「GPT-4o」に先進的な画像生成機能を統合したと発表した。

これまでも画像生成は可能だったが、さらに美しく便利になったと伝えている。

Introducing 4o Image Generation ｜ OpenAI

OpenAIから新しい画像生成ツール登場

OpenAIによると、従来の画像生成モデルも独創的な画像を生成できたが、人間の情報共有に使用できるレベルの画像生成は苦手だったという。今回統合された画像生成機能はプロンプトを正しく認識し、指示どおりにテキストをレンダリング可能で、この問題を克服できるとのこと。

OpenAIは具体的な改善手法や結果について、次のように述べている。

われわれはオンライン画像とテキストの同時分布(joint distribution)に基づいてモデルを訓練し、画像が言語とどのように関連しているかだけでなく、それらが互いにどのように関連しているかを学習させました。積極的なポストトレーニングと組み合わせた結果、得られたモデルは驚くほど視覚的な流暢さを持ち、有用で一貫性があり、文脈を意識した画像を生成できます。

OpenAIはアナウンスの中で具体例を複数掲載している。中でも、プロンプトを正確に反映したわかりやすい例として、ホワイトボードに指定の文字を記述させた生成画像を掲載している。

ホワイトボードに指定の文字を記述させる例　引用：OpenAI

この例では筆記者の性別、服装、ホワイトボードに映り込む背景および撮影者を指定している。それらがすべて指定どおりに再現されており、不自然さは感じられない。さらに、文脈の正確な理解として、OpenAIは筆記者と撮影者のハイタッチ画像を生成させている。

筆記者と撮影者をハイタッチさせる例　引用：OpenAI

プロンプトは「彼女が振り返り、彼とハイタッチしたときの撮影者の自撮り写真」と指示しているだけだが、文脈を理解し、先程と同じホワイトボードの前で同じ人物が撮影した画像を生成している。

画像に不自然な点は少なく、撮影した写真なのではないかと疑いたくなる。しかしながら、文字をよく見ると右側「Fixes:」の位置がずれており、生成された画像だとわかる。

制限と安全性

OpenAIによると新しい画像生成機能はまだ不完全だという。長い画像の過度なトリミングなど複数の制約があり、徐々に改善していく予定と説明している。

安全面への配慮についても概要を公開している。生成画像の悪用防止機能として、GPT-4oは画像のメタデータに「Coalition for Content Provenance and Authenticity(C2PA)」を付加する。このメタデータにより、画像の出所と履歴の追跡が可能になる。また、実在の人物への攻撃を回避するため、実在の人物がプロンプトに含まれる場合は生成できる画像の種類が制限される。