米OpenAIは4月23日(現地時間)、最新のイメージ生成モデル「gpt-image-1」のAPI提供開始を発表した。

このイメージ生成モデルは、3月末にChatGPTに導入されたもので、「ジブリ風画像」や「アクションフィギュア風画像」などがSNS上で話題を呼び、わずか1週間で7億枚以上の画像が生成された。利用者数も急増し、サービス提供開始直後にサーバーが過負荷状態になり、OpenAIのサム・アルトマンCEOが「GPUが溶けるほどの負荷」とコメントするほどであった。

このモデルは、テキスト、コード、画像といった複数の情報形式を単一のモデルで処理できるマルチモーダル・モデルである。GPT-4oとの統合により、テキストと画像を一つのモデル内で処理でき、文脈やユーザーの意図をより自然に理解した画像生成が可能となっている。

API経由での提供開始により、開発者や企業が自社のツールやプラットフォームに最新のイメージ生成機能を組み込めるようになる。gpt-image-1は、多様な画像スタイルに対応でき、ユーザーの指示を理解して忠実に再現し、さらに世界の様々な知識もイメージ生成に取り入れられる。これにより、クリエイティブツール、eコマース、教育、ゲーム、企業向けソフトウェアなど、幅広い分野での実用的な活用が期待されている。

OpenAIによると、Adobe、Airtable、Wix、Instacart、GoDaddy、Canva、Figmaなどの企業が、すでにgpt-image-1を利用またはテストしている。 例えば、Canvaはラフスケッチを整ったグラフィック要素に変換したり、忠実度の高いビジュアル編集を可能にするなど、Canva AIおよびMagic Studioツールのデザイン生成・編集の強化を模索している。また、Instacartはレシピや買い物リスト用の画像に画像生成導入をテストしている。

  • Adobeの導入例

    OpenAIによると、AdobeはFireflyやExpressなど主要なクリエイティブツールでOpenAIの画像生成機能へのアクセスを提供し、クリエイターに多様なモデルを試せる選択肢と柔軟性をもたらそうとしている

安全性に関しては、ChatGPTにおける画像生成機能と同様の安全対策(セーフガード)が組み込まれており、有害なコンテンツの生成を制限する。生成画像にはAI生成を示すC2PAのメタデータが埋め込まれる。開発者は、APIの「moderation」パラメータを設定することで、不適切なコンテンツに対するフィルタリングの感度を調整することも可能である。

API料金は以下の通り。

  • テキスト入力トークン:5ドル/100万トークン
  • 画像入力トークン(イメージ入力):10ドル/100万トークン
  • 画像出力トークン(生成イメージ):40ドル/100万トークン

OpenAIによれば、低画質、中画質、高画質の正方形の生成画像1枚あたり、それぞれおよそ0.02ドル、0.07ドル、0.19ドルになる。