はじめに
前編・後編で紹介した「生成AIと対話して作る図解作成術」、もう実践していただけましたか。記事を発表した頃は、生成AIの画像内に日本語テキストを入れると漢字の文字化けが頻発し、「日本語描画は苦手」という壁がはっきり存在していました。そのため、後編ではツールでの後編集を前提とした回避策を中心に解説しました。
ところが、2025年12月現在、状況は大きく変わっています。特にGoogle Geminiの画像生成機能が大きく進化し、「日本語テキストの描画精度」が飛躍的に向上しています。一方、ChatGPT側もGPT-5シリーズへのアップデートにより、全体的な性能が底上げされ、ついに「編集可能なファイル」を直接出力できるようになりました。
このアップデート編では、前編・後編で使用した同じプロンプトをそのまま投入し、最新のGeminiとChatGPTの画像生成精度を再検証します。さらに、以前は不可能だった「文字だらけの図解」への挑戦や、新しいワークフローについても解説します。
Geminiの大幅進化と、追いかけるChatGPT
まず、今回の検証で使用したモデルを簡単に整理しておきます。
Gemini 3 Pro Image(通称:Nano Banana Pro)
Gemini 3 Pro Image(正式なモデル名)は、Googleが2025年11月に一般提供を開始した画像生成モデルです(Nano Banana Proは、一般的に使われている愛称・ブランド名で、どちらも同じものです)。日本語を含む多言語テキスト描画の精度が大きく改善され、漢字の崩れや不自然な文字配置が目立たなくなりました。前回の記事で紹介した「テキストを空白にする」「英語で代替する」といった回避策は、多くのケースで不要になりつつあります。
ChatGPT(GPT-5.2)
OpenAIが2025年12月にロールアウトした最新版モデルです。推論力、長文コンテキスト対応、ツール利用、エージェント機能、画像理解などが全体的に強化されています。また、画像生成モデルとして「GPT Image 1.5」が新たにリリースされ、ChatGPT(GPT-5.2)ではこのモデルが内部的に利用されています。画像生成における漢字描画は依然としてばらつきがあるものの、GPT-5.2での最大の特徴は「編集可能なオフィスファイル」が生成できることです。
今回は、両モデルとも有料プラン(Gemini Pro、ChatGPT Pro)で検証を行いました。また、Geminiでは思考モード、ChatGPTではExtended thinkingを有効にしています。
検証:前編・後編のプロンプトをそのまま再挑戦
今回は、前編・後編で完成させた最終プロンプトをほぼそのまま最新モデルに投入しました。目的は画像生成精度、とくに日本語テキストの再現性です。
検証1:ビジネスイラストでの日本語再現(前編の再挑戦)
前編で完成させたBefore/After形式の営業業務改善イラスト。時計の時刻指定、改善ポイントの日本語ラベル(「入力時間50%削減」「AIが顧客名を予測」)が含まれるプロンプトです。これまではChatGPTでも一部の漢字が崩れたり、Copilotでは英語に置き換わったりしていました。
営業部門における業務アプリの改善を、1枚のビジネス風イラストでBefore/After形式で表現。
左側(Before)には、旧式のUIで日報や顧客情報を手入力している営業担当者が、疲れた表情で作業している様子。画面は複雑で入力欄が多く、紙のメモや電話対応が散乱している。照明は暗く、壁の時計は18時を指している。
右側(After)には、新しいUIとAI入力補助機能により、営業担当者が短時間でスムーズに入力を完了し、笑顔で次の業務に移っている様子。画面には音声入力ボタン、顧客名の自動補完候補、シンプルな3項目の入力フォームが表示されている。照明は明るく、時計は10時を指している。
After画面の横には「入力時間50%削減」「AIが顧客名を予測」といった改善ポイントをラベルや吹き出しで表示。
全体は左右分割レイアウトで、PowerPoint資料に適した横長構図。スタイルはビジネス向けのアイソメトリックまたはフラットデザイン。
Geminiでは日本語ラベルがほぼ正確に再現され、フォント配置も自然です。時計の時刻指定については、初回生成では不正確でしたが、再生成で正しくなりました。
一方、ChatGPTでは以前より改善しているものの、この例では漢字の不正確さが残りました。再生成しても同様の傾向が見られました。
検証2:技術概念図での複雑なラベル(後編の再挑戦)
後編の実践例2で使用した「同期処理と非同期処理」のレストラン比喩イラスト。大きな見出しラベル「同期処理」「非同期処理」や、矢印・フレーム配置がポイントでした。これまでは矢印の向きが不自然になったり、テキスト配置がずれたりしていました。
教育用の漫画風イラストで、同期処理と非同期処理の違いをわかりやすく説明してください。
画面は横長でPowerPoint資料向けです。
左側は『同期処理』のシーン。レストランでウェイトレス(女性)が1人で注文を1つずつ順番に処理しており、お客さんは順番を待っていて退屈そうな表情です。
右側は『非同期処理』のシーン。複数の女性スタッフがそれぞれ注文受付、調理、配膳を同時に進めていて、お客さんは満足げにすぐ対応されている様子です。
両方のシーンで、レストランのカウンター、テーブル、キッチンといった背景を描き、それぞれの場所で起こっている処理が直感的にわかるようにしてください。
また、動作や処理の順序が視覚的にわかるように矢印やフレームで示してください。
画面の上部には大きく「同期処理」「非同期処理」という見出しラベルをそれぞれ配置してください。
イラストは明るく親しみやすい漫画風で、説明資料としてシンプルかつ効果的に伝わるデザインにしてください。
Geminiでは見出しラベルが正確に配置されています。矢印の向きも、まあ許容範囲でしょう。注目すべき点としては、(検証1でもそうでしたが)プロンプトに含めていない吹き出し文言が、自動的に追加されていることです。意図と異なる場合は修正指示が必要ですが、画像内容を理解した上で文言を補足している点は進化を感じさせます。
ChatGPTもこの例ではテキストが正確でした。ただ、非同期処理の説明としては、やや分かりにくい構成になっています。
検証3:「文字だらけ」のアーキテクチャ図(後編の再挑戦)
後編で各AI比較に使用した「マイクロサービス vs モノリシック」の概念図。すべてのラベルを日本語に変更して挑戦しました。以前の記事では、Geminiが文字化けしていました。
マイクロサービスとモノリシックアーキテクチャを比較する概念図を描いてください。
シンプルで研修資料向けのフラットデザイン。背景は白。人型アイコンや余計な装飾は不要。
【全体レイアウト】
- 1枚の画像に、左右対称で横並びに配置。
- 左右の図の大きさは揃える。
- 中央に余白を設けて分離感を出す。
【左側(Monolithic Architecture)】
- 1つの大きな長方形の中に「UI」「ビジネスロジック」「データベース」を積み重ねて配置。
- 各要素の文字はシンプルなSans-serif(ゴシック体のような、装飾のない書体)太字で大きめに表示。
- データベースはクラシックな円柱アイコンで表現。
- 濃いグレー単色でまとめ、統一感を出す。
- 上部ラベル:「モノリシックアーキテクチャ」。
【右側(Microservices Architecture)】
- 「ユーザー」「商品」「注文」「在庫」の4つの小さな長方形を配置。
- 各長方形の下に円柱アイコン(クラシックなDB表現)を置き、独立性を示す。
- サービス同士は直線で軽く接続し、関連性を示す(矢印は不要)。
- 各サービスは青や緑を使い分け、カラフルだが調和のある配色にする。
- ラベル文字はSans-serif太字で大きめに表示。
- 上部ラベル:「マイクロサービスアーキテクチャ」。
【仕上げ】
- 教科書的で教育向けの分かりやすい図。
- アイコンや装飾は最小限に。
- 読みやすさと比較の明確さを優先する。
- すべて日本語ラベルとして描画。
Geminiではすべての日本語ラベルが自然に収まり、可読性も高い結果となりました。ChatGPTも文字自体は正確ですが、フォントサイズや配置のバランスには調整の余地があります。それでも、以前のような破綻は見られません。
検証4:【新挑戦】文字だらけの「サービスブループリント」
これまでは「文字化け」の恐怖から避けて通っていた、テキスト要素が非常に多く、かつ構造が複雑な図解に挑戦します。ユーザーの行動と、それに対応するバックエンドシステムの動きを時系列で可視化する「サービスブループリント」です。
「これ欲しい!」といったユーザーの口語と、「在庫確認API」などのシステム用語が混在するため、AIの言語処理能力と構成力が同時に試される難関です。
ECサイトの商品注文処理を表す「サービスブループリント」の図解画像を作成してください。
横軸:時系列(商品選択 → カート追加 → 決済 → 注文確定メール)
縦軸:以下の4層構造にしてください。
1. ユーザーの行動(「これ欲しい!」「購入ボタンポチッ」などの日本語吹き出し)
2. フロントエンド(アプリ画面の表示)
3. バックエンドAPI(「在庫確認API」「決済API」「メール送信API」)
4. データベース/外部システム(「在庫DB更新」「カード会社連携」)
各要素を矢印でつなぎ、処理の流れを可視化してください。
スタイル:エンジニア向けのテクニカルなフロー図だが、手書き風の親しみやすさも入れる。
Geminiは、4層構造を描き分けて、日本語テキストも問題ありません。「ユーザーの話し言葉」と「テクニカル用語」という異なる種類のテキストが適切に配置されています。これは、生成AIが単なる「絵作り」だけでなく、エンジニアリングにおける「処理フローの構造化と可視化」まで可能になったことを示しています。
ChatGPTも、以前と比べると、日本語描画はかなりがんばっています。手書き風がフォントにまで反映されていて、Geminiにはない、図のタイトルも描画されています。とはいえ、図解としての完成度は、検証時点ではGeminiの方が安定しています。
結論:「3ステップ」はどう変わる? 新しいワークフローの提案
検証の結果、Geminiでは日本語描画の精度が体感できるレベルで向上し、「テキストを省く」「後編集前提」という配慮は多くの場面で不要になりました。また、画像内容を理解する能力も向上しています。
この進化とChatGPTの新機能を踏まえ、前編で提唱した「3ステップ」の作成法をアップデートします。
新・プロンプト作成の3ステップ
・ステップ1:下準備(変更なし)
従来通り、AIに構成を考えさせます。ここではまだ詳細なデザイン指示は不要です。
・ステップ2:改善(簡素化&デザイン重視)
以前のように「日本語を英語に直す」「テキストを抜く」といった回避策の指示が不要になりました。その分、「フォントの雰囲気(ゴシック体、手書き風など)」や「配色のトーン」など、より本質的なデザインの指示に集中できます。
・ステップ3:適用(分岐)
ここが最大の変更点です。用途に合わせて出力形式を選択します。
A. そのまま使う「完成画像」が欲しい場合 → Geminiで画像生成
B. 後で修正したい「資料」が欲しい場合 → ChatGPTでPowerPoint生成
GPT-5.2の新機能(Excel、PowerPointの自動生成)
新ステップの「B」で触れた通り、ChatGPT(GPT-5.2)では、画像生成そのものよりも、「編集可能な成果物」を生成できる点が最大の特徴です。
PowerPointファイルを生成させるには、画像生成のプロンプトの最後に、次のような一文を加えるだけです。
(図の内容の説明)
以上の内容を、画像ではなく、編集可能なPowerPointスライド(.pptx)として作成し、ダウンロードリンクを提供してください。構成要素は個別のオブジェクトとして操作できるようにしてください。
これは、単に画像を貼り付けるのではなく、図形やテキストをPowerPointのオブジェクトとして再構成する処理です。そのため、画像生成に比べて処理時間は、かなり長くなる傾向があります。また現時点では、オブジェクトが崩れるケースもあり、完璧ではないので、修正ありきと考えておく必要はあります。とはいえ資料として再利用できるのは、利用価値が高いでしょう。
GeminiとChatGPTの使い分け
執筆時点での、日本語描画や図解の正確性では、Geminiが優位ですが、実務視点では、以下のように役割を分けるのがベストでしょう。
・Gemini:デザイン性とインパクト重視
プレゼンの表紙、Web記事のアイキャッチ、ポスターなど、「一枚絵」として完結し、人の目を惹きつけるビジュアルが必要な場合に最適です。
・ChatGPT(GPT-5.2):論理性と編集性重視
社内稟議書、詳細設計書、フローチャートなど、後から修正が入る可能性が高いようなドキュメント作成に適しています。
両者は競合というより、補完関係にあります。
実務活用のポイントと注意点
進化した生成AIを業務で安全で効果的に活用するためのポイントと、変わらず注意すべき点をまとめました。
1.「完成画像」か「編集前提資料」かを最初に決める
Web掲載用の完成画像ならGemini、社内資料や提案書ならChatGPTでPowerPoint生成まで含める、という切り分けが有効です。
2.フォント指定が有効に
日本語が描画できるようになったことで、「ゴシック体で」「手書き風フォントで」といった指示も有効になっています。フォント指定を積極的にプロンプトに盛り込みましょう。
3.プロンプトの価値はむしろ上がっている
何を描き、何を描かないかを言語化できるほど、生成結果の質は高まります。「文字化けしないか」を気にする必要がなくなった分、よりクリエイティブな指示に注力しましょう。
4.より厳しいチェックが必要
技術的な正確性(矢印の向き、論理構成など)は、依然として人間のファクトチェックが必要です。日本語処理や画像理解が向上した反面、微細な誤りが含まれる場合があります。見逃しやすくなったとも言えるので、より厳しい目でチェックすることが必要です。
アップデート編のまとめ
Gemini 3 Pro Imageの進化により、日本語描画の制約は大きく緩和されました。一方、GPT-5.2は図解を「使い回せる業務資料」へ昇華させる力を持っています。
これからの図解作成は、次のような二段構えが、最も実務的な選択になるでしょう。
・Geminiで完成イメージを素早く作る ・ChatGPTで編集可能な資料に仕上げる
今回のアップデート編は、「やり方が変わった」というより、「これまで遠慮していたことを、もう遠慮しなくてよくなった」ことを示しています。生成AIでの図解作成は、確実に次のステージに入っています。Geminiだけでなく、OpenAIも「GPT Image 1.5」が示すように画像生成モデルの改良を継続しています。今後、両者の画像生成の位置づけや評価軸が変わっていく可能性もあります。
前編・後編から続けて読まれた方は、ぜひ同じプロンプトで最新モデルを試してみてください。進化の速さに驚くはずです。生成AIはあくまでパートナー。対話を通じて、あなたの伝えたいことをより鮮明にビジュアル化していきましょう。
WINGSプロジェクト 髙江 賢(著)山田祥寛(監修)
有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。現在も執筆メンバーを募集中。興味のある方は、どしどし応募頂きたい。著書、記事多数。
RSS
X:@WingsPro_info(公式)、@WingsPro_info/wings(メンバーリスト)<著者について>
パソコン黎明期からプログラミングの進化を追い、Web・モバイル・IoT・AIまで多様な開発現場を駆け抜ける。
現在、株式会社気象工学研究所で気象×ITの最前線に立ちつつ、執筆コミュニティ『WINGSプロジェクト』のメンバーとして活動中。







