ChatGPTの新機能「GPT-4V」でアップロードした画像の内容を回答・作業してもらう

ChatGPTに新機能「GPT-4V」が追加されました。画像を入力し、ChatGPTにその内容を理解してもらい、コミュニケーションしたり作業指示を出すことができる機能です。画像を生成する「DALL・E 3」とは異なり、こちらから画像をアップロードするのが特徴です。今回は「GPT-4V」でできることを試してみました。→過去の「柳谷智宣のChatGPTプロンプトクリエイティブラボ」の回はこちらを参照。

画像をアップロードして内容を理解し、コミュニケーション

プロンプトの入力フォームに画像のアイコンが出ているのでクリックするとファイルの選択ダイアログが開きます。直接、ChatGPTの画面にドラッグ＆ドロップしてもOKです。まずは、何か写真をアップロードして何が写っているのか聞いてみましょう。なお、GPT-4の新機能なので、有料のChatGPT Plusを契約している必要があります。

画像アイコンをクリックしてファイルを選択

画像ファイルをドラッグ＆ドロップしてもアップロードできる

飼っていたカメの写真をアップロードし、プロンプトはシンプルに直接聞いてみました。子亀ですし、食事中にスマホで適当に撮った写真です。リクガメであることが分かれば上々だと思っていたのですが、ヒョウモンガメとばっちり正解を言い当てました。英語表記や特徴、原産地などの解説もしてくれています。

ヒョウモンガメについて質問することもできますし、何を食べているのかを聞けば「キャベツの葉を食べているように見えます」と回答してくれます。

プロンプト

この生き物は何ですか？
出力
- 写真の内容を正確に答えてくれた

続いて、プレゼン資料を読み込ませてみましょう。「令和5年版情報通信白書」の「情報通信に関する現状報告」からスライドを画像にしてアップロードしてみました。白書らしく、さまざまな要素に多くの情報がちりばめられています。

内容を把握してくれるので、要約するのも質問するのも自由です。今回は要約させてみましたが、まったく問題ない回答でした。

文章部分も年表部分もきちんと把握しています。自治体のパワポ資料が情報を詰め込み過ぎて見づらい、というSNS投稿がバズっていますが、そんなスライドもChatGPTにアップロードすれば一発で理解できます。

スライドを読み込ませた

プロンプト

このスライドを要約してください。
出力
- スライドについて説明してくれた

ChatGPTの他の機能と組み合わせて活用する

GPT-4Vと「Advanced Data Analysis」やDALL・E 3と組み合わせるとさらに活用幅が広がります。例えば、紙や画像で持っている資料のグラフをデータ化したい場合、従来は数値を手入力するしかありませんでした。しかし、GPT-4Vならスキャンしたファイルや画像をアップロードし、グラフの内容をCSV形式で出力させることができます。

スライドの左側のグラフをChatGPTに再作成してもらう

プロンプト

左側のグラフをCSV化してください
出力
- 左側のグラフをCSV形式で出力してくれた

アップロードしたスライドには2つグラフがあったのですが、問題なく指示した左側のグラフをCSV形式にしてくれました。コードを出力する際に使われる黒いボックス内に表示されるので、「Copy code」をクリックするだけで、データ部分のみをコピーできるのが便利です。

図中の数字は、グラフのバーの各セグメントの値に基づいています。このデータをCSVファイルとして利用したい場合、テキストエディタを使用して保存してください。

テキストエディタで新規ファイルにデータを貼り付け、拡張子を.csvにして保存すればCSVファイルを作成できます。今回は、このまま「Advanced Data Analysis」でグラフの作成もしてもらいましょう。

プロンプト

※「Advanced Data Analysis」モード
以下のCSVデータを元に、横棒グラフを作成してください。
,活用している,検討中,活用する予定はない,わからない
日本,52.8,17.9,15.9,13.4
米国,81.9,7.8,9.7,0.6
<参考>日本(2019年度調査),25.2,5.7,6.3,62.8
出力
- CSVデータの分析結果

Advanced Data Analysisモードでグラフで利用する日本語フォントをアップロードしておき、データを貼り付けて分析させたところ、あっさりと表組にまとめてくれました。続けて、横棒グラフを作成してもらいます。

凡例は日本語表示できたのですが、国名が文字化けしていたり、グラフの色分けが見にくかったりしたので、英語表示にしたり、色を指定しました。チャットで指示できるのが便利です。

出力
- 調整後に生成されたグラフ

次は、写真を再生成してみます。犬と散歩中に時計を見ているときの写真をアップロードし、この画像を生成するためのプロンプトを考えてもらいます。

出力
- 画像を生成するためのプロンプトを考えてもらった

このプロンプトをChatGPTのDALL・E 3に入力すると、2枚の画像が生成されました。レトリバーと腕時計がしっかり描写できており、なかなかの再現度です。横長の画面にする場合は、「ワイド画像で生成」というプロンプトを追加しておきます。

出力
- 画像を生成するためのプロンプトを考えてもらう

プレゼン資料やブログなどで画像を使いたいが、手持ちの写真をそのまま乗せるのも気が引ける、といった時に活用できます。ChatGPTのDALL・E 3で生成した画像は商用利用可能なので、気兼ねなく利用できるのがありがたいところです。

位置の特定、プログラミング、俳句を詠むなど活用法はアイデア次第

画像をアップロードして、どこで撮影されたか聞いてみましょう。モンゴルのチンギス・ハーン像の写真をアップロードしたところ、ばっちり正解しました。続いて、台湾の九份で撮影した建物をアップしました。広いエリアの中で適当に撮った1枚なのですが、見事正解です。

プロンプト

この写真はどこで撮影されましたか？
出力
- チンギス・ハーン像について回答してくれた
プロンプト

この写真はどこで撮影されましたか？
出力
- 台湾の九份も正解

そのほかにも、オーストラリアの高層ビルから風景を撮った写真やスコットランドの片田舎のショップを撮った写真でも1発で正解しています。もちろん、場所によっては判別できないのですが、驚きの精度です。

例えば、ヘルシンキ空港の「MOOMIN COFFEE」で撮影した写真は特定できなかったのですが、「ムーミンはフィンランドや日本で人気がある」「背景に飛行機が見えるので空港内のカフェである可能性」など真相に迫っていました。

ちなみに、顔がはっきりと判別できる人物が写っていると「Sorry, I cannot help with that.」と表示され、回答されません。これは、プライバシー保護のためです。また、レントゲン画像をアップロードして所見を求めると「申し訳ございませんが、医学的な診断やアドバイスを提供することはできません」と回答してきます。こちらもあえて機能に制限をかけていると思われます。

ChatGPTに画像を見せて、同じようなWebサイトやアプリを作ってもらうことも可能です。例えば、電卓アプリの画面キャプチャをアップロードし、Webアプリを作ってもらいました。

HTMLとCSS、JavaScriptのコードが生成されるので、それぞれテキストエディタにコピーし、3つのファイルを作成するだけで完成です。HTMLファイルを開くと、ブラウザで電卓アプリが表示されます。ボタンが足りなかったり、配列がおかしい場合は「レイアウトを再現して」と指示すれば、すぐに修正してくれます。

筆者はプログラミングができないのですが、あっという間に電卓アプリができてしまったのには驚きました。もちろん、きちんと動作し、計算できます。

ウェブサイトの画面をアップロードし、レイアウトを再現したHTMLを生成することもできます。それどころか、適当に手書きしたラフからウェブサイトのHTMLを生成することも可能です。