ChatGPTに新機能「GPT-4V」が追加されました。画像を入力し、ChatGPTにその内容を理解してもらい、コミュニケーションしたり作業指示を出すことができる機能です。画像を生成する「DALL・E 3」とは異なり、こちらから画像をアップロードするのが特徴です。今回は「GPT-4V」でできることを試してみました。→過去の「柳谷智宣のChatGPTプロンプトクリエイティブラボ」の回はこちらを参照。
画像をアップロードして内容を理解し、コミュニケーション
プロンプトの入力フォームに画像のアイコンが出ているのでクリックするとファイルの選択ダイアログが開きます。直接、ChatGPTの画面にドラッグ&ドロップしてもOKです。まずは、何か写真をアップロードして何が写っているのか聞いてみましょう。なお、GPT-4の新機能なので、有料のChatGPT Plusを契約している必要があります。
飼っていたカメの写真をアップロードし、プロンプトはシンプルに直接聞いてみました。子亀ですし、食事中にスマホで適当に撮った写真です。リクガメであることが分かれば上々だと思っていたのですが、ヒョウモンガメとばっちり正解を言い当てました。英語表記や特徴、原産地などの解説もしてくれています。
ヒョウモンガメについて質問することもできますし、何を食べているのかを聞けば「キャベツの葉を食べているように見えます」と回答してくれます。
続いて、プレゼン資料を読み込ませてみましょう。「令和5年版情報通信白書」の「情報通信に関する現状報告」からスライドを画像にしてアップロードしてみました。白書らしく、さまざまな要素に多くの情報がちりばめられています。
内容を把握してくれるので、要約するのも質問するのも自由です。今回は要約させてみましたが、まったく問題ない回答でした。
文章部分も年表部分もきちんと把握しています。自治体のパワポ資料が情報を詰め込み過ぎて見づらい、というSNS投稿がバズっていますが、そんなスライドもChatGPTにアップロードすれば一発で理解できます。
ChatGPTの他の機能と組み合わせて活用する
GPT-4Vと「Advanced Data Analysis」やDALL・E 3と組み合わせるとさらに活用幅が広がります。例えば、紙や画像で持っている資料のグラフをデータ化したい場合、従来は数値を手入力するしかありませんでした。しかし、GPT-4Vならスキャンしたファイルや画像をアップロードし、グラフの内容をCSV形式で出力させることができます。
アップロードしたスライドには2つグラフがあったのですが、問題なく指示した左側のグラフをCSV形式にしてくれました。コードを出力する際に使われる黒いボックス内に表示されるので、「Copy code」をクリックするだけで、データ部分のみをコピーできるのが便利です。
図中の数字は、グラフのバーの各セグメントの値に基づいています。このデータをCSVファイルとして利用したい場合、テキストエディタを使用して保存してください。
テキストエディタで新規ファイルにデータを貼り付け、拡張子を.csvにして保存すればCSVファイルを作成できます。今回は、このまま「Advanced Data Analysis」でグラフの作成もしてもらいましょう。
-
プロンプト
※「Advanced Data Analysis」モード
以下のCSVデータを元に、横棒グラフを作成してください。
,活用している,検討中,活用する予定はない,わからない
日本,52.8,17.9,15.9,13.4
米国,81.9,7.8,9.7,0.6
<参考>日本(2019年度調査),25.2,5.7,6.3,62.8
-
出力
Advanced Data Analysisモードでグラフで利用する日本語フォントをアップロードしておき、データを貼り付けて分析させたところ、あっさりと表組にまとめてくれました。続けて、横棒グラフを作成してもらいます。
凡例は日本語表示できたのですが、国名が文字化けしていたり、グラフの色分けが見にくかったりしたので、英語表示にしたり、色を指定しました。チャットで指示できるのが便利です。
次は、写真を再生成してみます。犬と散歩中に時計を見ているときの写真をアップロードし、この画像を生成するためのプロンプトを考えてもらいます。
このプロンプトをChatGPTのDALL・E 3に入力すると、2枚の画像が生成されました。レトリバーと腕時計がしっかり描写できており、なかなかの再現度です。横長の画面にする場合は、「ワイド画像で生成」というプロンプトを追加しておきます。
プレゼン資料やブログなどで画像を使いたいが、手持ちの写真をそのまま乗せるのも気が引ける、といった時に活用できます。ChatGPTのDALL・E 3で生成した画像は商用利用可能なので、気兼ねなく利用できるのがありがたいところです。
位置の特定、プログラミング、俳句を詠むなど活用法はアイデア次第
画像をアップロードして、どこで撮影されたか聞いてみましょう。モンゴルのチンギス・ハーン像の写真をアップロードしたところ、ばっちり正解しました。続いて、台湾の九份で撮影した建物をアップしました。広いエリアの中で適当に撮った1枚なのですが、見事正解です。
そのほかにも、オーストラリアの高層ビルから風景を撮った写真やスコットランドの片田舎のショップを撮った写真でも1発で正解しています。もちろん、場所によっては判別できないのですが、驚きの精度です。
例えば、ヘルシンキ空港の「MOOMIN COFFEE」で撮影した写真は特定できなかったのですが、「ムーミンはフィンランドや日本で人気がある」「背景に飛行機が見えるので空港内のカフェである可能性」など真相に迫っていました。
ちなみに、顔がはっきりと判別できる人物が写っていると「Sorry, I cannot help with that.」と表示され、回答されません。これは、プライバシー保護のためです。また、レントゲン画像をアップロードして所見を求めると「申し訳ございませんが、医学的な診断やアドバイスを提供することはできません」と回答してきます。こちらもあえて機能に制限をかけていると思われます。
ChatGPTに画像を見せて、同じようなWebサイトやアプリを作ってもらうことも可能です。例えば、電卓アプリの画面キャプチャをアップロードし、Webアプリを作ってもらいました。
HTMLとCSS、JavaScriptのコードが生成されるので、それぞれテキストエディタにコピーし、3つのファイルを作成するだけで完成です。HTMLファイルを開くと、ブラウザで電卓アプリが表示されます。ボタンが足りなかったり、配列がおかしい場合は「レイアウトを再現して」と指示すれば、すぐに修正してくれます。
筆者はプログラミングができないのですが、あっという間に電卓アプリができてしまったのには驚きました。もちろん、きちんと動作し、計算できます。
ウェブサイトの画面をアップロードし、レイアウトを再現したHTMLを生成することもできます。それどころか、適当に手書きしたラフからウェブサイトのHTMLを生成することも可能です。
-
プロンプト
-
出力
活用法はアイデア次第で無限大です。メニュー用に撮った写真をアップロードして、改善点を指摘してもらうこともできます。試しに、レストランで撮った写真をアップロードしたらもっと明るくして、背景をシンプルにし、上から撮るようにアドバイスしてくれました。
これらのポイントを考慮して、写真を再撮影するか編集すると、より魅力的なメニュー写真になると思います。
また、観光地の写真をアップロードし、キャッチコピーを考えてもらうのもよいでしょう。富士山頂からの写真をアップロードして俳句を詠んでもらったら、「雲の海 太陽が照らす 天の路」と返ってきました。まだまだとも言えますが、末恐ろしくも感じますね。
以上が、アップロードした画像の内容に関して回答・作業してもらうプロンプトとなります。まだ登場したての機能ですが、実力は凄まじいものがあります。アイディア次第でビジネスにも活用できそうです。ぜひ、今すぐに触って、マルチモーダルのChatGPTスキルを向上させましょう。