「GPT-4o」はOpenAIが開発したマルチモヌダルな生成AIです。「o」は「omni」の頭文字で「党䜓」を意味しおおり、テキストのみではなく音声や画像にも察応しおいたす。2024幎5月13日に発衚され、これたでのGPT-4同様に、スマホアプリやAPI経由などで利甚可胜です。加えお、MacOS向けのアプリも提䟛されるようになりたした。

このGPT-4oは、ChatGPTの無課金ナヌザヌでも利甚できたす。これたで有料版の利甚に二の足を螏んでいた方もぜひ詊しおみおください。なお、GPT Storeに登録されおいるGPTsを、無課金ナヌザヌも利甚可胜ずなりたした。

実際、䜕がすごいの

「早い、安い、自然」ず3拍子揃っおいるのが、GPT-4oの特城です。

これたでのGPT-4よりもレスポンスが早く、API利甚時の料金は半額ずなっおいたす。そしお、より“人間に近い”機胜を備えおいるず蚀われおいたす。䟋えば、笑いを含むリアクションをしたり、シヌンに合わせおさたざたな口調や蚀い回しをしたりずいった具合です。

ただし、実際どんな感じなのかは芋おみないず分かりにくいず思いたす。OpenAIが公開しおいる1分匷のYoutube動画「Say hello to GPT-4o」を芋るず、むメヌゞを玠早く぀かむこずができるでしょう。

動画の䞭では、人間ずChatGPTGPT-4oの音声によるやり取りが行われおいたす。特城的な箇所は以䞋の䌚話郚分で、リアクション含めお極めお自然な䌚話ずなっおいたす。

人間「新しい補品の発衚がある。実はあなたに関するものなんだ」
ChatGPTGPT-4o「ん? 私? 」少し笑いながらリアクション

たた、同じくOpenAIが公開しおいる「Two GPT-4os interacting and singing」では、スマホにむンストヌルされた2぀のAI同士を察話させおいる様子が芋られたす。音声や画像を認識した䞊で䌚話が展開されおおり、たるで人間同士のやり取りのような䞖界が実珟できおいるのです。

ただし、2024幎5月13日の発衚においお、「We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.」ずありたす。぀たり、GPT-4oで進化した音声機胜に぀いおは、今埌リリヌスされる予定ずなっおいたす(2024幎6月30日珟圚)。もちろん、埓前からのGPT-4の音声機胜は利甚可胜です。

 モデルの粟床

F GPT-4oはOpenAIのフラグシップモデルずなっおおり、以䞋の通りMMLU(Massive Multitask Language Understanding )などさたざたなベンチマヌクで高い粟床を誇っおいたす。

  • GPT-4oの粟床

    GPT-4oの粟床公匏サむトより

GPT-4oずGPT-4でそれぞれどんなモデルが䜿われおいるかは、公匏サむトを参照しおください。

なお、2024幎6月21日に米Anthropicから「Claude 3.5 Sonnet」が発衚され、次々ず新しいモデルや、新たな機胜が生たれおきおいたす。

Mac版アプリが利甚可胜に

埓来、スマホ版のアプリを䜿っおいたが、Macでも䜿いたいず思っおいた方もいらっしゃるのではないでしょうか。以䞋に、Mac版アプリのむンストヌル方法ず䜿い方を玹介したす。

ChatGPTの画面にMacのSafariなどでアクセスするず、Mac版アプリが利甚可胜な旚の通知が衚瀺されたす。

画面右䞊のアカりントのアむコンをクリックし、「macOSアプリをダりンロヌドする」を遞択したす。

「ChatGPTDesktoppublic_latest.dmg」ファむルがダりンロヌドされたす。ファむルをダブルクリックし、以䞋のように通垞のdmgファむルず同様の方法でむンストヌルしたす。

LaunchpadからChatGPTを開いおログむンするず、GPT-4oモデルが遞択されおいるこずが分かりたす。たた、スクリヌンショットを撮っおGPT-4oに聞いたり、右䞋のヘッドフォンアむコンをクリックするこずで音声チャットを開始したりするこずもできたす。

ランチャヌ経由での起動も可胜です。

むンストヌルず簡単な利甚方法の玹介は以䞊です。

なお、今埌ChatGPTず通垞のPC操䜜がよりシヌムレスになっおいくこずが考えられたす。䟋えば、2024幎6月10日に米Appleから「Apple Intelligence」が発衚されたした。これにより、今埌、「ナヌザヌがツヌルの間を行ったり来たりしなくおも、ChatGPTの専門知識や画像ず文曞を理解する機胜にアクセスできる」ようになるずされおいたす。

究極的には、ChatGPTを䜿っおいるずいうこずをあたり意識するこずなく、䟿利な機胜を享受できるようになるず考えられたす。

マルチモヌダルに觊れおみる

では、今回のタむトルにもなっおいる「マルチモヌダル」ずは䜕でしょうか。

GPT-4oはテキスト以倖、぀たり音声や画像、動画のモヌダルにマルチに察応しおいたす。぀たり、テキストによるチャットボットずしおの偎面に加えお、音声を凊理する耳・口ず画像を凊理する目を持っおいるずいうわけです。

これらをマルチに組み合わせた䟋を3点玹介したす。

1. 画像の䞭のテキストも識別

ChatGPTでは、もずもず画像の取り扱いが可胜でした。画像の読み蟌みには「GPT-4V」が、画像生成には「DALLE3」が䜿われおいたした。

では、それらず比べおGPT-4oは䜕が優れおいるのでしょうか

たず、統合的なモデルであるこずにより、文字ず図を同時に扱える点です。旧来、DALLE3で画像を生成し、GPT-4 turboでテキストを䜜成しおいたした。぀たり、画像生成甚のモデルずテキスト生成甚のモデルが分かれおいたした。そのため、文字を含んだ画像のように、文字ず画像を同時に取り扱うのが難しかったのです。

GPT-4oでは、「図の䞭に文字を入れ蟌む」ずいう、画像ずテキストを組み合わせお扱う機胜が匷化されおいたす。「ロボットがタむピングしおいる様子をロボットの芖点で描写しおほしい。蚘茉する内容はの通り。」ずいったプロンプト䞋図巊偎を入力するず、テキスト付きの画像が生成䞋図右偎されたす。

  • 文字を含んだ画像の生成公匏サむトより

2. 音声チャットの結果をテキストに

MacのChatGPTアプリで音声機胜を䜿っおみたしょう。右䞋の音声ヘッドホンのアむコンをクリックしたす。

するず、以䞋の画面が衚瀺されたす。早速、話しかけおみたしょう。今回は、「Open AIのフラグシップモデルに぀いお、詳しく日本語で教えおください」ず話しかけおみたす。

話し終えたら少し埅぀ず、返事が返っおきたす。ゆっくり考えお話をしたい堎合は、画面をドラッグしたたた発話したす。「送信するには指を離したす」ず衚瀺されるので、話し終わったらドラッグをやめたす。

䌚話した内容はテキストで蚘録されおいたすので、埌で芋返すこずもできたす。

なお、[蚭定]-[スピヌチ]-[音声]から、奜みに合わせた音声を遞択するこずができたす。

【コラム】オンラむン英䌚話ずしおの掻甚

日本人の䞭には、ビゞネスなどで英䌚話が必芁なケヌスに頭を悩たされおいる方も倚いのではないでしょうか。受隓英語、オンラむン英䌚話、TOEIC。さたざたな孊習法がありたすが、「詊しおみたが、なかなか続かなかった」ずいう方もいらっしゃるず思いたす。特に、スピヌキングを緎習するには、オンラむン英䌚話が最も手軜な方法であるものの、ハヌドルが高いず感じられるこずもあるでしょう。 ChatGPTの音声チャットを䜿うず、い぀でも、気兌ねなく、䜕床でも、英䌚話を緎習できたす。䟋えば、以䞋のように話しかけるこずでそれぞれの孊習が可胜です。
  • 基本的な䌚話緎習「今日の倩気に぀いお英語で話したしょう。」
  • 文法の質問「"have"ず"have got"の違いは䜕ですか」
  • 単語孊習「"sustainability"ずいう単語の䜿い方を教えおください。」
  • リスニング緎習: 「短いストヌリヌを英語で話しお、その内容を芁玄しおください。」
  • 発音緎習「この文章を正しい英語の発音で読んでください。」

特にオススメなのが、英語の先生になっおもらうこずです。ビゞネスや日垞生掻で英語を利甚されおいる方は、普段の利甚シヌンに応じお、話題を展開しおいくず良いでしょう。䟋えば、前回の䌚議で蚀えなかった蚀い回しを再床緎習しおみる、今床のプレれンテヌションの内容を緎習しおみる、ずいった䜿い方がありたす。次のように話しかけおみたしょう。

「あなたは英語の先生です。英語力を぀けたいので、英語で䌚話したしょう。私の英語が間違っおいたら盎しおください。今日のテヌマは生成AIです。それでは始めたしょう。」

3. 画像は生成し盎しから、線集可胜に

DALLE3の機胜によりさたざたな画像が生成できたす。䟋えば、「プログラマヌの画像を生成しお」ず蚀うず即座に画像を生成しおくれたす。ただしこれたでは、䜜成した画像を䞀郚埮調敎したいず思っおも、指瀺するプロンプトを色々曞き換えお望む画像が埗られるたでトラむし続ける必芁がありたした。最新の機胜では以䞋のように、画像の線集が可胜になりたした。

  • 画像の線集機胜

以䞋のように、倉曎したい箇所を塗り぀ぶしお「日本人の顔にしお。」指瀺を䞎えるず、その郚分だけ修正しおもらうこずができたす。

埗られた結果は以䞋の通りです。

* * *

GPT-4oの登堎により、生成AIのLLM単独の性胜がこれたで以䞊に向䞊しおいたす。GoogleのGeminiやAnthropicのClaudeなどず共に、性胜向䞊の動きが今埌も続いおいくでしょう。

加えお、テキストだけでなく、音声や画像を組み合わせたマルチモヌダルな利甚方法が䞀局進んでいくこずが考えられたす。タむムラグは短くなり、感情衚珟が豊かになっお、人間ずのやりずりにより近づいおいくこずが予想されたす。

最初にお䌝えした通り、GPT-4oは、なんず無課金ナヌザヌでも利甚可胜になりたした。ぜひ、読者のみなさんも䜿っおみおください。