米OpenAIは5月13日、新しいフラッグシップモデルとして「GPT-4o」を発表した。新モデルは、テキスト、音声、画像を組み合わせを入力として認識し、同じくテキスト、音声、画像の任意の組み合わせを出力する。音声入力に対しては最短232ミリ秒、平均320ミリ秒で応答可能で、これは人間が会話で反応する時間と同じだという。

GPT-4oは、英語とコードのテキストに対するGPT-4 Turboのパフォーマンスを維持しつつ、非英語のテキストに対して改善を行い、視覚と音声の理解において、既存のモデルよりも優れているとのこと。テキスト、視覚、音声を一貫して処理する単一の新しいモデルとしてトレーニングされている。

  • 他のモデルとの比較

    他のモデルとの比較

GPT-4oが登場する前は、平均的に2.8秒(GPT-3.5)と5.4秒(GPT-4)の遅延でVoice Modeを使用してChatGPTと話すことができたが、これを実現するためにはVoice Modeで3つの別々のモデルのパイプラインとなっていた。

1つのモデルが音声をテキストに変換し、GPT-3.5またはGPT-4がテキストを入力として受け取りテキストを出力し、3つ目のモデルがそのテキストを再び音声に変換していた。同プロセスは、GPT-4が多くの情報を失うため、トーン、複数の話者、背景ノイズを直接観察することができず、笑い、歌、感情を表現する出力を生成することができなかったという。