GPT-4o miniは、2024年7月18日にOpenAIが発表した新しい生成AIモデルです。その特徴は、GPT-3.5 Turboよりも高い回答精度を持ち、さらに安価で高速なモデルであること。128kトークンのコンテキストウィンドウを持ち、最大16kのトークンを出力できます。

分類 内容
精度 ・GPT-3.5 Turboよりも高い回答精度
・GPT-4oよりは回答精度は低いものの、その他のモデルに遜色のないレベル(下図)
価格 ・GPT-3.5 Turboよりも入力時は約3分の1、出力時は約40%のコスト

なぜGPT-4oではなくGPT-4o miniが必要なのか

生成AIの利用はさまざまな領域に広がりを見せています。カスタマーサポートやマーケティング資料作成、データ分析、社内ドキュメント検索などはその一例です。では、そこでなぜGPT-4oではなくGPT-4o miniが必要なのでしょうか?

近年、ChatGPTでは単にチャットするだけではなく、APIを活用して大量の呼び出しを行うケースが増えています。APIは呼び出し回数に応じてコストがかかるため、コストパフォーマンスの重要性がこれまで以上に高まっているのです。

また、1つの回答を生成するために何度も呼び出しを行うと、処理にかかる時間も増えます。さらに、リアルタイム処理や大量のデータを処理するためには、高速な処理が求められます。

こうしたことから、コストパフォーマンスが高く、高速な処理が可能なGPT-4o miniが必要となるケースが増えているわけです。

Advanceed RAG:1つの回答生成に何度もLLMを呼び出す理由

RAG(Retrieval Augmented Generation)は、情報検索と生成を組み合わせた手法です。例えば、ChatGPTが保持しない社内文書などの情報を社内データベースから検索・抽出し、ChatGPTに与えて回答を生成することで、ChatGPTが知り得ない内容についても回答を生成することができます。

つまり、この手法では、まず関連する文書を検索し、その情報を基にGPT-4oなどの大規模言語モデル(LLM:Large Language Models)が回答を生成します。RAGは、ユーザーの質問に対して最も関連性の高い文書を抽出し、それを活用してより正確な回答を生成するわけです。

ただし、高い精度の回答を得るのは簡単ではありません。RAGの精度を向上させるテクニックとして、さまざまなものが提唱されています。「Retrieval-Augmented Generation for Large Language Models: A Survey」というRAGに関するサーベイ論文では、「Advanced RAG」と呼ばれるさまざまなRAGに関するテクニック群が挙げられています。

代表的なテクニックは以下の通りです。

  1. クエリ拡張
  2. ハイブリッド検索
  3. 取得した文書の後処理

例えば、Advanced RAGの技術の一つであるクエリ拡張技術を用いると、ユーザーの質問に対して複数のバージョンを生成し、検索結果のばらつきを減らすことができます。このテクニックでは、LLMを使っていくつかの代替クエリを生成することになり、1回の回答生成プロセスで複数回のLLM呼び出しが発生する可能性があります。

また、ベクトル検索とキーワード検索を組み合わせたハイブリッド検索、取得した文書の後処理などの追加ステップが含まれるケースが多いです。これらのステップでも、クエリの精緻化や取得情報の処理のためにLLMが使用されることがあり、複数回の呼び出しが行われることがあります。

以上のことから、「大規模言語モデル(LLM)の呼び出しは1回答あたり1回ではない」ということがわかります。

GPT-4o miniの使い方

続いて、GPT-4o miniの使い方について説明しましょう。と言っても、モデル選択画面でGPT-4o miniを選択するだけで、後は他のモデルと同様に利用可能です。

GPT-4oとの違いとして、写真やファイルの読み込みができない点に注意してください。

  • GPT-4o mini

  • GPT-4o

また、他のモデルと同様、API経由での利用も可能です。例えば、Curlでアクセスする場合は以下のように実行できます。

shell
curl https://api.openai.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

GPT-4o miniの重要性 - AIモデルの今後

GPT-4o miniは高速で動作し、低コストかつ高い精度で回答を返してくれます。言い換えると「タイパとコスパが良いモデル」です。RAGなどの手法が使われる際、特にタイパとコスパが重要であることに考えると、GPT-4o miniがいかに重要な位置付けのモデルであるかが理解できるのではないでしょうか。

ただし、各テックベンダーから、毎月のように新たなモデルが登場しています。したがって、GPT-4o miniの位置付けも日々変わっていく可能性があります。

例えば、2024年8月8日にGemini 1.5 Flashが値下げされるなど、AIモデルの価格競争が激しさを増しています。また、2024年8月6日には最新のGPT-4oモデルである「gpt-4o-2024-08-06」が発表され、構造化された形式(JSON)での出力が容易になりました。このモデルは2024年8月7日、マイクロソフトからAzure上で利用可能と発表されました。

今後は、新たな技術動向をウォッチし、その時々に応じて最適なものを選択していくことが一層重要になってくるでしょう。