生成AI開発の競争が激化する中、GoogleとOpenAIが相次いでコスト面で競争力のある新しい料金モデルを投入した。これは高性能かつ低価格なオープンAIモデルで台頭する中国企業DeepSeekに対抗する狙いがあるとみられる。

Googleは4月17日、Google AI StudioおよびVertex AIを通じて、Gemini APIによる「Gemini 2.5 Flash」のプレビュー版の提供を開始した。Gemini 2.5 Flashは、Gemini 2.0 Flashを基盤とし、スケーラビリティと効率性を保ちつつ推論能力を強化したモデルである。

新たな特徴として、「動的かつ制御可能な推論 (dynamic and controllable reasoning)」機能が加わった。これはAIが応答を生成する際の「思考」プロセスを状況に応じて最適化するものである。簡単な質問には思考時間を短縮して素早く回答し、複雑な質問にはより多くの時間をかけて応答品質を高める。また、開発者が用途ごとに推論バジェット(thinking budgets)を細かく調整可能であり、コスト優先のアプリケーションではバジェットを抑え、精度重視のタスクでは増やすことができる。

API料金は、入力が0.15ドル/Mトークンであり、論理思考をオフにした「Non-thinking」モードの出力が0.60ドル/Mトークンと、DeepSeek R1(入力0.55ドル/Mトークン、出力2.19ドル/Mトークン)より安価である。論理思考能力を最大活用する「reasoning」モードでは、入力0.15ドル/Mトークン、出力3.50ドル/Mトークンとなる。利用者それぞれのニーズに応えられる柔軟性のある仕組みで、コスト競争力を高めた。

一方、OpenAIはコスト削減を主眼に置いた「Flex processing」のベータ版を、「o3」と「o4-mini」で提供し始めた。 これは、応答時間の遅延や、時折発生するリソース利用不可のリスクを受け入れることで、従来の料金より割安なバッチAPIレートを適用するものである。

Flex processingは、タイムアウトやリソース不足によるエラーの可能性があるため、モデル性能評価やデータ整理、非同期作業など、生産性や緊急性が優先されないタスクに限定されるが、コストは通常の50%程度に抑えられる。例えば、「o4-mini」モデルの場合、通常の入力1.10ドル/Mトークン、出力4.40ドル/Mトークンが、Flex processingでは入力0.55ドル/Mトークン、出力2.20ドル/Mトークンになる。これはDeepSeek R1(入力0.55ドル/Mトークン、出力2.19ドル/Mトークン)とほぼ同等の水準である。