今回は無償版のGoogle Geminiに近い将来導入されるとみられる新機能や機能改善について取り上げる。無償版の生成AIチャットサービスには有償版の生成AIチャットサービスの機能が遅れて導入される傾向がみられるため、現在の有償版を見ることである程度今後の展開を予測することができる。
連載「Google Geminiの活用方法」のこれまでの回はこちらを参照。
Geminiは現在発展途上
Google Geminiは現在発展している途上にある生成AI技術であり、今後も随時機能の追加や性能の改善が期待されている。現在は誤った回答を返していたり、質問に答えることができなかったりしたとしても、将来どこかのタイミングで適切に質問に答えることができるようになる可能性が高い。
Googleが将来どのような機能をGoogle Geminiに追加するかをユーザーが正確に知る術はないのだが、現状からある程度予測することはできる。今回は今後Google Geminiに追加される可能性が高い機能について取り上げる。
生成AIの有償旗艦モデルから学ぶ
OpenAIのChatGPT公開以降、大手テック企業はそれぞれが自社の大規模言語モデル(LLM:Large Language Model)を開発し、汎用の生成AIチャットサービスとしてリリースする取り組みを進めている。執筆時点でもいくつかの選択肢が存在しているが、すでに一般に広くサービスが公開されており高い汎用性がある生成AIチャットサービスを選ぶとすれば、次の3つになる。
- OpenAI ChatGPT
- Microsoft Copilot
- Google Gemini
そしてこれらにはより高い性能と多くの機能を提供する有償版が提供されている。
- ChatGPT Plus、Team、Enterprise
- Copilot Pro
- Gemini Advanced
これまでの各社の動きを見ていると、大手テック企業は生成AIの最新モデルや新機能を有償版モデルに投入し、ある程度の期間が経過するとその機能を無償版でも制限付きで提供するという取り組みを行っている。つまり、現在の有償版を見れば、将来的にGoogle Geminiに投入されるであろう新機能や機能改善をある程度予測することができるのだ。
MicrosoftのCopilotはOpenAIの技術をバックエンドに使っている可能性が高いため、汎用生成AIチャットボットとしてはOpenAIのChatGPTとGoogleのGeminiが具体的な検討対象となる。つまり、執筆時点でChatGPT Plus、Team、EnterpriseやGemini Advancedで提供されている機能を調べることで、将来のGoogle Geminiで利用できる機能を予測することが可能だ。
Gemini Advancedの提供する機能はChatGPT Plus、Team、Enterpriseと比べると少ない。Googleがこうした状況を野放しにするとは考えにくい。最終的にChatGPT Plus、Team、Enterpriseとかなり類似した機能を実現する可能性が高いため、Google Geminiの今後の展開を考える上で他社であるOpenAIのChatGPT Plus、Team、Enterpriseから機能を予測することも重要になる。
1. より賢い最新モデル
Googleは執筆時点で有償版のGoogle Gemini Advancedにおいて次の2つの旗艦モデルを使っている。
- Gemini 1.0 Ultra - 執筆時点でGoogle Geminiシリーズにおいて最も高性能なモデル。より多くの計算量を必要とするものの、より複雑なタスクに対応することができる。英語のみに対応
- Gemini 1.5 Pro - 1.0 Ultraと同等の品質をより少ない計算量で実現できるモデル。高いパフォーマンスに特徴があり、長文の処理や作業効率を重視する場合にはUltraよりも1.5 Proの方が適すると考えられている
OpenAIはOpenAI ChatGPTの有償モデルであるChatGPT Plus、Team、Enterpriseに最新の旗艦モデルを導入し、しばらくすると機能制限を付けるかたちで旗艦モデルを無償版のChatGPTでも利用できるようにしている。GeminiのライバルにあたるChatGPTがこの取り組みを行っている限り、Geminiにおいても同様に旗艦モデルが無償版にやってくる可能性が高い。
執筆時点ではGemini 1.0 Ultraは英語版のみで提供されており、日本語版ではGemini 1.5 Proまでしか使えない。まずはGemini AdvancedでGemini 1.0 Ultraが英語以外の言語に対応し、そのあとある程度の時間が経過した段階でGemini 1.5 ProがGeminiに制限付きのかたちでやってくる可能性が考えられる。どうなるか分からないが、Gemini 1.0 Ultraまたはこれに類する機能も最終的にGeminiにやってくる可能性が高いだろう。
2. マルチモーダル機能の強化
無償版のGoogle Geminiは言語モデルとして「Gemini Pro」を採用している。このモデルはマルチモーダルモデルの言語モデルであり、テキストのみならず画像や音声といったデータも処理することができる。しかし、Gemini Proはどちらかというとテキストに注力した言語モデルであり、動画などを扱うことはできない。
Googleは現在日本語版のGoogle Gemini AdvancedでGemini 1.5 Proをモデルとして提供しており、このモデルはデータとして動画も扱えるようになっている。これは現在日本語版では提供されていないGemini 1.0 Ultraでも同様であり、GoogleはGeminiの新しいモデルでマルチモーダル機能を強化している。
Gemini 1.5 ProやGemini 1.0 Ultraの機能が無償版のGoogle Geminiにやってくることで、現在では処理できない動画も処理できるようになるものと考えられる。
いつ実現するかは定かではないが、現在のまま技術開発が進められた場合には動画の内容をリアルタイムに翻訳したり、動画の内容に対してリアルタイムに質問を行うといったことも可能になっていくものとみられる。
3. 画像生成機能
OpenAI ChatGPTの有償版であるPlus、Team、EnterpriseやMicrosoft Copilotには画像生成機能であるDALL・Eシリーズが統合されており、チャットによる指示で画像を生成することができるようになっている。
Googleは現在画像生成機能を英語版のGemini 1.0 UltraおよびGemini 1.5 Proで提供しており、日本語版では利用することができない。しかし、OpenAIやMicrosoftが画像生成機能を提供している中、Googleだけが一部でしかこの機能を使うことができないという状況に放置するとは考えにくく、いずれはGemini 1.0 UltraおよびGemini 1.5 Proの多言語対応を行い、無償版のGeminiに提供することで画像生成もできるようになるものとみられる。
OpenAIのDALL・Eの最新版であるDALL・E 3は画像を生成することはできるが、日本語を画像の中に含めることについては対応していない。GoogleがOpenAIよりも先に画像内における日本語の扱いに対応した場合には、Google Geminiの方が日本における画像生成の利用において有利になる可能性もある。
4. 入力可能データ数の引き上げ
汎用生成AIチャットは受け付けることができるデータ数の上限を新しい言語モデルになるにつれて引き上げている。書籍や資料などに基づいた内容に質問をする場合などは入力可能なデータ数がそれなりに大きい必要があるため、旗艦モデルでは入力可能なデータ数が引き上がっていく傾向がみられる。
Googleもこの動きは同じであり、無償版にやってくるときには入力データ数に制限が設けられる可能性が高いものの、それでも従来のデータ数よりも増えることは確実ではないかと考えられる。
進歩するGemini
現在の旗艦モデルで実現されている機能が無償版のGoogle Geminiにやってくることを考えると、その時期がどうかるかは別として、いずれかの段階で現在有償版に提供されている機能は無償版にもやってくる可能性が高いものが多いようにみえる。
無償版のGoogle Geminiにやってくるときにはフル機能ではなく何らかの制限がかかるものとみられるので、現在のGoogle Gemini Advancedで提供されている機能がそっくりそのまま利用できるようになるとは考えない方が良さそうだ。しかし、将来にわたって改善されていく可能性が高い現状であることについては認識しておこう。
これはつまり現在Google Geminiの使い方に精通しておいて将来に損はないことを意味している。ぜひこのタイミングでGoogle Geminiを試してもらえればと思う。