Google Geminiの連載は今回で最終回だ。これまで連載を読んでGoogle Geminiを試してみてくれた方々に感謝したい。Google Geminiは今まさに発展の最中であり、今後も機能の追加や賢さの向上が期待できる。今回はGoogle Geminiのこれまでの進化を振り返りつつ今後のアップデートの可能性などについて言及し、連載を締めくくる。
連載「Google Geminiの活用方法」のこれまでの回はこちらを参照。
Google Geminiのこれまでの進化
Googleの生成AIであるGeminiは試験運用がはじまった当時はBardという名称で提供されていた。広く試験運用を利用できるようになったのは2023年に入ってからであり、そこから急ピッチで開発が進められてきた。
Googleは「Gemini アプリの機能アップデート」にその歩みをまとめているので、ここではその発展の様子を主な内容に絞って要点を列挙しておく。Googleがこの1年半ほどでGeminiをどのように進化させてきたのか確認してほしい。
2023年4月10日
Bardの試験運用版に関する最新の機能や改善内容、バグ修正を知らせる「試験運用版の最新情報ページ」をリリース。一般ユーザーがBardの新機能を確認したりフィードバックを提供したりできるようになった。
2023年4月21日
Bardで20以上のプログラミング言語のサポートが可能になり、PythonコードのGoogle Colabへの直接エクスポート機能が追加された。Bardを通じてコーディングがより効率的に行えるようになった。
2023年5月5日
Google Workspace管理者がドメインごとにBardを有効にできる機能が追加された。Workspaceアカウントを使用してBardを業務や研究に活用できるようになった。
2023年5月10日
英語に加え日本語と韓国語でもBardが利用可能になり、180カ国以上のユーザーがBardを活用できるようになった。
2023年5月15日
大規模言語モデルを活用した要約機能の精度が向上し、トピックの要点を素早く確認するための要約をより適切に生成できるようになった。
2023年5月23日
Bardに画像が導入されGoogle検索から画像を表示できるようになった。これにより視覚的要素を活用した提案やコンセプトの具体化が可能になった。
2023年6月1日
Bardが正確な位置情報を使用してより関連性の高い回答を提供できるようになった。位置情報を使用することで地域に密着した情報の表示が強化された。
2023年6月7日
Bardがバックグラウンドでコードを実行し数学的タスクやコーディングに関する質問に対してより正確な回答が可能になった。計算能力が強化された。
2023年7月13日
Bardがアラビア語、中国語(簡体字・繁体字)、ヒンディー語、スペイン語など40以上の言語に対応し、さらに欧州連合(EU)やブラジルでも利用可能になった。BardにGoogleレンズが導入され、ユーザーはテキストだけでなく画像をアップロードして会話に含めることができるようになった。視覚的な表現力が大幅に向上した。
2023年9月19日
Bardの最新モデルが導入されコーディングサポートや多様な視点に基づくトピックの学習など機能の品質が向上した。より直感的かつクリエイティブな共同作業が可能になった。
2023年9月27日
Bardが回答の際に2つの回答案を表示することがあるように動作を変更した。好きな回答を選択することでフィードバックを与えることができるようになった。
2023年10月23日
Bardの会話に画像を含めた共有が可能になった。これにより他のユーザーも画像を含めた会話のプロンプトを確認しより理解を深めることができるようになった。
2023年10月30日
Bardの回答がリアルタイムで表示可能になり回答が生成される過程で逐次表示されるようになった。これによりユーザーは待たずに回答の確認が可能となった。
2023年11月16日
Bardが13歳以上のユーザーにも利用可能となりユーザー層が拡大された。新しいオンボーディングプロセスと保護機能も導入され、安全に利用できる環境が整備された。
2023年12月18日
Bardの拡張機能が日本語と韓国語でも利用可能になった。これによりYouTubeやGoogleマップなどのリアルタイム情報にアクセスできる範囲が広がった。
2024年2月1日
Gemini Pro搭載Bardが対応する言語を拡大し、全世界で利用可能になった。Bardのダブルチェック機能もほとんどの対応言語で利用可能になり、ユーザーが回答をより適切に評価できるようになった。
2024年2月8日
Bardは「Gemini」へと名称が変更された。UIが改善され、視覚的な要素が減少し、操作がよりシンプルで読みやすくなった。
Gemini Advancedが高性能なAIモデル「1.0 Ultra」の提供を開始した。コーディング、論理的推論、クリエイティブなコラボレーションなど、複雑なタスクを効率的に処理できる。
スマートフォンでの利用が可能になりGmailやGoogleマップなどのGoogleアプリとも統合された。テキスト、音声、画像を使ってのやり取りが可能になった(米国で英語版での提供)。
2024年2月20日
Gemini AdvancedでPythonコードの編集と実行が可能になった。この機能によりユーザーはコードを直接テストし、その動作を確認できる。
2024年4月30日
Geminiアプリが日本語、韓国語、スペイン語、ポルトガル語など、20以上の言語で利用可能になった。多言語対応によりより多くのユーザーがAIツールを活用できるようになった。
2024年5月14日
Gemini Advancedが次世代モデル「1.5 Pro」を搭載し大量の情報処理や高度なタスクをより効率的に行えるようになった。アップグレードによりドキュメント分析やデータ処理も強化された。
2024年5月21日
複数のスプレッドシートをアップロードしてデータを処理・分析できる機能が追加された。これにより迅速なデータ処理とプレゼンテーション用のグラフ作成が可能になった。
2024年5月23日
Google Workspace for Educationユーザー向けにエンタープライズクラスのデータ保護機能を備えたGemini EducationアドオンとGemini Education Premiumアドオンがリリースされた。教育機関のリーダーやスタッフ、18歳以上の学生はプライバシーとセキュリティが確保された環境で効率的に学ぶことができる。
2024年6月5日
Geminiモバイルアプリが、英国、ドイツ、フランスなどで利用可能になった。AndroidおよびiOS対応によりモバイル環境でもAI機能が活用できるようになった。
2024年6月18日
インドでGemini Advancedが利用可能になり次世代モデル「1.5 Pro」やドキュメントアップロードなどの機能が提供されるようになった。
2024年7月15日
Google Workspaceアドオンのベータ版が定期購入者向けに提供開始され、GmailやGoogleドライブの拡張機能が利用可能になった。
2024年7月25日
Geminiに「1.5 Flash」モデルが搭載され応答速度と効率が大幅に向上した。コンテキストウィンドウも拡大されより複雑なタスクの処理が可能になった。
2024年8月1日
13歳以上のユーザーによるGeminiの利用が許可される国と言語が拡大された。オンボーディングプロセスやAIリテラシーガイドも導入された。
2024年8月15日
Gemini Advancedが「1.5 Pro」を搭載し推論やコーディングにおいてより精度の高い回答が可能になった。より高度なタスクの処理に特化した機能が強化された。
2024年8月26日
Google Workspaceアドオンの登録者向けにドキュメントのアップロードやデータ分析機能が提供開始された。様々なドキュメント形式に対応し、ビジネス用途での活用が推奨されている。
2024年8月28日
Gemini AdvancedとGoogle Workspaceアドオンのユーザー向けにカスタムAIエキスパート「Gem」が登場した。作業効率を高めるためにカスタマイズされたワークフローの自動化が可能になった。
2024年8月29日
Google Workspace for Educationユーザー向けにデータ保護機能が追加された。AIモデルのトレーニングにデータが使用されないことが保証され、より安全な利用環境が整備された。
2024年8月30日
「Gemini 1.5 Flash」モデルにより応答速度が50%向上した。これによりレイテンシが大幅に改善され、迅速な応答が可能になった。
2024年9月4日
Gemini for Google Workspaceアドオンの定期購入者が回答内の関連コンテンツにアクセスできるようになった。リンクを通じて追加の情報に容易にアクセスできる。
執筆時点までに日本で利用可能なGoogle Geminiに搭載された機能などを中心に変遷をまとめた。GoogleはBard (Geminiの前身)をリリースしてから急ピッチで開発を進め、当時のOpenAI ChatGPTやMicrosoft Copilotの生成AIチャットサービスが提供しているのと同じ機能を提供すべく取り組みを進めてきたことが分かる。
無償で提供しているGoogle Geminiのレベルがある程度に達すると、今度は有償で提供するGemini AdvancedやGoogleの他のプロダクトおよびサービスにおけるGemini統合が進められている。Googleはいま同社のさまざまなシーンにGeminiを統合するフェーズに入っている。
競合生成AIチャットサービスとの比較
大手テックベンダーはもちろん、世界中の企業が生成AI技術の開発やその技術に基づくサービスの開発に取り組んでいる。Webで公開されているチャット形式のGoogle Geminiは汎用性の高い生成AIチャットサービスであり、この分野にも競合はいくつかある。そうした中でも広く一般にサービスを公開している代表的なベンダーとなると、OpenAIとMicrosoftを挙げることができる。
先端を走るOpenAI ChatGPT
汎用型の生成AIチャットサービスを世界中のユーザーに広く提供を開始した最初のベンダーがOpenAIだ。OpenAIは「ChatGPT」と呼ばれる生成AIチャットサービスの提供を開始し、世界中を驚かせた。それまでのデジタルアシスタントとは一線を画す性能であり、会話によってコンピュータと対話できることを広く認識させた。現在の生成AIムーブメントはOpenAI ChatGPTを発端にしているといって過言ではない。
生成AIチャットの根幹となる仕組みそのものはどの生成AIチャットサービスも似たものであり、実現している機能もよく似ている。そうした中においてもChatGPTは常に先端を走り続けている印象がある。生成AIチャットの性能はそれぞれに得意・不得意があるので一概にどれが優れているとは言えないが、汎用性の高さと全体的な賢さという点ではChatGPTが牽引している印象が強い。
逆にChatGPTの弱いポイントはリアルタイム性だ。OpenAIもこの点は認識しており、すでに有償版のChatGPTではリアルタイム性が強化されており、その差はなくなりつつあるように見える。もう一つは日本語や日本文化への対応にある。外部からは内部の実装を知りうることができないが、ChatGPTは英語を基本言語としており、日本語によるやり取りは翻訳を介しているように見える。日本語ネイティブに動作しているわけではないと見られる挙動が観測でき、今後どこまで日本語や日本文化に対応してくるか不透明なところがある。
GoogleがGeminiでどこまで日本語や日本文化に対応しているかはOpenAIと同じく外部から知る術がない。しかしながら、Googleがインターネット検索で培ってきた技術がある程度はGeminiにも注入されているものとみられ、こうした部分の対応はChatGPTよりも優れている印象がある。
プロダクトとの統合を進めるMicrosoft Copilot
汎用生成AIチャットサービスのもうひとつの大手はMicrosoftだ。MicrosoftはWindowsに同社の生成AI技術であるCopilotを統合し、多くのユーザーがCopilotにアクセスできるようにしている。Windowsが世界でもっとも広く使われているデスクトップ向けのオペレーティングシステムであることを考えると、Copilotはユーザーが最初に触れる本格的な生成AIチャットサービスになっている可能性もある。
MicrosoftはOpenAIに出資を行っている立場にあることから、OpenAIと技術的に近い立場にある。これはMicrosoftがOpenAIの開発する新技術をいち早く利用できるポジションにあることを意味しており、OpenAIの発展とともにMicrosoftの提供する生成AIの機能も向上することになるだろう。
MicrosoftはCopilotの提供を開始してから同社のポートフォリオへCopilotの統合を進めており、さまざまなシーンで生成AIのパワーを使えるようにしている。多くのケースでサブスクリプション契約が必要だが、ビジネスで要求されるシーンで支払いに見合う対価の提供に取り組んでいる。
無償版のCopilotとしてはWindowsに統合されたCopilot in WindowsとMicrosoft Edgeに統合されたCopilot in Edgeなどがある。特にMicrosoft Edgeに統合されたCopilotはEdgeの価値を大きく引き上げている。Webブラウザに統合された生成AIチャットは使い勝手がよく、Edgeの価値を引き上げている。
この点、GoogleはChromeにGeminiを積極的に統合しようとはしていないように見える。Googleはインターネット検索が収益において重要なポジションを占めているため、ChromeにGeminiを統合してGoogle検索を回避するようになるとビジネスの根幹が揺らぎかねない。この点に関しては今後のGoogleの動向に注目していきたいところだ。
Google検索という最大の利点を持つGemini
生成AIが登場してから情報検索の選択肢はGoogle一択といった状況からChatGPTといった生成AIを使うように多様化が進んでいるように見える。Googleの最大の強みはこのGoogle検索というポートフォリオを持っているという点にある。
Googleはインターネット検索において支配的なシェアを持っており、Google検索にはさまざまな機能が統合されてきた。GeminiもこうしたGoogle検索の機能が統合されており、ChatGPTが適切に回答することができないものにも回答できるケースを備えている。リアルタイム性や、回答として表示されたデータの根拠となるWebページへのアクセスなども提供されており、ケースによってはChatGPTよりもGeminiの方がよほど使いやすい。
Geminiがどの程度日本語に対応しているかは外部からは知ることができない。システム的には英語がベースとなっており、日本語に関しては翻訳をベースとして機能しているかもしれないし、日本語ネイティブに動作している可能性もある。このためなんとも言えないが、Geminiは比較的日本語対応や日本文化への対応が優れているように見える。
今後の展望とGoogle Geminiの未来
Googleが今後Geminiやその技術をどのように発展させていくかを外部から知ることはできないが、現在までに公開されている情報やほかの大手テックベンダーが取り組んでいる内容などから、ある程度の方向性は見出すことができる。特に可能性が高そうな内容をまとめると次のようになる。
生成AI機能の強化
Geminiが採用しているモデルが順当に進化してさらに正確に質問に対して回答できるようになることが考えられる。ある程度まで開発が進むと頭打ちになる可能性もあるが、しばらくは基本的な性能の向上へ向けた取り組みが進められることになるとみられ、その成果はGeminiの技術を利用するさまざまなシーンで恩恵として現れるものとみられる。
また、基盤となる技術の開発に加えて、特定領域での強化も進められることが予測される。医療、金融、法律といった特定の領域に特化した生成AIの開発を進めることで、業界特有の知識を活用したソリューションの提供が進められることが考えられる。
マルチモーダルAIの進化
現在の生成AI技術の開発はマルチモーダル対応の強化にひとつの焦点が当てられている。これはテキストのみならず画像、音声、動画といったデータに関してもテキスト同様に扱えるようにしようというもので、異なるデータ形式であっても同様に扱うことが可能になるものとみられる。
例えばGoogleはYouTubeといった巨大な動画プラットフォームを持っており、マルチモーダル対応にはかなりの意味がある。同社が動画を含めたマルチモーダル対応に力をいれるのは当然と言えるだろう。
Googleポートフォリオとの統合
GoogleはGmailやGoogleカレンダーをはじめさまざまなアプリケーションをWebで提供している。Googleドキュメント、Googleスプレッドシート、Google Meet、Googleマップ、組織に対してはGoogle Workspaceなど挙げれば切りがない。こうしたさまざまなサービスにGeminiにパワーを導入することは間違いない。
生成AIがもたらす生産性の向上は劇的なものがあり、ユーザーはそれを望んでいる。Googleは今後もさまざまなサービスにGeminiのパワーを統合していくものとみられる。
ChromeとGeminiのさらなる統合?
MicrosoftはMicrosoft EdgeにCopilotのサイドパネルを導入した。このパネルによってユーザーはWebブラウジングをしながらシームレスに生成AIチャットを活用することができ、多くの作業を自動化することができている。Googleはこれと同じことをChromeに導入する姿勢を見せていないが、他の方法でGeminiの機能を取り込む可能性がある。
Microsoft EdgeのCopilotパネルのように全面的に生成AIチャットが使われていることを押し出さなくても、Webブラウザが生成AIのパワーを利用するシーンはいくらでもある。個々に機能の裏側にGeminiの技術を取り込んでくる可能性があり、今後の動向を注目しておきたいところだ。
読者へのメッセージ
ここまで「Google Gemini」を中心に展開してきた連載をお読みいただき感謝したい。生成AIという分野は現在進行系で急速に発展しており、今後もしばらくその進化は留まらないことが予測される。本連載を通じて読者の皆さまがGoogle Geminiの可能性に気が付き、日常や業務にどのように活用できるかを考える一助となれば幸いだ。
技術は常に進化し続ける。変わりゆく技術になんとなく身を委ねるのではなく、自分からその変化を捉えて新しい可能性を見出す方が可能性が開けると思う。Google Geminiはこれからさらに強力なツールへと進化し、私たちの生活や仕事における新たなパートナーとして活躍していくことは想像に難しくない。読者の皆さまがこの技術の進化を見守り、その恩恵を受けることができればと願っている。
今後も生成AIの世界がどのように展開していくかぜひ期待を持っていただければと思う。これまでのご愛読に感謝しつつ、次なる技術革新を共に迎える日を楽しみにしている。