米Googleは5月20日(現地時間)、年次開発者カンファレンス「Google I/O」において、AIアシスタントアプリ「Gemini」の複数の機能強化を発表した。これらのアップデートは、ユーザー体験の向上、創造的な作業の支援、より深い情報分析の実現を目的としている。

まず、Geminiアプリの新しいデフォルト基盤モデルとして改善された「Gemini 2.5 Flash」が採用された。高い応答の品質を維持しつつ、処理速度を向上させており、より迅速で快適なユーザー体験を実現する。

Geminiのマルチモーダル性能を活用した機能「Gemini Live」が、AndroidおよびiOS向けに無料で提供される。同機能は、スマートフォンのカメラ映像や画面をGeminiとリアルタイムで共有し、音声による対話を行えるものである。例えば、旅行先で建物にカメラを向けながらその歴史について質問したり、故障した家電を見せながらアドバイスを受けたりすることが可能である。これまでは一部端末に限定されていたが、全ユーザーに広く解放される。さらに今後、Googleマップからの道案内、Googleカレンダーへの予定作成、GoogleタスクでのToDoリスト作成など、他のGoogleアプリとの連携も順次進む予定である。

  • Google Live

    手書きの買い物リストを「Gemini Live」でGoogle Keepのメモに

情報分析機能「Deep Research」では、ユーザーが保有するPDFファイルや画像をアップロードし、それらを公開情報と組み合わせて分析できるようになった。例えば、市場調査担当者が社内の売上データと市場トレンドを照合したり、研究者が論文を取り込んで文献レビューを深めたりすることが可能となる。今後GoogleドライブやGmail内の情報とも連携できるようになる予定で、よりパーソナルな領域にもデータ分析を活用できるようになる。

クリエイティブ作業においては、「Canvas」機能が強化された。Gemini 2.5モデルの導入でより強力なツールとなり、インタラクティブなインフォグラフィックやクイズ、さらには45言語に対応したポッドキャスト風の音声概要(Audio Overviews)を作成できる。また、Gemini 2.5 Proを用いて自然言語での指示からWebサイトやアプリのプロトタイプを生成するVibe codingが可能になり、非エンジニアでもアイデアをすばやく形にできる。

画像生成モデル「Imagen 4」と動画生成モデル「Veo 3」がGeminiアプリに組み込まれた。Imagen 4は、高精細な画像生成に加え、画像内の文字表現が大幅に改善され、生成速度も向上している。プレゼンテーション資料の挿絵、SNS向けの目を引くグラフィック、イベントの招待状デザインなど、見た目にこだわりたいあらゆる場面で活用できる。

Veo 3は、単に動画シーンを生成するだけでなく、効果音や環境音、登場人物のセリフなどを含む映像の生成が可能である。例えば「海辺を歩く2人の会話」を指示するテキストプロンプトから、波音や風の音、人物のセリフを含む映像を生成できる。このように映像と音声が一体となった生成技術は、プロモーション映像や教育コンテンツ、ストーリーテリング形式のビデオ制作など、幅広い用途でクリエイターの表現力を高めることが期待される。Veo 3は、米国において提供が始まった「Google AI Ultra」プランの加入者に向けて、早期アクセスが提供される。