グーグル・クラウド・ジャパンは10月24日、オフラインとオンラインのハイブリッドにより「Generative AI Summit Tokyo '24 Fall」を開催した。本稿では「Google の生成 AI がビジネスを次のステージへ。~活用事例と LLM 開発の今~」をテーマにした基調講演をお伝えする。
生成AIの活用フェーズごとに支援するGoogle Cloud
冒頭、Google Cloud テクノロジー部門 統括技術本部長の寳野雄太氏は「2024年に入ってから生成AIは“試す”から“使う”フェーズになっていると感じていると思います。何に使えるのか?というところから、特定用途のAIエージェントとして使うことで生成AIは実用化、そしてビジネスの価値につながります」と述べた。
続けて、同氏は「これまで企業において、さまざまなサンドボックスあるいはプレイグラウンド環境でチャットのアプリケーションとして試し、全従業員に開放しても使用している割合が1割以下だという話をよく聞きます。このような状況ではビジネスインパクトは出づらい」と話す。
寳野氏によると、生成AIの取り組みは「試す、慣れる」「活用する」「組み込む」のフェーズで汎用業務からコア業務に段階を引き上げていくことが望ましいという。同氏は「生成AIの価値を引き出すためには自社のコア業務や競争力のある領域で生産性を向上させるとともに、利益率を高めていく取り組みを進めていく必要があります。こうした領域では自社特有の業務になることから、自ら開発して日常業務に組み込むことで生成AIの可能性を発揮できます」とも語っている。
試す、慣れるフェーズで同社では生成AIの「Gemini 1.5 Pro/1.5 Flash」を提供しており、200万トークンを備えるとともに、同モデルを発表してからAI統合プラットフォーム「Vertex AI」でのGeminiの利用が36倍に増加したという。また、先日には会話型の生成AI「Gemini Live」が日本語に対応したことを発表している。
活用するのフェーズで同社は「Gemini for Google Workspace」と「Gemini Code Assist Enterprise」を提供。Gemini for Google Workspaceでは、Gmailのメール下書きやメールの要約、Google ドライブのファイル取得・要約を行う「サイドパネル」の日本語をα版で提供を開始している。
Gemini Code Assist Enterpriseでは、GithubやGitLabなどに格納されたコードレポジトリをコンテキストとして理解し、単一関数の生成補助からユーザーのコードを背景としたコード生成を行う。日本語に対応していることに加え、Google Cloud以外でも利用でき、サーバサイド、データ分析、データベースの移行に対応した開発者向けのサービスとなる。
そして、組み込むフェーズではVertex AIを提供している。寳野氏はAIエージェントの実装に必要な要素として「モデルを選び、モデルを使いこなし、エージェントとして仕上げる。この3工程で実用化が可能になります」と説く。
Vertex AIはModel Garden、Model Builder、Agent Builderで構成されている。Model Gardenは、GeminiのほかAnthropicno「Claude」などサードパーティのLLM(大規模言語モデル)を含め、150超のモデルを選択できるほか、Model Builderでモデルの拡張、管理、監視などモデルのライフサイクル管理を可能としている。Agent Builderは意味ベースの検索を提供する「Vertex AI Search」など、AIエージェントを素早く実用化するサービスを提供。
また、画像生成AI「Imagen」の最新版「Imagen 3」は画像生成だけでなく、画像編集に強みを持っている。例えば、商品の画像を変えずにEC向けに背景だけを変更するなど、実用的なユースケースが思い浮かぶ画像の生成ができ、著作権の補償付きで提供している。
生成AIの実用化に向けた課題
一方で、エンタープライズにおける生成AIの実用化に向けた課題もある。マッキンゼーの調査では、63%の組織が自社のAIのユースケースにおけるリスクとして「不正確な情報」を挙げているという。いわゆるハルシネーションだ。
これを防止するためのものとして寳野氏は2つのトレンドを示した。1つはロングコンテキストによる「解釈違い」の低減だ。これまでは、トークンに制限がある中でRAG(検索拡張生成)などのアプリケーション技術などに頼らざるを得なかったが、Geminiはトークン数が200万と大きいため、すべてのコンテキストをふまえて情報を取捨選択し、回答を生成することから、生成AIアプリケーションのあり方自体を変えるとのこと。
もう1つは、生成AIに「知識」を答えさせないこと。寳野氏は「ハルシネーションの原因の一部は生成AIが知識を持たないにもかかわらず、無理矢理に回答してしまうといった事象に起因します」と指摘。
そのため、Vertex AIでは「High Fidelity Mode」(高忠実度モード)として提供し、生成AIが持つ知識から回答せずに、与えられたドキュメントソースからのみ回答を行うことを可能としている。
労力がかかる映像素材へのメタデータ入力
続いて、TBSテレビ メディアテクノロジー局 メディアソリューション部 部長の柿沼司氏により、同社の導入事例が紹介された。柿沼氏は現在、テレビ番組制作における映像編集設備のシステム開発を担当している。
同氏は「TBSではドラマやバラエティ、ワイドショーなど、日々多くの番組を放送していますが、1つの番組を作るにはさまざまな映像素材が必要になります。例えば、ニュースでは放送されている各ビデオクリップは短いのですが、20分ぐらいのニュースで30本、3時間番組で100本ほどになります」と説明する。
ビデオクリップは、当日に撮影された映像に加え、過去の映像も利用する。一例として、先日の自民党の総裁選で石破茂氏が当選して新総裁として任命された際は、同氏が初当選したときの映像を膨大なアーカイブの中から最適なものを探して、映像をつなげている。
こうした映像は撮影した記録デバイスのパッケージにカメラマンがメモを書き、より詳細な情報をシステムに入力するなど、素材を探し出すためにはメタデータが必要となっている。この入力作業はすべて人手で成り立っているとのこと。
柿沼氏は「ニュースに映っている人は誰か、テロップの内容、スポーツの試合結果、権利情報などを入力しています。ニュースついては1本1本の放送でメタを入力しており、手間がかかる日・かからない日、本数が多い日・少ない日などがありますが、大体2週間ほどでメタの入力をしています。これはTBSだけでなく、全世界的な問題でもあります」との認識を示す。
同氏は、オリンピックの放送センターを例に挙げ、さまざまな会場で行われている競技映像を数十回線も同時に収録し、映像素材に対して「~時~分に○○選手が一投目を投げて記録が~メートル」とメタデータを付けるためだけに数百人が作業しているという。
TBSが導入したGemini 1.5 Proの効果
柿沼氏は「これまでTBSではOCRで文字を認識してテロップを整理したり、音声認識で文字起こしをしたりするなど、業務改善に取り組んできました。映像の内容を文字で書き起こすことは放送局にとっては悲願であり、新しい映像制作のワークフローをGoogle Cloudと共同で解決できないかと考え、今年初めにGemini 1.5 Proで“試してみる”という機会を得ました」と振り返る。
Gemini 1.5 Proは長尺の動画が扱えるため、まずは試しにニュースやスポーツとか関係なく、さまざまな素材を投入した。
動画を扱えるとは言え、ナレーションやテロップなどが多く入り、動画自体もストーリー性があるものは質の良い結果が得られることが分かり、3分ほどの動画であれば人間だと40分かかるものが4分に短縮できたとのこと。しかし、それと同時にコツが必要であることも判明した。
同氏は「“映像内容を書いて”と指示するだけだと、テロップの内容ばかり拾ったり、ナレーションに引っ張られたりバランスが取れないことがあります。テロップが出たタイミングを信じすぎてしまい、別の人であると言ってしまう。また、野球に関して音声では少し前の打者の話を実況・解説がしていると、バッターボックスに立っている打者だと間違えてしまうことがありました」と利用を通じた課題の発見もあったという。
こうしたことから、同氏は2つの工夫を施すことにした。まずは、AIに渡す映像からテロップとナレーションを外して内容を書き起こし、その後にテロップおよびナレーション入れを行い、テロップ入り、ナレーション入りと素材を分けて最終的にCSVにまとめて出力することで構造化メタデータとした。
そして、2つ目はハルシネーション対策だ。柿沼氏はニュースを対象にチャレンジした。もともとニュースは誤った情報が入ることは許されないため、何重にもチェックする体制がある。
従来は素材に人手によりメタ打ち作業を行い、別の人がチェックしていたが、メタ打ち作業自体をAIで自動作成することで人がチェック・修正することで負荷の軽減が可能であるかの有効性を確認した。検証では3分22秒の動画の作業時間が従来プロセスと比較して65%減、1分44秒の動画で31%減という結果を得た。
同氏は「現在、システムを開発しており、間もなく運用をスタートできます。映像素材は3日間のうち7割程度は再利用されることから、現在は1週間以上かかっているメタ付けの作業が3日以内で完了するとなれば、編集に利用する映像素材の検索がラクになります。AIのクセやハルシネーションなど、実利用で不都合な側面もあるため利用をスタートしていく中でプロンプトエンジニアリングなども磨き、利用可能なシーンを試して、映像、制作業界における共通の課題を解決していきます。次は最も効果が期待できるスポーツ素材に挑戦したいと考えています」と意気込みを述べ、プレゼンテーションを結んだ。