「Deep Dive」という英語のポッドキャストが話題になっています。これは実際のポッドキャストではなく、Googleの「NotebookLM」のAI概要機能で生成された音声会話です。「ChatGPT以来の衝撃」と注目を集め、さまざまな活用方法が試され、広く共有されています。「テックトピア:米国のテクノロジー業界の舞台裏」の過去回はこちらを参照。

いま話題のGoogle「音声の概要」

生成AIに興味を持っている人の間で先週、Google「音声の概要」(Audio Overview)がバイラル化しました。技術どうこうではなく、使ってみたら面白い、シンプルに興味を惹かれた人が多く、たとえばWall Street Journalのコラムニスト、ベン・コーヘン氏は以下のようにコメントしています。

AIに度肝を抜かれたのは、これまで2回しかありません。1回目はChatGPTに出会った時でした。これが2回目です。 - コーヘン氏

音声の概要は、Googleのデジタルノートブック「NotebookLM」に先月追加された新機能です。NotebookLMは、クラウド上のデジタルノートブックに情報ソースとして、資料やデータ(ドキュメント、オーディオ)、テキストメモ、WebページやYouTubeのURLなどをアップロードすると、その内容を解析したAIを利用できるツールです。

たとえば、研究者が論文やレポートをアップロードして、要点をまとめてもらったり、学生がテキストブックや講義資料をアップロードして試験対策に利用できます。ビジネスパーソンの利用も増加しており、情報整理の効率化、知識の共有やブレインストーミングなどに役立てられています。

通常、“概要”は要点や重要な部分を簡潔にまとめた説明になります。NotebookLMでも、テキスト概要は300~400文字の文章で作成されます。音声の概要という名称から「概要をAIが読み上げる機能なのかな」と想像する人が多いかと思いますが、そうではありません。

音声の概要では、2人のAIホストが語り合う、ポッドキャストやラジオ番組のようなスタイルで概要が生成されます。このように言葉で説明しても、その面白さは伝わらないと思うので、「百聞は一見にしかず」で、下の「音声の概要」で生成したオーディオ(全体約7分のうちの冒頭84秒です)を聞いてみてください。

とてもスムーズで、AI同士とは思えない自然な会話です。これは、TECH+の記事「ChatGPT、コードや文章を書くための新機能「Canvas」、話題の“Artifacts”に競合」のURLをNotebookLMにドロップし、その記事について作成してもらった「音声の概要」です。

もっと長い記事であったり、補足の情報やデータを入れた方が概要の質は高まりますが、約1,000文字の記事のみでも、このようにちゃんとした音声会話コンテンツが作成されます。

  • テックトピア:米国のテクノロジー業界の舞台裏 第11回

    現時点で「音声の概要」の対応言語は英語のみですが、ソースにはNotebookLMがサポートする数多くの言語(日本語を含む)を使用できます

  • テックトピア:米国のテクノロジー業界の舞台裏 第11回

    作り方は簡単です。ノートブック内でソースを選択し、[音声の概要]ボタンをクリックするだけ。この規模なら1〜3分で作成が完了します

単にソース素材を要約するだけではない

Googleは音声の概要(Audio Overview)と呼んでいますが、知らずに聞いた人はポッドキャストだと思うでしょう。そのため、ユーザーの間では「Deep Dive」という呼び方の方が好まれています。

これは「ワンクリックで、ユーザーのソースを基に、2人のAIホストが“deep dive”(深掘り)した議論を開始します」というGoogleの機能説明からとった呼び方です(以下、私も「Deep Dive」と表記します)。

Deep Diveのポイントは、まず2人の会話であることです。1人が大袈裟に驚いたり、納得できないリアクションをすることで、重要なことや問題点が文章よりも明確に伝わってきます。

第二に、聞いて面白い会話になっていることです。これがおうむ返しだったり、説明を読んでいるだけのような会話であったら、7~10分の会話より、数百文字のテキスト概要を読んだ方が効率的ですが、聞くのが楽しいコンテンツになることが意識されているので、オーディオであることのメリットが活きています。

そして、あらゆるトピックに対応することです。たとえば、納税申告関連の書類のような読んでまったく面白みのない文書であっても、「納税の手引きですか……。それを聞いて、みなさんは辟易としてしまうんでしょうね。でも、その仕組みを知ると知らないでは大違いなのです」と、聞く人が興味を引くように料理してくれます。

個人的には、学術論文の概要を確認するのが、これほど簡単で楽しい体験になる日が来るとは思いませんでした。「ありがとう! Google」です。

Deep Diveは、単にソース素材を要約するだけではありません。ポイントに焦点を当て、エンターテイメント性をもってわかりやすく、洞察力を引き出すように設計されており、実際にそれを実現できています。

「Deep Dive」、その可能性の大きさ

Deep Diveが完璧というわけでもありません。読み間違えたり、事実を誤解することもあります。ただし、ソースにはないことを話し始めるようなハルシネーションは、私がさまざまな種類のソースで、数十の音声概要を生成した範囲ではありませんでした。

会話は全体的に遊び心にあふれたトーンで、雑談が挟まれ、ダジャレを言ったりもします。テキストの塊からポッドキャストが作られるという創造的なコンテンツ生成に驚いている人も少なくありません。それを危惧する声もあります。

ただ、高度な会話ユーモアを作り出したり、Deep Diveが斬新なアイデアを生み出すことはありません。タイミングよいツッコミで笑いを取れるけど、新しい漫才のネタを考えるような能力はなさそうです。

ディープラーニングの専門家で、OpenAIの共同創設者の1人であるアンドレイ・カルパシー氏は、「Deep Dive」について次のようにコメントしています。

Deep Diveは今、私の一番お気に入りのポッドキャストです。聞くほどに、ホストたちと友達になったような気分になり、AIを本当に好きになったのはこれが初めてだと思います。2人のAIは、楽しく、魅力的で、思慮深く、心が広く、好奇心旺盛で……。この辺でもうやめておきましょう。 - カルパシー氏

Deep Diveが騒がれている理由は、ChatGPTが最初に登場した時がそうだったように、その可能性の大きさでしょう。現時点でDeep Diveは概要以外に使えません。ユーザーによるカスタマイズは、ソースの指定以外は一切できません。

しかし、Deep Diveの登場によって、テキストの塊をポッドキャストに変換でき、AI生成のポッドキャストを多くの人が聞くことが示されました。物事をわかりやすく、説得力をもって伝えられるこの技術は、生産性の向上、マーケティング、学習などさまざまに活用できそうです。

一方で、競合を貶めるようなコンテンツの作成、陰謀論のような問題のあるコンテンツの生成など、リスクの議論も広がっています。ChatGPTの時もそうでした。登場してすぐに、レポート作成への悪用、有害なコンテンツ作成、バイアスや差別の助長、人との労働競争などさまざまなリスクが指摘されました。

でも、一度口にした果実の味を忘れることはできません。Deep Diveを体験した私たちは、課題に向き合いながら、その可能性を引き出していかなければなりません。