生成AIが日常生活のさまざまなシーンで利用されるようになってきた。ビジネス文書の翻訳・要約や、映像・音声コンテンツの自動生成など、その活用例は幅広い。そんななか「論文を自動でポッドキャスト化できたら、論文の読み方はどう変わるのか」といった視点で新しいサービスを開発したのが、東京大学の苗村研究室だ。サービス開発にはGoogle Cloudを活用し、Google Cloudに特化したSIerであるクラウドエースが契約関連の支援を行っている。

  • (左から)
    クラウドエース株式会社 事業推進本部 / 第四事業部 カスタマーエンジニア 吉村 恒平氏
    クラウドエース株式会社 事業推進本部 / 第四事業部 リーダー 中川 知紘氏
    東京大学大学院 情報学環 教授 苗村 健氏
    東京大学大学院 学際情報学府 学際情報学専攻 先端表現情報学コース 博士課程 矢作 優知氏

LLMを用いて研究論文を“会話形式ポッドキャスト”に変換するサービスを開発

東京大学大学院博士課程の学生らが、生成AIを活用して研究論文からポッドキャスト形式のトーク番組を自動生成するサービスを開発し、話題を集めている。

このサービスは「PaperWave」と呼ばれ、PDF形式の学術論文をアップロードすると、生成AI技術であるLLM(大規模言語モデル)が論文の内容をもとに、自動的に論文の要点について議論する会話の台本を生成し、MCとゲストがやりとりしているようなトーク番組を作り上げるというものだ。

英語の論文は自動的に日本語の音声に変換され、配信する番組の長さは5分、15分など自由に設定できる。トークの背後では自然なBGMも流れる。サービスの利用者は、研究論文の内容をポッドキャストの視聴者としていつでもどこでも好きなときに「ながら聞き」できるのが、PaperWaveの魅力である。2024年12月に電子情報通信学会HCGシンポジウムで発表すると、最優秀インタラクティブ発表賞を受賞。ヒューマン・コンピュータ・インタラクション(HCI)分野の著名な国際会議CHI2025にも採択され、Case Studiesとして発表予定である(https://arxiv.org/abs/2410.15023)。

  • PaperWave利用のイメージ

すでに「論文を効果的に聴けるアプリ」としてビジネスの現場でも使えるほどの完成度を持つPaperWaveだが、そもそもの狙いは要約精度の向上や時短による効率化などとは別なところにあったという。研究開発をとりまとめた東京大学大学院 苗村研究室に所属する矢作優知氏はこう話す。

「この研究の目的は、LLMによって人々がニッチなテキスト文書に関わる機会がどのように広がるのかを探ることにありました。ポッドキャストのような会話形式のコンテンツは、オーディオブックのような単に文章を読み上げるのと比べ、内容理解を促すとされています。ただ、研究論文のようなニッチな文書は、対話形式で提供されることがありません。そこでLLMを活用し、実際にどのようにニッチな文書との関わり方が広がるのか、ポッドキャストで読み方はどう変わるのかを試行錯誤しながら確認していったのです」(矢作氏)

こうした試行錯誤を行うために採用したアプローチが「自伝的デザイン」であり、それを支えるシステム基盤として採用したのがGoogle Cloudを中心としたクラウドプラットフォームだった。

  • 東京大学大学院 学際情報学府 学際情報学専攻 先端表現情報学コース 博士課程 矢作 優知氏

試行錯誤を繰り返す研究で求められる柔軟なシステム基盤

自伝的デザインは、人とコンピュータの関わりを考えるヒューマン・コンピュータ・インタラクション(HCI)分野で用いられる手法である。

その特徴は、システムの開発者自らがユーザーとなって、システムの使用と改善を繰り返しながらデザイン空間を探索することにある。こうした試行錯誤のプロセスをサポートすることは、クラウドサービスの得意とするところだ。そのため、開発にはLLMを含めクラウドがフル活用されたという。

「自分たちで作ったサービスをメンバー全員で利用して、日常生活と密接に関連するデザインは何かを探索していきました。研究者は、日々多くの論文を読んでいて、メンバーが読む内容は工学系や情報系、教育、心理学、HCI、ロボットなどさまざまでした。ポッドキャストにすることで、ジムでバイクに乗りながら聴いたり、ペットと散歩しながら聴いたりできます。これにより、気軽に論文に触れられるようになる。自分たちでシステムがどう使われるかを確認し、チャットで共有しながら知識との関わり合い方やサービスをデザインする際の課題、議論のポイント、将来的な使い方などを整理していきました。システム基盤としてはもともと研究室でGoogle Workspaceを活用していたことから、Google Cloudを選定しました」(矢作氏)

研究を指導した本研究室の教授である苗村 健氏は、こう話す。

「盛り上がって終わりではなく、ずっと使われ続けるサービスをどう作るかが一つのテーマです。このサービスには、自分でポッドキャストを聴くだけでなく、それをユーザー同士で共有する機能があります。毎日使っていることが記録として残され、それを見てさらにユーザーが集まり、自分流の使い方がはじまる。自分が生み出したものが誰にどんな影響を与えるかを観察することでワクワク感が生まれます。情報過多のなかで人がどう情報を得て、それをどのように共有するとモチベーションが高まっていくか。ポッドキャストに見られるエンタメで培われた技術とLLMを使ってそれを示したところにこの研究の面白さがあります」(苗村氏)

  • 東京大学大学院 情報学環教授 苗村 健氏

クラウドエースがGoogle Cloudの契約関連の課題を解決し、研究開発を後押し

研究は2024年6月にスタートし、サービス開発は9月までの約3ヵ月間で集中的に行った。LLMを活用し、ポッドキャストの構成などを学ばせながら、台本を生成できるようにした。入力したテキストを自然な人工音声に出力する「Text-to-Speech(TTS)技術」によって、生成した台本を音声合成する仕組みだ。

「生成AIを用いたちょっとした遊びで『論文をポッドキャスト化してみた』ところ面白かったというのが今回の研究の発端です。活用するLLMについては、インフラをGoogleに移行してからはGeminiを検討し始めています。特にGeminiはインプットのコンテキスト長を長くとることができ、PDFから特別なテキスト抽出の処理なしにLLMで利用できる点が魅力です」(矢作氏)

利用しているGoogleのサービスは、アプリ開発プラットフォームのFirebase、その認証機能のFirebase Authentication、ストレージ機能のCloud Storage for Firebase及びFirestoreとなる。また、コンテンツを生成するスクリプトはGoogle Compute Engine上にホストされたDockerで動作している。このスクリプトをCLIやWebアプリケーションから利用するかたちだ。

開発の目処が立ち、2024年11月までに一般リリースするにあたって課題となったのは、こうしたさまざまなGoogle Cloudのサービス契約関連だった。

「一般公開するサービスの場合、大学で限られたユーザーが利用するのとは異なり、ユーザー数の増加やアクセス量の増加に応じた支払いへの対応が求められます。大学には予算の年度縛りに伴うクレジットカード利用の制限があり、決済上の課題によりサーバーを途切れなく利用できないという問題がありました」(苗村氏)

そこで採用したのが、クラウドエースのGoogle Cloud導入支援カスタマーサービスだ。クラウドエースの中川 知紘氏はこう説明する。

「当社の Google Cloud 導入支援カスタマーサービスは、Google Cloudの利用料金に対して 3% のディスカウントがあり、通常ドル建てでのお支払いになるところを円建ての請求書にてお支払いいただけます。また、テクニカルサポートを追加することで、障害に対する調査や時間外対応なども可能です。他にも、当社のエンジニアリソースを活用したシステムやアプリの開発や内製化支援、Google Cloud 認定トレーニングなどを用いたご支援も行っております」(中川氏)

  • クラウドエース株式会社 事業推進本部 / 第四事業部 リーダー 中川 知紘氏

日常生活における新たな楽しみと学びの体験創出を目指す

クラウドエースの吉村 恒平氏は、Google Cloudのメリットをこう話す。

「開発者が限られたリソースのなかでアドホックにサービスを作り上げられるツールや環境が揃っています。パーツを組み合わせて実現できる価値が、ほかのサービスに比べて高いと考えています。また、マネージドサービスを中心に選定して使っていただくことで、運用負荷を抑えて、ハイパフォーマンスでコスト効率の高いサービスとして運用することができます。最新のクラウドの機能をすぐに試して使えることもメリットです」(吉村氏)

  • クラウドエース株式会社事業推進本部/第四事業部 カスタマーエンジニア 吉村 恒平氏

実際に矢作氏も、自伝的デザインのなかで試行錯誤する過程でそうしたGoogle Cloudのメリットを実感したという。また、クラウドエースの迅速な対応や手厚いサポートも高く評価する。

「Google Cloud導入支援カスタマーサービスの利用を決めたのが9月下旬でしたが、10月請求分の切り替えに間に合わせてくれました。そのくらいの速度感で対応していただくと、研究のスピード感にもマッチします。また、とりあえずクレジットカード決済で利用し始めたさまざまな機能をそのままシームレスに請求書払いに移行できたことも、とても助かりました」(矢作氏)

今後さらにクラウドエースのサービスやサポートを活用していく方針だ。システムアーキテクチャについても、サービスのスケーラビリティを考慮してVM環境のDockerからCloud Runを採用したサーバレスへ移行させていくことや、Geminiの導入などを検討している。

今後について、苗村氏はこう展望する。

「PaperWave開発の成果として、LLMによる要約や音声合成など複数の先進技術をつなげることで1つの新しいサービスを生み出したことは、エンジニアリングという腕力を使った"デザイン"の一環だと思っています。そこで大事なのは、どうやって作るかより、何を生み出せばいいかをしっかり考えること。今回の研究が、東京大学が統合力を発揮して何をつくるべきかに力を注いでいくための出発点になってほしいです。研究室としても、これまで見たことのない何かをつくるというより、これまでの人の営みのなかにある親しみや楽しみ、ワクワク感をAIの世界にもっていくような取り組みをしばらくは続けていきます」(苗村氏)

今後の東京大学 苗村研究室の取り組みをGoogle Cloudとクラウドエースが支えていく。

関連リンク

Google Cloud導入支援カスタマーサービス(支払い代行)