日本電信電話(以下、NTT)は1月17日、LLM(Large Language Models:大規模言語モデル)「tsuzumi」の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」と、少量の音声データから個人の声色を反映した音声を合成する「Zero / Few-shot音声合成技術」を開発したことを発表した。

これらの技術により、学習用のデータが少ない状態でも本人らしい音声と発話内容を生成できるようになる。多量のデータを蓄積していない一般ユーザーもデジタル分身を生成し、メタバース内のアバターが時間の制約や心理的障壁を超えてさまざまな人と交流できるとのことだ。

これにより、自分の代わりに他人とコミュニケーションをするデジタル分身を持てるようになり、メタバースのような新たなデジタルコミュニケーションサービスにもつながると考えられる。同社は実用化に向けて、ユーザー自身に代わって人とのコミュニケーションやコミュニティ活動などを行うデジタル分身の公開実証などを進めるという。

個人を再現するAIエージェント「Another Me」

NTTが研究開発を進めるIOWN(Innovative Optical and Wireless Network)構想では、その柱の一つであるデジタルツインコンピューティングにおいて、物理世界の制約を超えた活動や交流を通した機会増大と自己成長の実現を目指して、ユーザー本人のように行動し本人と経験を共有する、まるで分身のようなAIエージェント「Another Me(アナザーミー)」の開発プロジェクトに取り組んでいる。

これまで同プロジェクトでは、「過去の行動からその人が持つ趣味や価値観などを推定する個人性抽出技術」や「プロフィールや属性からその人らしい対話を再現する個人性再現対話技術」などを実装してきた。今回はAnother Meの社会実装をさらに進めるためLLMを対話に適用し、少量のデータからでも高い本人再現性を実現する技術を開発した。

  • 「Another Me」のサービス構想図

    「Another Me」のサービス構想図

個人性再現対話技術

個人性再現対話技術は、事前学習済みモデルの外部に比較的小規模のモデル(アダプタ)を追加して学習する「アダプタ技術」と、対話データと一緒にプロフィールを学習させてLLMにペルソナ機能を付加する「ペルソナ対話技術」を組み合わせている。これにより、少量のデータから効率的に個人の特徴を学習できるという。

まず、ペルソナ対話技術によりベースとなるLLMにペルソナ機能を付加。これによりLLM の応答が再現したい本人の大まかな個人性を反映できるため、学習の初期状態がより本人に近づく。生成段階において、アダプタの学習データに含まれるものとは異なる対話シナリオにおいても、ペルソナを反映した妥当な応答を返すという。

tsuzumiのアダプタ技術を個人性の再現に適用した個人アダプタは、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が可能だ。アダプタとして個人ごとに追加するモデルのサイズは非常に小さく、さらに、動的に切り替えることができるため、多人数の対話を効率的に再現する。

  • 個人性再現対話技術

    個人性再現対話技術

以下の画面では、ペルソナ対話技術のみを用いたモデルと両技術を組み合わせたモデルを比較している。黒い帯の発話内容はペルソナ対話技術のみを用いたモデルにより出力されたテキスト。

プロンプトとして「何をやっている時間が一番好きですか?」と質問を入力すると、おおつか氏は「こんにちは、私はゲームが好きで最近は特に原神というゲームのプレイ時間が増えました」と出力した。また、まつお氏は「そうですね、私は模型作りが趣味なので時間が一番好きです。最近は新しいパーツを組み立てるのにハマってますよ」と出力。

一方緑色の帯のテキストは、実在するおおつか氏とまつお氏が100個程度のQ&Aに回答した内容を学習して、個人性再現対話技術を用いて出力されたテキストだ。otsuka(おおつか)氏は「仕事が忙しいので、休みは家で過ごすことが多いですね」、matsuo(まつお)氏は「好きなことなら、何をやっても楽しいですけどね」と、それぞれ出力。より人間らしい応対が可能となっている。

  • 個人性再現対話技術のデモ画面

    個人性再現対話技術のデモ画面

Zero / Few-shot音声合成技術

「Zero-shot 音声合成技術」は、数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をしなくてもその特徴を再現した音声を生成する技術。多忙な人や声を失った人など、極少量の音声しか得られない場合でも音声を再現できるという。

もう一つの「Few-shot 音声合成技術」は、再現したい口調を含む数分程度の音声データを用いて、音声合成モデルを学習する。従来技術に比べて必要な音声データ量を削減しながら、著名人や有名キャラクタなどの声色と口調を再現できる。

なお、これらの技術を実現するためには多くのパラメータを持つ深層学習モデルが必要となるが、演算処理の高速化により、一般的なスペックのCPUでも動作することを確認。音声合成サービスの低コスト化にも寄与する。

  • Zero / Few-shot音声合成技術

    Zero / Few-shot音声合成技術

元乃木坂46 和田まあや氏と邪神ちゃんが「Another Me」技術を体験

NTTが今回発表した個人性再現対話技術とZero / Few-shot音声合成技術を搭載したAnother Meのプロトタイプが、1月17日~18日に東京国際フォーラム(東京都 千代田区)で開催される「docomo Open House’24」で披露される。アバターはNTTドコモのメタコミュニケーションサービス「MetaMe(メタミー)」上で展開。

一般公開に先立って行われたメディアデーでは、元乃木坂46のメンバーで現在はAI Boosterのアンバサダーを務める和田まあや氏が、MetaMe上に実装された自身のアバターと対話する様子が披露された。

  • 和田まあや氏

    和田まあや氏

和田氏がアバターの外見について「なぜチューリップの衣装なの?」と質問すると、MetaMe上の和田氏は「乃木坂46っていうグループにいるときに、仲良しのメンバーのグループ名がチューリップだったんだ」と回答した。

甘いものが好きだという和田氏が、MetaMe上の和田氏に対し「好きな食べ物はなんですか?」と聞くと、MetaMe上の和田氏は「チョコ」と回答。実際の人柄や嗜好なども反映されているようだ。

  • アバターに話しかける和田まあや氏

    アバターに話しかける和田まあや氏

続けて、テレビアニメ化もされたコミック『邪神ちゃんドロップキック』に登場する邪神ちゃんのアバターも、デモンストレーションが公開された。

和田氏の「必殺技はなんですか?」に対し、MetaMe上の邪神ちゃんは「必殺の邪神ちゃんドロップキック!第二の殺人技ロイヤルコペンハーゲン!お前はどちらを受けたいですの?」と返事した。

  • 邪神ちゃんと和田まあや氏

    邪神ちゃんと和田まあや氏

MetaMeを体験した和田氏は「声がそっくりだったので、AIを使って母と電話してどっちが本物かってやってみたいな」と感想を語った。また、「MetaMeに悩みごとを相談して、どんな答えが返ってくるのか楽しみ」とも話していた。

  • 邪神ちゃんと和田まあや氏
  • 邪神ちゃんと和田まあや氏

    手をつないで一緒に退場する場面も見られた