rinnaは6月24日、テキストを入力するだけで感情豊かな音声合成とフェイスモーション生成を同時に実現可能なAIサービス「Koemotion(コエモーション)」をバージョン2.0にアップデートしたことを発表した。

Koemotionの概要

Koemotionは「コエ」「エモーション」「モーション」を扱う生成AIサービス。同サービスの音声合成は、2次元空間(話者マップ)から任意の座標を選択することで話者の声色を変更し、音声を合成する。

話者マップから指定した全ての声色について7種類の感情(通常・喜び・悲しみ・怒り・恐れ・驚き・囁き)を加えた音声合成が可能。また、入力されたテキストの感情を推定する機能も備え、自動でテキストの感情に合わせた発話スタイルで読み上げる機能にも対応する。

さらに合成音声と同期したフェイスモーションも生成でき、2D・3Dモデルや画像生成AIと組み合わせることで音声に合わせてキャラクターの表情を動かすような使い方ができる。ブラウザ上のユーザーインタフェースまたはAPI(Application Programming Interface)での利用が可能で、利用用途に合わせたサービスプランを展開する。

  • 話者マップのイメージ

    話者マップのイメージ

Koemotion 2.0のアップデート内容

Koemotion 2.0では話者マップを更新し、話者の声色の多様性や一貫性を向上させたという。また、ストリーミング再生のオプションを追加し、音声合成の応答時間を短くできるようになった。ストリーミング再生の利用により、LLM(Large Language Model:大規模言語モデル)によって生成されたテキストを音声化する際に、高速な応答を可能としている。

さらに、独自の話者の音声合成を利用したいとの要望に対応し、1分間の音声データからでもオリジナルボイスが作成できるオプションサービスを、4万5000円(税込)から提供する。

Koemotion 2.0では料金プランを見直し、Koemotion Standardプラン(旧 Koemotionプラン)は月額基本料金7700円(税込)から3300円(税込)に価格を改定。また、Koemotion Lightプラン(旧 Koeiromapプラン)の1リクエストあたりの課金料金を1円(税込)に変更した。