さくらインターネットは2月26日、生成AI向け推論API基盤「さくらのAI Engine」で、テキストを自然な音声として生成する「音声合成(TTS)API」(音声合成API)を提供開始した。

「音声合成API」の概要

音声合成(Text to Speech)は、入力したテキストを音声として出力する音声生成技術。音声アシスタントや案内システムなど、幅広い分野で利用が進んでいる。これまで、さくらのAI Engineでは音声入力や会話生成のAPIを提供しており、新たに音声合成APIが加わることで、対話型サービスに必要な音声入力・会話生成・音声合成の一連の処理が国内基盤上で完結できるようになった。

音声合成APIは、実行エンジンにVOICEVOXを採用し、OpenAI Text to Speech API互換の形式で利用が可能。これにより、既存のOpenAI互換APIを利用しているアプリケーションにも組み込むことができる。

音声モデルには第1弾として、ずんだもんをはじめとするVOICEVOX音声モデルを採用し、多様な音声モデル(話者)から選択した音声合成が可能。ずんだもんに加え、四国めたん、、春日部つむぎ、冥鳴ひまり、東北ずん子、東北きりたん、東北イタコ、あんこもんのオンせモデルを利用できる。今後も音声モデルの追加を予定。

また、音声合成APIの提供開始に伴い、「さくらのAI Engine」Playground機能の改善を行い、ブラウザ上からも音声合成を手軽に体験できるようになっている。活用例としては、音声チャットアプリケーションの構築やコールセンターの一次応対の自動化、自治体・観光案内の音声ガイド、企業向けAIアシスタントの音声応答機能などを想定している。