新Edgeの音声読み上げはディープニューラルネットワークによる自然な発声 - 阿久津良和のWindows Weekly Report

Microsoftは米国時間2019年8月13日、Chromium版Edge（新Microsoft Edge）のCanaryチャネルをビルド78.0.246.0へ、Devチャネルをビルド78.0.244.0へ更新した。Devチャネルに関してはインサイダー向けフォーラムで変更点を確認できるが、新機能として含まれていないのがクラウドベースの音声読み上げ機能である。

音声読み上げ機能をコンテキストメニューから呼び出す点は従来と変わらない

音声合成自体は目新しいものではなく、Windows XP時代のナレーターを思い起こす人がいるかもしれない。もっと古くにも、音声認識・合成APIであるSAPI（Speech Application Programming Interface）のファーストバージョンは、Windows 95がターゲットだった。蛇足だが、筆者のファーストPCだったPC-6001は、別売りの音声合成カートリッジを装着し、BASICでコードを書けば日本語を発声できた。PC-6001は1981年11月発売であるため、身近な（と呼べるかどうかは微妙だが）音声合成はそれくらい昔から存在する技術だ。

従来のMicrosoft Edgeも音声読み上げ機能を備えているが、Chromium版Edgeのそれが目新しいのは、Microsoft AzureのCognitive Servicesを利用している点だ。DNN（ディープニューラルネットワーク）を用いて、より自然な発声を目指した「Neural Voices」と、Text to Speech APIを使用する「Standard Voices」の2種類を用意。Standard Voicesは音質を24kbpsに向上させ、より聞き取りやすくなっている。

ウィンドウ上部にコントローラーが現れ、読み上げ箇所はハイライト表示される

Microsoftは、今回実装した音声読み上げ機能の利点として、異なる言語の読み上げに必要だった音声パッケージのインストールを不要にし、ロボットのような不自然な声を改善することで、音声読み上げ体験を向上させた……と公式ブログで述べた。

また、音声読み上げ機能は21地域を対象に24種類の言語に対応しているが、残念ながらNeural Voicesと改善版Standard Voicesに対応するのは英語のみ。筆者の環境で確認したところ、日本語以外の音声パッケージは未インストールながら、Microsoft Ayumi（女性の日本語音声合成）のほかにも、多くの音声パッケージを列挙。従来と変わらないロボット風の音声ではあるが、各言語のWebページを正しく読み上げていた。

各音声パッケージには「24kbps」「Neural」

音声読み上げ機能は、視覚障がい者によるアクセシビリティー向上や、より自然なコミュニケーションを実現するために欠かせない機能だ。Webブラウザー経由で利用する場面はさほど多くないが、Microsoftの音声読み上げ機能は、JavaScriptベースのSpeechSynthesis APIを通じて開発者に広く門戸を開いている。PDFファイルやEPUBファイルの読み上げなどにも活用できるだろう。歳を重ねるごとに視力も低下し、フォントサイズを拡大している筆者としては、最新の音声読み上げ機能の日本語対応が待ち遠しい。

阿久津良和(Cactus)