Announcing the Initial Release of Mozilla’s Open Source Speech

Announcing the Initial Release of Mozilla’s Open Source Speech

Mozillaの機械学習グループは、オープンソースで高精度の音声認識モデル「DeepSpeech」ボイスデータセットを公開したことを公式ブログで発表した。

DeepSpeechはGitHubで公開されており、ボイスデータセットは公式サイトからダウンロードできる。即座に利用できるようPythonやNode.JS、シェルスクリプトも提供されている。なお、今回は英語を対象としたセットだが、2018年上半期には多言語化に取り組みたいとしている。

GitHubで公開されているDeepSpeech

GitHubで公開されているDeepSpeech

Mozilla Hacksには、DeepSpeechへの取り組みの技術的な特徴も掲載されている。モデルは、5つの層を持つニューラルネットワーク(RNN)を用いた機械学習により、音声データの特徴から文字/テキストを抽出。それぞれの音声データとアルファベットの対応を高め、LibriSpeechコーパスを用いた検証でエラー率6.5%と精度を上げている。公開されたデータセットは7月にMozillaがイニシャチブをとり進めているThe Common Voice projectにより集められたもので40万レコーディング、500時間にのぼるスピーチデータとなる。