Microsoftは8月20日(米国時間)、「Microsoft researchers achieve new conversational speech recognition milestone - Microsoft Research」において、同社の研究チームが取り組んでいる音声認識システムのエラー率が5.1%に到達したことを発表した。同社は昨年、音声認識システムのエラー率について5.9%まで達成していたが、そこからさらに性能を向上させたことになる。このエラー率は業界としてもマイルストーンに位置づけられるものとしており、性能の高さを主張している。

MicrosoftのSpeech & Dialogue research groupの研究者たち

同社はデジタルアシスタントであるCortanaや、Cognitive ServicesPresentation Translatorなどにおいて、すでに音声認識システムを利用している。こうした取り組みはMicrosoftに限らずGoogleやApple、AWSなども取り組んでおり、業界を通じて大きなトレンドになっている。音声認識システムの性能はそのままサービスの質に結びつくため研究開発が積極的に取り組まれている。

Presentation Translatorの画面

Microsoftはこうした高品質の音声認識システムを実現するため、自社のディープラーニング・ソフトウェアである「Microsoft Cognitive Toolkit」、計算速度を向上させるための「Azure GPUs」などのクラウドシステムを活用している。こうしたクラウドシステムに関しては他のベンダーも開発を進めており、音声認識システムの高い性能を実現するために欠かすことのできないものとなってきている。