NTTは1月29日、Wi-Fi接続されたスマートフォンから送信される遅延の異なる複数の音声信号を適切に混合し、聞き手が聞き取りやすい高音質な音に補正する振幅スペクトルビームフォーマ技術を開発したと発表した。
テレビ電話を用いた音声通話やビデオカメラによる映像撮影時に、話し手がテレビ電話やビデオカメラ本体のマイクから離れた位置で発言をすると、音声が小さくなるため、聞き手にとっては聞き取りにくくなり、特に遠隔会議においては大きなストレスとなっていた。しかし、既存にある有線での拡張マイクは、ケーブルの手配がわずらわしかったり、マイクの設置範囲が限定されることに加え、ワイヤレスマイクシステムの導入費が高価という課題があった。
一方、スマートフォンの普及に伴い、スマートフォンを拡張マイクとして活用するというアイデアはこれまでもあった。しかし、スマートフォンなどの機器のマイク信号をデジタル信号として無線LAN(Wi-Fi)を介してミックスした場合、各機器のサンプリング周波数の微小なずれや、機器の持つ遅延の差異により、音が2重に聞こえたり、音質が大幅に劣化するなどの課題があり、実際にスマートフォンが拡張マイクの役割を果たすといったサービスはこれまでなかった。
今回のNTTメディアインテリジェンス研究所が開発した振幅スペクトルビームフォーマ技術は、音の遅延やサンプリング周波数に微小な差異で生じる音質の劣化を抑えた音声ミキシングを可能とした。同技術を活用することで、スマートフォンをテレビ電話やビデオカメラのワイヤレス拡張マイクとして簡単に利用できるようになる。
具体的には、スマートフォンに同技術を活用したアプリをインストールすることで、スマートフォンを簡単に音質の良いワイヤレスマイクとして活用することが可能となる。話し手の手元にあるスマートフォンをマイクとして活用するため、これまで本体マイクから離れて話したときに聞き取りにくかったテレビ電話やビデオカメラの音声が、聞き取りやすい高品質な音として聞き手に届けることが可能となり、遠隔会議のストレスが解消される。また、スマートフォンがワイヤレスマイクシステムを代替するため、導入時のコストが高いワイヤレスマイクシステムが不要となる。これにより、テレビ会議などの導入費用を大きく低減できる。さらに、同技術の導入には特別なハードウェアを必要とせず、既存のテレビ電話やテレビ会議装置のソフトウェアアップデートを通じて導入することができる。
従来の音源分離は、複数のマイクロホンに到達する音の到達時間差を使用して分離を行うというのが一般的だったが、振幅スペクトルビームフォーマ技術では、音声信号を、遅延やサンプリング周波数の違いの影響を受けやすい特徴量(時間差)と、影響を受けにくい特徴量(音量差)に分離し、遅延やサンプリング周波数の違いの影響を受けにくい特徴量(音量差)のみを用いて、音源分離している。音量差の情報から音源分離を行うには、各話者が話した時に、各マイクロホンにどのくらいの音量差で到達するかの情報が必要となるが、同技術では、通話中の発話から、自動的に発話者の切り替わりを検出し、発話者ごとの音量差情報を自動で獲得している。この仕組みによって音源分離を行うことで、音が2重になってしまうことを防ぐことができ、さらに話者ごとに音量を適正に自動調整することが可能となる。
本体側の処理に関しては、同技術とノイズ抑圧処理やハンズフリー通話のための処理(エコーキャンセラ)を統合し、シンプルなAPIでソフトウェアライブラリ化しているので、これらの機能も合わせて簡単に機器に組み込むことができる。スマートフォンのアプリに関しても、シンプルなAPIでソフトウェアライブラリ化されているので、拡張マイクのアプリ作成を簡単に行うことが可能。また、同技術の導入には特別なハードウェアを必要としないので、既存のテレビ電話やテレビ会議に対しても、ソフトウェアのアップデートのみで導入できる。
NTTでは、2014年中に、グループ企業を通じて、まずは既存のテレビ電話やテレビ会議などのシステムのうち、ソフトウェアのアップデートで対応が可能なものに対して、同技術の導入を目指していく。さらに、今後、専用端末を必要とせずにスマートフォンを複数台連携させるたけで実現できる音声会議やパソコンを用いたWeb会議などへの応用、さらには通話以外の用途として、ビデオカメラやICレコーダなどの音声収録への応用などへも同技術の展開を働きかけ、同技術の幅広い機器への導入を目指すとコメントしている。