NECは25日、「能動的メディア処理技術」の研究開発に着手したと発表した。「多数の音声や映像が混在する状態でも注目した情報をより的確に認識できる感覚」の実現を目指すもので、遠隔コミュニケーションなどに利用できるという。30日から開催される「CEATEC JAPAN」にて、試作システムを展示する予定。

能動的メディア処理技術について

大勢の人が会話をしているような中でも、注目した人物の声は離れていても聴き取ることができる。これを「カクテルパーティ効果」と呼ぶが、テレビ会議のように、平面的な映像・音声になってしまうと、聞き分けることが難しくなる。今回発表された技術を使えば、このカクテルパーティ効果をメディア処理で実現できるようになるということで、試作システムを用いたデモの様子が披露された。

みんな勝手に話をしていると、声が重なって非常に聴き取りにくい

自動的に、発言者の声のみを強調して、画面をズームすることも可能

今回実現した技術は、(1)複数の人物が同時に発話している音声信号から、信号の独立性を分析することにより、それぞれの人物の音声を分離する技術、(2)発話している映像から人物の顔領域を検出し、発話位置を推定することで、分離された音声信号と人物を対応付ける技術、(3)注目したい人物を選択することで、その人物の音声を自分の前後左右の自由な位置に配置する技術、の3つ。

音源分離について。分離行列はフィードバックにより動的に修正される

デモシステムのために、マイクを28個搭載したユニットを試作した

映像検出統合。音は反射もあるが、映像だと発話位置の特定がしやすい

音響映像再生。注目する人の音声・映像を抜き出すことができる

今後研究を続け、同社は2012年の実用化を目指すという。応用としては、快適な遠隔コミュニケーションや議事録システムといったビジネス向けのほか、ホームビデオの編集支援といった用途も考えられるそうだ。