半導体ベンチャーの米Audienceは12日、人間の聴覚の機能を基に開発した携帯端末向け音声プロセッサ「A1010」を国内向けに正式に販売を開始したと発表した。すでに量産を開始しており、価格は500円となっている。

Audienceの携帯端末向け音声プロセッサ「A1010」(右はサイズ比較用の1円玉)

Audinece 社長兼CEO ピーター・サントス氏

同社の社長兼CEOであるピーター・サントス氏は、「携帯電話のような機器は、通話者の声のほか、周囲の音を雑音として拾ってしまうため、聞き取りづらいという問題を持っていた。特にスピーカーホンでは通話者とマイクが離れているため、より雑音が入りやすくなっている」と語る。また、「雑音はバッテリとネットワーク容量を大きく消費するため、バッテリの長寿命化とネットワークの容量拡大のためには雑音を低減する必要がある」という。

今回、取り入れられた人間の聴覚の機能というのは、主に内耳にあるカタツムリのような形をした蝸牛の働きを解析して応用したもの。蝸牛は、内部がリンパ液で満たされており、その中にあるあぶみ骨が振動することにより、リンパ液に動きを引き起こし、それが基底膜を振動させる。音の周波数により基底膜の最も強く振動する位置が変化することにより、高音や低音を判別することができる。

蝸牛から脳幹、視床、皮質に達する音信号経路と処理を理解することにより、複雑に混じった音をグループ分けして処理することが可能となった

同製品では、16ビットのA/DコンバータとカスタムDSPおよびアクセラレータを用いることで、高速蝸牛変換を行い、"音の高さ"や"間隔"、"開始時間"などを基に特徴付けを行い、複雑に混じりあった音をグループ分け、通話者の音声のみを取り出し、高速蝸牛変換を逆変換することにより、鮮明な音声を実現する。

「A1010」の特徴

通話者の音声とそれ以外の音声については、主に2つのマイクに入ってくる音の角度と距離を比較して、それぞれに特徴づけをすることで判別しているという。

「雑踏のようなスペクトル、振幅がゆっくりと変化する定常の雑音ならびに、人の声のようなスペクトル、振幅がすばやく変化する非定常の雑音を500ms以内に最大25dBまで抑圧することが可能」(同)となるほか、「アコースティック・エコー・キャンセレーションにより、全二重通話が可能」(同)である。

また、音声イコライザーを搭載しており、「±2dBのSNR(S/N比)により局所的な雑音に対して、それを上回る音量増大が可能である」(同)としている。こうした機能により、雑音環境においてMOS(Mean Opinion Score:平均オピニオン評点)を0.7ポイント改善したという。

アナログとデジタルの両方のオーディオインタフェースに対応しているほか、制御インタフェースとしてI2CおよびSPIに対応、CMDA、GSM、WCDMA、FOMAの各ベースバンドプラットフォームアーキテクチャに対応する。

アナログとデジタルの両方のオーディオインタフェースに対応

消費電力は動作時で15~25mA、スリープ時で30μA。音声プロセッサを使用しないときには電力を供給しない設計を採用している。パッケージは48ピンのWLCSP(パッケージサイズは2.7mm×3.5mm)を採用し、製造はTSMC(Taiwan Semiconductor Manufacturing)が行う。採用プロセスは130nmプロセス。

なお、同製品は2008年4月9日に販売が開始されたNTTドコモのFOMA携帯電話「SH705iII」にすでに搭載された実績を持つ。2008年第2四半期以降、全世界で本格的に同製品を採用した携帯電話が登場するとしており、「テレビ電話などのアプリケーションを搭載したハイエンドの携帯電話が販売されている日本は重要な市場」(同)とし、現在開発が進められている携帯端末の2~3割の製品が日本市場向けとした。