首都大学東京(首都大)は10月24日、「自分の声」の識別に関する音響学的特徴を明らかにするために、音声の基本周波数と周波数帯域を操作した結果、母音や子音の情報を形成する「フォルマント」の影響が大きいことを明らかにしたと発表した。

成果は、首都大大学院 人文科学研究科の萩原裕子教授らの研究チームによるもの。研究の詳細な内容は、10月11日付けでオープンアクセスの米国際科学誌「Frontiers in Psychology(Language Sciences)」に掲載された。

言語機能はヒトのみが持つといっていい高度な認知能力の1つであり、精神機能の発達において重要な役割を担う。ヒトは言語を用いて自己像や他者の存在を明晰化し、社会からの評価によって自己像を確立する。言語を介して形成された自己像は脳機能として刻まれるが、その際、意欲や内発性や性格傾向といった内的要因が、メタ認知や自己像の形成に少なからず影響を及ぼすので、その働き方には個人差が生じる仕組みだ。

健常者では自己像と他者(社会)からの評価との間で、多少の情報の食い違いがあっても適切に修正を行い、自己像を保つことができる。しかし精神疾患患者では、このメカニズムがうまく働いていない可能性があるようだ。例えば、統合失調症患者では、「幻聴」に見られるように、自己の内言が「他人の声」で命令されているように聞こえる場合がある。自己の内言を「自分の声」としてとらえられないことは、自己像に関する何らかの異常を反映していると想定されるという。

このことから、声をどのようにして認識しているのかを明らかにすることは、自己像の形成とその揺らぎについて理解を深めることにつながると考えられるのである。そこで萩原教授らの研究チームは今回、自分の声と他人の声を識別する音響学的な特徴を探ることにしたというわけだ。

声の認識とは、実際に耳から聞こえてくる聴覚情報(音声)と、その話者に対する聞き手の長期記憶(イメージ)とを照合する作業である。今回は、音声の高さ(基本周波数)と音声の構造(フォルマント周波数)に着目して行動実験が行われた。

ここでいう基本周波数とは、音声において、発声時に声帯が振動する際の基本周波数(F0)を指し、聞こえとしては声の高さに対応するもので、日本語ならアクセントやイントネーションのような要素を構成する。またフォルマントとは、声帯から口唇までを発声時に音波が通る体腔であるとした場合に、その経路の音響特性によって決まる共振周波数が音声のスペクトル上でピークとして現れるが、その周波数のことをいう。使い方としては、ピークを示す周波数の低い方から順に第1フォルマント(F1)、第2フォルマント(F2)…、と呼ぶ。

公道実験は具体的に、5段階の基本周波数(元となる音声のF0を中心に半音2つずつ上下に設定)のそれぞれについて、3種類の周波数帯域(加工なしの原型(NORMAL)、第2・第3フォルマントの平均値を境界として低い周波数帯域のみ抽出(LOW)、高い周波数帯域のみ抽出(HIGH))を設定(画像1)。そして、3モーラからなる単語の音声刺激を、合計15種類作成し、30名の成人日本人(自分および同性の友人4人による合計5人のグループが6グループ、男女各3グループ)に、声の話者が誰であるのかを特定する内容とした。

画像1。3種類の周波数帯域

その結果、NORMALとLOWの場合は、基本周波数が本来のF0よりも離れる(ピッチが高く/低くなる)ほど、自他共に声の特定は難しいことが判明(画像2)。これにより、「声」の特定全般には基本周波数および第3フォルマント以下の周波数帯域で構成される母音が重要な役割を担っていることが明らかにされた。

画像2。基本周波数が本来のF0よりも離れると声の自他共に特定が困難に

一方、母音の情報が少なく、主に高い周波数帯域のみという、音声情報が極端に制限されている状況(HIGH)では、自分の声の方が他人の声よりも識別しやすいことが判明(画像3)。自分の声の認識は、音声に含まれる音響情報を利用することに加えて、例えば発話に関わる運動の表象など、複数の情報を統合して行っていることが考えられるという。他人の声だけではなく、自分の声を正しく認識することが、ひいては健全な自己像の形成につながっている可能性が示唆された形だ。

画像3。HIGHでは他人よりも自分の声を識別しやすい

人間の自我機能は主に思春期に形成されるが、精神疾患の多くはこの時期に発症している。今回の成果は、ヒトの声の特徴を「精神機能の自己制御」という観点からとらえた初めての研究で、思春期における自己の形成と発展の理解のための基礎資料となるという。今回のような研究は、精神疾患、言語コミュニケーション障害、発達障害などの支援に貢献するものと期待されるとしている。