日本語話者の音声を収録した音声データセット「Laboro-ASV」、無償提供開始

Laboro.AIは1月30日、話者認識技術の発展を目的として、日本語話者の音声を収録した音声データセット「Laboro-ASV」の無償提供を開始することを発表した。B-CASカードによるアクセス制限がないワンセグ放送を利用して、2022年2月から7月にかけて放送されたテレビ番組の録画データから構成された音声コーパスであり、142人の話者による約95時間分の音声が収録されているという。

データセット「Laboro-ASV」の特長

同社は「話者ごとの発話数」が話者認識のためのデータセットの有効性を決定付ける重要な要素であるとして、出演頻度に基づいて話者を選択し、話者ごとに十分な発話量を確保した。話者1人当たりの発話数は、同種のデータセットでは一般的に100～200程度であるところを、Laboro-ASVでは450超の発話数で構成されている。

Laboro-ASVに含まれる音声、およびテキストデータの権利は元のテレビ放送の著作権者に帰属する。今回は著作権法30条の4に基づいて、情報解析などの用途のために、商用利用および大学など学術研究機関に対して無償で公開するという。なお、元のテレビ番組の音声を再構成して鑑賞することを防ぐために、発話単位でランダムに並び替えているうえ、番組名や放送局などの付加情報は含まない。

Laboro-ASV比較実験の結果

同社はLaboro-ASVの性能を評価するため、日本語話者照合タスクの観点から、JTubeSpeechデータセットのトライアルセットをテストセットとして使用し、EER（Equal Error Rate）を指標として評価した。speaker embeddingの抽出と話者照合にはX-vector / PLDAを使用した。

一般にEERは低い方が良いとされる。比較実験の結果、VoxCeleb1とLaboro-ASVを組み合わせたデータセットで訓練されたモデルが最も良い性能を発揮できていることが分かったという。Laboro-ASVはデータ量の点で他の大規模データセットに劣るものの、他のデータセットと併用することで日本語話者照合タスクの精度を向上させるために有効なデータセットであることが確認できたとのことだ。