機械学習を試すにはビッグデータの存在が欠かせない。Mozillaが展開する音声データセット収集プロジェクト「Common Voice」から42,000貢献者、18言語、約1,400時間の音声データがクリエイティブ・コモンズ・ライセンスのパブリックドメイン「CC0」として公開された。MozillaのWebサイトからダウンロードできる。なお日本語の音声データはまだ無い。

Mozillaのイニシャチブで行われているCommon Voiceは、人々の発する音声を集めるプロジェクト。Webサイト上で言語を選択して、表示される「Speak」ボタンを押し表示されるフレーズを録音することで音声を提供できる。プロジェクトに対応する言語は、すべての言語ではなく日本語はまだ開始されていない。今回、Mozillaはプロジェクトで収集したデータセットをクリエイティブ・コモンズの権利放棄の「CC0」形式で公開したことを発表、その歩みを公式ブログに掲載している。

公式ブログには、データには年齢や性別、アクセントがメタデータで付与されているなど、これまでの音声データと比較して質が高められていること、3カ国語から8カ月で22カ国語へと対応データが急速に成長していること、開かれた音声データを構築し、自身のプロダクトにもこれを反映させていくことなどが記されている。