日立製作所、会話音声をテキスト化する「音声書き起こし支援サービス」

日立製作所は、デジタル対話サービスとして、さまざまな業種における会議や商談などの会話音声をテキスト化する「音声書き起こし支援サービス」を10月31日より提供すると発表した。価格は個別見積もり。

この本サービスは、会話音声データを音声認識技術によりテキスト化するとともに、テキスト化されたデータの編集を可能とするクラウドサービス。音声認識技術の一つである日立独自の音源分離技術を用いることで、一つのマイクで録音した複数人の会話音声を話者ごとに識別・分離してテキスト化することができるという。

サービス概要

日立独自の音声認識技術として、雑音や反響音を除去して認識対象の音声のみを抽出する雑音除去技術と、複数方向からの音声を別々に認識する音源分離技術を活用しており、雑音や複数話者の音声が含まれている音声データでも高精度にテキスト化することが可能だとしている。

また、従来、口元とマイクの距離が大きく離れると音声認識率が低下するため、精度の高い音声認識を行うためには、一人一人にマイク設備を用意して録音する必要があったが、音源方向を特定する日立の技術を組み込んだマイクであれば、一つのマイクで録音した音声データから複数話者の音声を音源方向から識別し、話者ごとのコメントをテキスト化することが可能だという。

そのほか、一般のマイクやICレコーダー、スマートフォンで録音した音声ファイルもクラウド上にアップロードすることで容易にテキスト化することができる。

さらに、単語や例文の表記と読みを登録できるカスタム言語モデルにより、予め登録されている一般的な用語に加えて、固有名詞や専門用語などを適宜追加することができる。