rinna、GPT用いた新たな日本語音声認識モデル「Nue ASR」を公開

rinnaは12月7日、LLM（Large Language Models：大規模言語モデル）の一つであるGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表した。

今回公開したモデルは、事前学習済みの音声基盤モデルHuBERT（rinna / japanese-hubert-base）とテキスト基盤モデルGPT（rinna / japanese-gpt-neox-3.6b）の間に畳み込み層を挟んで統合したものだという。事前学習済みの基盤モデルを使用しており、音声認識モデルの学習コストを軽減している。

音声認識モデルの学習データには、約1万9000時間からなる日本語音声コーパス「ReazonSpeechコーパス」を用いた。学習した音声認識モデルは、Hugging Faceに商用利用可能なApache-2.0 Licenseで公開している。なお、モデル名は妖怪の「鵺（ぬえ）」に由来するとのことだ。

Nue ASRはGPT構造を用いている。そのため、GPTの高速推論手法であるDeepSpeedを導入すると、リアルタイムファクタ（認識時間 / 音声の長さ）は0.22から0.15まで短縮可能だ。また、CSJの学習セットを用いたドメイン適応のためのファインチューニングにより、CSJ Eval1テストセットの文字誤り率は30.93%から5.43%まで改善している。

同社によると、Nue ASRの認識率や処理速度は、利用条件によってはOpenAI WhisperシリーズやReazonSpeechモデルに匹敵する性能を有するという。現状デファクトスタンダードとなっているGPTを利用したこのモデルは、より高性能な事前学習済みGPTへの置き換えや、日々開発されるGPT高性能化のための手法を導入するなど、さまざまな改良のための選択肢があるとのことだ。