東芝は6月10日、オンライン授業の講師の音声をリアルタイムで字幕化し、学生に配信する音声自動字幕システム「ToScLive(トゥースクライブ)」を開発したと発表した。
昨今の新型コロナウイルス感染拡大の影響により学校の授業のオンライン化が急速に進行している状況では、従来の授業の質を維持し向上させることは重要である。そこで同社は、授業音声の聞き逃しへの対応や、内容の振り返りを素早く効率的に行うことは授業の質の向上につながると考え、同システムを開発したという。
同システムは、さまざまなオンライン会議システムと併用でき、生徒側はスマートフォンやパソコンを利用してWebブラウザで受信するため、新たにアプリケーションをダウンロードする必要はないという。また、講師側は、マイクの接続状況や音質を確認できる機能を利用して、授業での音声トラブルを事前に防ぐことができる。
さらに、講義資料などのテキストデータから専門用語を自動抽出する機能がある。これは、読み込んだテキストを形態素解析により1つ1つの単語に分割した後、単語の出現頻度や隣り合う単語同士の共起頻度(※1)を見て複数の単語からなる専門用語の候補をスコア付きでリストアップする仕組みだという。これによって、手入力での専門用語の作成コスト削減や、音声認識精度の向上が期待できる。
同システムの音声認識精度は85%を達成しており、これは字幕を見ただけで発言内容が理解できると言われるレベル(※2)だという。また、「ええと」「あのー」などのフィラーや「きょ、今日は」などの言いよどみを検知し、字幕上で薄く表示する機能があり、可読性は保たれる。
同社は今後、慶応義塾大学や法政大学で実証実験を開始する予定で、オンライン授業だけでなく、オンライン会議・講演向けへの適用、聴覚障碍者の情報保障のための活用など、さまざまな用途への展開も目指すという。
(※1)ある単語と単語が文中で並んで一緒に出現する頻度
(※2)河原達也. 話し言葉の音声認識の進展―議会の会議録作成から講演・講義の字幕付与へ―. メディア教育研究, Vol.9, No.1, pp.1--8, 2012.