大日本印刷(以下、DNP)は、NHKテクノロジーズ(以下、NT)と共同で、映像と音声をAI(人工知能)で解析し、内容や感情に合わせた最適なイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプを開発した。

これにより、耳の不自由な人の視聴する映像や、音が出せない環境でも、番組の臨場感を伝えることができるとしている。

  • 音声を解析し、言葉に適したフォントで字幕を自動生成したもの

    音声を解析し、言葉に適したフォントで字幕を自動生成したもの

  • 一般的な字幕

    一般的な字幕

同システムは、録画やライブ(生放送)の音声を解析して、リアルタイムで字幕を自動的に付与する。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に最適なフォントを、12種類の中から自動で選んで字幕に使用する。

例えば、楽しい内容は丸みのあるフォントで、怒っている内容は角ばったフォントで表示することで、より直感的に内容を伝える。これには、2018年にDNPが開発した、文章の内容に合うフォントを自動で判別して表示する「DNP感情表現フォントシステム」が活用されている。

  • 同じセリフ(例:「やばい」)でも、顔の表情を解析し、感情に沿ったフォントを自動表示する

    同じセリフ(例:「やばい」)でも、顔の表情を解析し、感情に沿ったフォントを自動表示する。

  • ポジティブな調子で発話された「やばい」は、否定的な意味のそれよりやわらかい印象のフォントに。

    ポジティブな調子で発話された「やばい」は、否定的な意味のそれよりやわらかい印象のフォントに。

また、映像内の発話者を特定して、自動的にその口元の近くに字幕を表示することも可能。これにより、複数の人物が登場する映像でも、誰が何を話しているかを直感的に伝えることができる。

  • 「感情表現字幕システム」に使われるフォント一覧

    「感情表現字幕システム」に使われるフォント一覧

今後、DNPとNTは「感情表現字幕システム」の開発を継続し、字幕放送(※オープンキャプション)での実用化を目指す。

また、音声認識や感情認識のAIの精度を向上させるほか、リアルタイム性の向上も進め、生放送やインターネット同時配信サービスの字幕(※クローズドキャプション)への展開も目指していく。さらにDNPは、デジタルサイネージ等の動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供していくことを計画している。

両社は2020年9月2日~8日に、渋谷ヒカリエおよびオンラインで開催される「超福祉展2020」で同システムを紹介する。

※字幕放送には、視聴者側で表示のON/OFFを切り替えられる「クローズドキャプション」と、映像自体に字幕(テロップ)がついており、視聴者側で操作できない「オープンキャプション」の2種類がある。