純正文字起こし機能とは、Google Playで公開されている「Live Transcribe(音声文字変換)」と、Android 10で追加された「Live Caption(自動字幕起こし)」のことですね? どちらもGoogleが開発した音声認識機能ですが、似て非なるものといえます。

Live Transcribeは、Googleとギャローテッド大学が共同開発した技術をもとに開発された、Android 5.0以降の端末で動作するアプリです。2019年9月現在、日本語を含む70超の言語/方言に対応し、音声をリアルタイムに文字へと変換します。一種のAI機能も備えており、たとえば「かみをかきあげた」という音声が「上大岡きあげた」と認識された次の瞬間、「髪をかきあげた」に修正されるなど、文意・文脈に沿うよう自動修正されます。ちょっとした言い間違えも自動修正されますから、破綻のない文章になります。

Live Captionは、音声/言語の認識モデルを新規開発するとともに必要なデータ量も大幅に圧縮した、"身軽な"音声認識機能です。Android 10のシステムレベルで動作し、ビデオや音声ファイルを再生中にボタンをタップするだけで、画面に字幕を重ねるようにその音声をテキストで表示します。2019年9月現在は英語のみの対応となりますが、公式ブログに「まず英語のみの対応」とあることからも多言語対応が進められる見込みです。

Live TranscribeとLive Captionは、前者は音声認識に必要なシステムをクラウド上に、後者はAndroid端末に置くところが大きく異なります。そのため前者はネットワークに接続しない状態(オフライン)では動作しませんが、後者はオフラインで動作します。そのためレスポンスが速く、よりリアルタイムに近い文字起こしが実現されています。

  • Android 10には2種類の「純正文字起こし機能」がある?

    Android 10には2種類の文字起こし機能があります(画面は「Live Transcribe」)