スマートフォン(Pixel 3)に、Googleが提供するモバイルデバイス用キーボード「Gboard」の最新機能がロールアウトされたので早速使ってみた。そして思った、「これで仕事のやり方とか色々変わっちゃうかも…」。

最新機能というのは、オフラインの音声入力である。「そんなの以前からあった」という声が聞こえてきそうだが、昨年冬にGoogleの研究者がディープニューラルネットワークを用いた高精度なスピーチ認識をモバイルデバイスで扱えるぐらいコンパクトにする技術の論文「Streaming End-to-End Speech Recognition for Mobile Devices」を発表した。その実装である。

つまり、これまでクラウドの力を借りて音声データを分析しないと実現しなかったような高精度のスピーチ認識を、スマートフォン単体で、オフライン状態でも利用できる。

その効果は「オンライン状態でなくても…」だけではない。通信の品質が悪くない状態でも、クラウドとのやり取りによる遅延は避けられない。同じGboardの音声入力でも、従来のクライアント-サーバの処理だと、ユーザーが話すペースのままテキスト化されるのではなく、画面には2~3単語ずつまとめて現れ、時々引っかかったような動作にもなる。ネットワーク遅延のないオンデバイスのスピーチ認識は、話すとすぐに1単語ずつ、スラスラと画面にテキストが現れる。リアルタイムであり、タイピング熟練者が書き起こしているのを見るようだ。加えてオンデバイスだから、プライバシーを保護したまま、普段私がよく使う言葉、よく聞く音楽、連絡帳やスケジュールの内容、ロケーションといったパーソナルデータに基づいた言葉を選択してくれる。

  • ほぼエラーなく話し言葉が認識され、字幕表示を見ているように滑らかに表示される

    ほぼエラーなく話し言葉が認識され、字幕表示を見ているように滑らかに表示される

スピーチ認識を実現するための発音、アコースティック、言語モデルをまとめた検索グラフのスピーチ認識エンジンには2GBぐらいのサイズが必要だった。それをGoogleはRNN-T (Recurrent Neural Network Transducers)を用いたモデルでわずか450MBのサイズで、クライアント-サーバに引けを取らない精度を実現した。昨今モバイルデバイスで遊ぶゲームのサイズを考えたら、450MBでも十分にコンパクトである。だが、Googleは満足せず、さらにTensorFlow Liteのライブラリのモデル最適化ツールキットに含まれるパラメータークオンタイゼーションやハイブリッドカーネル技術を用いてモデルサイズを80MBにまで縮小した。モデルクオンタイゼーションによって4倍の圧縮率で、ランタイムは4倍高速になり、シングルコアでリアルタイムのスピーチ認識を実現した。

それで何がスゴいのかというと、一言で言い表すと音声入力が「使えるもの」になっている。仕事がら積極的に音声入力を試していて、今ではテキストメッセージはほぼ全て音声で入力しているし、スマートフォンでの検索も音声だ。その方が早いし簡単である。メールや原稿も音声で書きたいと思っているが、長文はまだ入力に人が合わせる努力が必要で、そのせいで書く内容に集中しきれなかったりする。

でも、Pixel+Gboardの自然言語認識の精度とスピードならタイピングや筆記と同じように内容に没頭できる。長い原稿も音声で書けそうだし、これなら情報のアウトプットの方法としてとても効率的だ。

机に向かうのが面倒な時、PCやタブレットを持っていない時にスマートフォンで原稿の続きを書くことがある。でも、フリックで長文はいまだに慣れない。また、よく散歩やジョギングしている時に原稿のアイディアが閃いたりするけど、家に戻る頃には綺麗さっぱり忘れていることがしょっちゅうだ。音声なら「散歩しながらスマホで原稿」という個人的な理想を現実にできそうだ。

例えば、ボイスメモ。タイプするより簡単な気がして、何度か試してみたが、後で聞き返すのが面倒で挫折を繰り返してきた。メモ・アプリにスピーチ入力でメモしたら、ボイスメモを残すように簡単で、しかもタイプしたメモと同じように簡単に見返せる。テキスト検索も可能だ。同様に取材やミーティングの録音も、ほとんどが何かあった時のための保険で記録しているだけで聞き返してはいなかった。テキスト化して残したら、もっと記録を活用できるようになりそうだ。

そういえば、今ほど英語を聞き取れなかった大学時代に、全ての授業をテープに録って後で聞き直していた。リスニングが向上したけど、リスニングの特訓に必要な時間をはるかに超える膨大な時間をテープ起こしに取られていた。あれは本当にタイヘンだった。そこで試しに、TEDの講演を再生したPCの前にPixel 3を置いて音声入力をオンにしてみた。まるで英語の字幕が表示されるように、目の前で英語の講演が正確にテキスト化されていった。「学生時代にこれがあったらなぁ~」である。

でも、私達があたり前のように思っているだけで、全ての授業のテープ起こしをしていたような手間がそこら中に存在するのではないだろうか。例えば、問題が起こった時に顧客とオペレーターの会話の録音を聞き返したり、議事録を正確に記録するためにキーボードのタイピングを猛特訓している。今はまだタイピングしたり、書く方が簡単で正確という認識だが、音声はそれらを超えられる。その時が働き方や学び方、人とのコミュニケーションが大きく変わる転換点になると思うのだ。Pixel 3のGboardの音声入力は、そんな未来を実感させてくれる。

残念ながら、現時点でニューラルネットワークを用いたオンデバイスの音声入力を利用できるのはPixelシリーズの端末のみで、サポートする言語はUS英語のみだ。でも、Googleは他の言語への拡大を進めており、他のデバイスでも遠くない将来に利用できるようになるだろう。