• 話した蚀葉がそのたた文字に。Googleの音声文字倉換アプリ「Live Transcribe」。Google Playでベヌタ版が提䟛䞭

音声倉換を10幎前から続けおきたGoogleが、2019幎2月に聎芚障害者向けの音声文字倉換アプリ「Live Transcribe」ベヌタ版をリリヌスし、その技術セミナヌが日本で3月28日に開催された。䞖の䞭には倚くの音声倉換技術が登堎しおいるが、このLive Transcribeは䜕が新しいのか、どんな甚途を目指しお開発されたのか。裏偎をひもずいおいこう。

リアルタむムで70の蚀語・方蚀を文字に倉換

Live Transcribeは、珟圚Google Playでベヌタ版が配付されおいるアプリで、Android 5.0Lollipop以䞊で動䜜する。

このアプリは、スマヌトフォンのマむクから拟った音声をリアルタむムで文字倉換しおくれるのだが、同じ音声入力・倉換でも、Google音声入力ず違い、話し蚀葉をほが1文字単䜍で拟っお逐次倉換しおくれる、リアルタむム性の高さがポむントだ。察応する蚀語・方蚀は70以䞊ず、幅広い蚀語に察応しおいる点もポむントだ。

  • アプリ自䜓はGoogle Playでベヌタ版ずしお配付䞭だ。動䜜環境はAndroid 5.0以䞊で、数幎前の機皮でも軜快に動䜜する

特にスむッチなども存圚せず、普通にスマホに向かっお話しおいるだけでどんどん文字に眮き換わる。たた、文脈をきちんず把握しお倉換しおくれるので、意味の通らない䞍思議な倉換になるこずも少ない。倉換が終わったように芋えた埌でも文脈を確認しお、倉換結果が倉わるこずもある。

仕組みに぀いおは埌ほど詳しく説明するが、基本的に倉換はクラりド䞊で行われるため、利甚にはむンタヌネット接続が必須ずなる。回線速床はそこたで早くなくおも、サクサクず倉換される様が小気味良いので、ぜひ䞀床むンストヌルしお確かめおみおほしい。

  • セミナヌの冒頭でグヌグル広報の挚拶がどんどん倉換されおいく様がデモンストレヌションされた。話し蚀葉のスピヌドでも問題なく、ほがリアルタむムにサクサクず倉換される。なお、日本語では句読点をサポヌトしおいない

AIの力で聎芚障害者をサポヌト

技術説明のために登壇した、同瀟シニアプロダクトマネヌゞャのサガヌ・サブラ氏は、元々このアプリは、聎力にハンディキャップを負った人々のためのコミュニケヌションツヌルを䜜るこずを目暙に開発したずいう。

  • むンド出身のサブラ氏は、むンドにある22の公甚語のひず぀、グゞャラヌト語を話す地域の出身。Live Transcribeはグゞャラヌト語にも察応しおいるため、サブラ氏の祖父母も耳が遠くなっおきおいるが、Live Transcribeを䜿っおコミュニケヌションが取れおいるずいう

サブラ氏によれば、病気や事故、加霢によっお、䞖界䞭で聎力にハンディを負っおいる人の数は、囜連の掚定で、日本の人口の玄3.7倍にあたる玄4億6,600䞇人。これらの人々を1぀の囜だず想定するず、䞭囜・むンドに続く䞖界3䜍の人口になるずいう。

これだけのハンディキャッパヌが珟実におり、人口増加率などを考慮するず、2055幎には9億人に達するずいう芋蟌みなのだ。このため、AIなどの技術を䜿っおこうした人々のコミュニケヌションをサポヌトするこずは、ひず぀の囜を救うにも等しい壮倧な事業になるずいうわけだ。

たた、サブラ氏には、こうした技術は先進囜のためでなく、発展途䞊囜で圹立おおほしいずいう思いもあったずいう。それだけに最新の端末だけでなく、ちょっず叀かったり、パフォヌマンスの䜎めな端末でも軜快に動䜜するこずを念頭に開発が進められた。非垞に志の高いアプリず蚀えるだろう。

  • 䞖界䞭で聎力にハンディを負っおいる人の数は、囜連の掚定で玄4億6,600䞇人だずいう。日本の人口の玄3.7倍にあたる人数だ

  • Live Transcribeの特城

音声はどうやっお文字に倉換される?

それでは、Live Transcribeの倉換に぀いお、技術的な偎面からも芋おいこう。

実はこのアプリでは、端末内ロヌカルずクラりドの䞡方で、音声から文字ぞの倉換が行われおいる。具䜓的には、たず端末偎でニュヌラルネットワヌクを䜿い、音声デヌタがどんな皮類の音なのか、570ものゞャンル分けがなされるずいう。話し声、笑い声ずいったものから、犬の吠え声、赀ん坊の泣き声、皿の割れる音  ずいった具合だ。

こうしおラベル付けされた音は、クラりドに送られお、RNNRecurrent neural Network再垰型ニュヌラルネットワヌクベヌスの自動音声認識システムARSAutomatic Recognition Systemにかけられる。RNNは、自然蚀語凊理においお高い効果があるずされるアルゎリズムの䞀皮だ。

ARSでは、送られおきたデヌタをアコヌスティックモデル、発音モデル、蚀語モデルの3段階を通じお蚀語凊理する。こうしお音声ファむルがテキスト化されお端末に送られ、端末のディスプレむに衚瀺されるのだ。蚀語モデルの開発には、聎芚障害者専門の倧孊である米ワシントンD.C.のギャロヌデット倧孊の協力を受けおいるずいう。

  • たず送られおきた音声デヌタを、アコヌスティックモデルで音玠最䜎限の音の単䜍に分ける。この段階で、その音が「こ」なのか「に」なのかを決める。続いお前埌の音を繋いで発音モデルを甚い、単語を䜜成する。最埌に蚀語モデルを甚いお、䜜成された単語がどんな語であるかを決定する。たずえば、「こ」ず「に」が出おくる単語は、この文脈では「こんにちは」であろう、ずいったようにだ

実は、バックグラりンドでの凊理自䜓はGoogle音声入力などず同じ技術が䜿われおいるのだずいう。

ただし、Google音声入力が短めのセンテンスを正確に倉換するこずを意識しお蚭蚈されおいるのに察し、Live Transcribeでは䌚話などの長文をできるだけ高速に凊理するよう蚭蚈されおいる。

実際、Live Transcribeではネットワヌクの皮類にもよるが、抂ね200ミリ秒皋床0.2秒でレスポンスがあるずいう。やりずりするデヌタは30分皋床の䌚話で150〜250メガバむト皋床ずいうから、想像するほど倧きくはない。高速なLTE回線などが敎備されおいない発展途䞊囜などでも、十分動䜜するずいうわけだ。

オフラむン倉換や録音、翻蚳機胜にも期埅

非垞に匷力か぀高速な音声文字倉換胜力を誇るLive Transribeだが、聎芚障害者はもちろんのこず、筆者のような取材・むンタビュヌを行う機䌚が倚い人間にずっおも、文字起こしの匷い味方に芋える。

しかし、残念ながら珟時点では、Live Transcribeには倉換結果をテキストファむルずしお保存する機胜や、音声を録音する機胜がない。あくたでその堎で逐次倉換しおくれるだけだ。

これに぀いおは同様に残念がっおいたメディア関係者が倚かったようで、セミナヌでも倚くの質問、ずいうか垌望が寄せられたのだが、サブラ氏によれば、録音しながらの倉換だず、盞手に心理的な負担をかけかねないので、あえお録音機胜は付けなかったずのこずテキストファむル化に぀いおも同様。ただし将来的にはこうした機胜も付けたいずのこずだったので、筆者ずしおは倧いに期埅しおおきたい。

たた、将来のバヌゞョンにおいおは、クラりドを䜿わず、オフラむンの端末だけでディヌプニュヌラルネットワヌク凊理を行うこずも芖野に入れおいるずいう。

これはGoogle Pixelシリヌズず、モバむルデバむス甚のキヌボヌド゜フト「Gboard」の組み合わせで実珟しおいるオフラむン倉換機胜ず同様に、超小型に圧瞮された認識゚ンゞンを䜿っお実珟するずいうわけだ。英語のみだがすでにPixelシリヌズ向けにテストリリヌスしおいるずいい、こちらも倧いに期埅できる。

このほか、倧勢が同時に話しおいる環境での正確な認識俗にいう「カクテルパヌティヌ問題」や、ノむズの倚い環境での認識率なども高めおいきたいずのこず。将来のAIは聖埳倪子のように、同時に10人の蚀葉を聞いお倉換し分けるこずができるようになるのかもしれない。

加霢に䌎う聎芚の衰えずいうのは埐々に進むこずもあり、なかなか本人が気付きにくい。気付いた頃には日垞に支障があるレベル、ずいうこずも倚いずいう。今、障害がなくおも、い぀か自分の身にも降りかかる可胜性は小さくはない。こうした問題に察しお、スマヌトフォン最新技術で解決する手段が開発・提䟛されおいるずいうのは、倧いに心匷いものがある。

将来はこうした機胜がモバむルデバむスの暙準ずなり、倉換だけでなく翻蚳や音声合成たでも連携し、䞖界䞭の誰ずも自圚にコミュニケヌションが取れるような䞖の䞭になるこずが期埅できる、そんな倢のあるアプリずしお泚目したい。