日本マイクロソフトは2017年3月22日、学生向けITコンテスト「Imagine Cup 2017」国内予選大会と、スタートアップ企業向けとなる「Innovation Award 2017」を同時に開く「Innovation Day 2017」を都内で開催した。

Innovation Day 2017

開会挨拶を行った日本マイクロソフト 執行役員 デベロッパー エバンジェリズム統括本部長 伊藤かつら氏は、今年はプレゼンターのスピーチ内容はすべて本大会出場・グローバル展開を踏まえて英語で行うと説明。Imagine Cup 2017選出の9校とInnovation Award 2017に参加する13チームは、ベルリッツ及びグロービスのメンタリングコーチを受講して、プレゼンテーションに挑んだ。本稿ではImagine Cup 2017で見事受賞した参加チームの内容をご報告する。

日本マイクロソフト 執行役員 デベロッパー エバンジェリズム統括本部長 伊藤かつら氏

障がい者向けスマート白杖デバイス「Walky」で可視化を実現

500 Startups Japan賞を受けたのは、東京工業大学生3人による「TITAMAS」(チーム名)。彼らは「Walky」という視覚障がい者向けスマート白杖デバイスを発表した。

参加メンバーの従兄弟が生まれながらの視覚障がい者で、彼が新しい場所を訪れる際に窮する場面を耳にして開発をスタート。一般的に視覚障がい者は白杖と呼ばれる杖で地面を叩き、数歩先の情報で視覚情報を補っている。だが、それだけでは高い位置にある物体や路上駐車しているトラックに気付かないことが多いという。そのため、カメラと超音波センサーを用いて物体との距離を撮影・測定し、指向性スピーカーを使って使用者に伝える仕組みを備えるWalkyの開発を目指した。

視覚障がい者が「Walky」を使うことでセンサーやカメラを通じて得たデータを音声で利用者に伝える

「Walky」上部にはカメラと超音波センサー。指向性スピーカーを設置し、利用者に分析結果を音声で伝える

Walky内部にはRaspberry Piを搭載。超音波センサー及びカメラから取得した距離データや画像をリアルタイムで解析し、障害物の検知を行う。その結果を指向性スピーカー経由で伝達し、利用者の耳を塞がず周りにも迷惑を掛けないという利点を備える。ただし、ハードウェア的実装が多く利用性に欠く部分はあるという。

審査員を努めたメディアアーティスト 筑波大学助教/デジタルネイチャー研究室主宰/VRC理事 落合陽一氏の「なぜウェアラブルデバイスではダメなのか」という質問には、白杖という効果的なアイテムを活かしたいと説明。

同じく審査員を努めたマイクロソフト ディベロップメント 代表取締役社長 安達理氏の「障がい者に対する長期的な影響は」という質問に対しては、今後の課題と回答した。「自分がスペルチェッカーを作った時、逆にスペルミスを減らす能力を奪ってしまった。デバイスに対する依存度から感覚が鈍るリスクを踏まえて、障がい者の能力を高める方向性も模索して欲しい」(安達氏)とアドバイスを送った。

外出先での利用を踏まえたIoT向けデータ通信サービス「SORACOM Air」と、画像がブレてしまった際に加工処理を行うために必要な加速度センサーを備える

Walkyの概要。Computer Vision APIやTranslator Text APIを利用し、主な処理はnode.jsで行われる。クライアント=白杖側はRaspberry Piを搭載

将来はリアルタイム変換を目指す音声変換システム「NeuroVoice」

LINE賞を受けたのは東京大学大学院生2名による「NeuroVoice」(チーム名及びソリューション名)。入力された音声を、任意の人の声に変換するシステムだ。

音声の生成モデルに深層学習を用いることで、より自然で流暢(りゅうちょう)な音声変換を実現。さらに音素という音声の最小単位で学習を行っているため、変換先の対象人物が発言したことのない言葉であっても変換可能であるという。

その説明を裏切らず、会場では米国大統領のDonald Trump大統領の発言内容を、そのまま大統領候補だったHillary Clinton氏の声として再生。会場は笑いに包まれた。

トランプ米大統領からヒラリー候補者へのボイスチェンジデモ。いつもの"トランプ節"がヒラリー氏の声で再生される

具体的にはSpeech Recognition(音声認識)とConversion(変換)という深層学習技術を用いている。あらかじめベースとなる声を認識させ、そこから特異点や発音の遅延など隠されたレイヤーを学習させる仕組み。時系列データの学習でよく用いられるLSTM(Long Short Term Memory)よりも10倍のスピードで学習を終え、30分~1時間程度で出力が可能になるという。

既にAdobe Systemsの「VoCo」や、Google(DeepMind)の「WaveNet」といった音声変換ソリューションが存在するものの、NeuroVoiceが持つ独自性と処理スピードに自信を見せた。

「NeuroVoice」の概要。多層構造のニューラルネットワークを用いた機械学習である「深層学習」の技術を用いている

さらにNeuroVoiceは楽曲のコンバージョンも可能で、名曲「We Are The World」もHillary Clinton氏の声で再生。ここは笑いどころとして用意したらしく、実際に耳にした白人が非常に困った顔をスライドに挟んで会場の笑いを誘っていた。

次の目標にはリアルタイム変換を掲げている。審査員を務める慶應義塾大学教授 古川享氏の「初音ミクの技術と類似しているのか」という疑問には、似通っているがNeuroVoiceは音声データを揃えれば、声優でも歌手でも対応できると回答。

安達氏の「映画の吹き替えで俳優の声を再現して欲しい」という個人的嗜好に偏った希望に対しては、現在は生成エンジンが英語をベースにしているため、同エンジンさえ進化すれば潜在能力はあると述べていた。

「ヒラリーさんに『We Are The World』を歌わせたい」との発言に会場は盛り上がった

続くリクルートホールディングス賞はTITAMAS、会場の投票によるオーディエンス賞はNeuroVoiceが受け、結果的に優秀賞はTITAMAS及びNeuroVoiceが見事獲得。米国開催の本戦出場を果たした。

日本MS平野社長「閉塞感を突破するにはイノベーション必要」

締めの言葉を述べた日本マイクロソフト 代表取締役 社長 平野拓也氏は、「(日本を包む)閉塞感を突破するには(参加者全員に向けた)皆さんのイノベーションが必要。(中略)社会や国もしくは一個人のためのアイディアやソリューションが花開くのか、個人的にも楽しみにしている」と受賞者を鼓舞した。

優秀賞など数々の賞を受けたTITAMASの皆さん

同じく優秀賞など数々の賞を受けたNeuroVoiceの皆さん

NeuroVoiceの皆さんに感想を述べたところ、音声分析について学んだのは直近だという。2017年3月から著名人のデータセットを用意し、音声生成するためのアプリケーション開発に勤しんでいる。

当初は「作ったら面白いんじゃないか」という軽いモチベーションから始まり、機械学習から得た知識で変声にチャレンジした。受賞した感想を尋ねたところ、「予想どおり優勝できて良かった」と茶化しつつも「発表前はプレッシャーだった」と正直な気持ちを語った。

前述したリアルタイム変換に対しても本戦出場の数カ月で突貫工事的に実現する、と若者らしい力強いコメントを披露してくれた。

TITAMASの皆さんは「Imagine Cupは世界を相手にチャレンジできるチャンスに喜びを感じる」と意気込みを語りつつ、「役割分担を明確にしたのが良かった」と受賞理由としている。

冒頭で述べたように今回は本戦進出を前提に、英語でプレゼンテーションを行うことを定められたが、英会話に長けた人、ストーリーを組み立てる人、ソリューションを作り出す人と三者三様の役割で挑んだという。

また、今後の展望として、さまざまな可能性を見出したので溢れんばかりのアイディアを実現したいと述べつつも、視覚障がい者に役立つWalkyの実現化にも邁進(まいしん)したいと展望を語った。

阿久津良和(Cactus)