Kinectで手話をデジタルアシスタンス

お次はMicrosoft Research Asiaが取り組んでいる手話のデジタルアシスタンスについて紹介する。「Inside Microsoft Research」に掲載された記事によると、同研究所では聴覚障がい者や難聴の人々のため、Kinectを使って手話を使ったコミュニケーションシステムを研究・開発中だという。

記事によると以前からデータグローブや特殊カメラなどを入力センサーとして利用し、手話の解析を行ってきたが、利用するまでの準備や屋内の光度など異なるシチュエーションによって現実レベルには達していなかったという。そこでカメラによるジェスチャー認識や音声認識などを備えるKinect for Windowsを採用。中国科学院(The Chinese Academy of Sciences)と協力し、2D/3Dセンサーを利用した低コストな手話認識システムの実証を目標に、研究が進められている(図06)。

図06 手話認識プロジェクトの参加者。大学教授やMicrosoft Research Asiaの面々が並んでいる(ブログより)

論文「Sign Language Recognition and Translation with Kinect」によれば、Kinect for Windowsで取り込んだ映像から手の動きを3Dの軌跡に置き換え、正規化した上でリニアサンプリングを実行。軌跡の調整を経て認識結果に基づいたスコアマッチングを実行する。その結果を元に手話がどの単語を意味するのか判断するという(図07)。

図07 手話認識システムの主な概念図(論文より)

このシステムを応用したのが「Sign language recognition and translation with Kinect」である。現在YouTubeに公式動画がアップロードされているが、そのデモンストレーションを観ると、Kinect for Windowsのカメラで手話による手の動きをトラッキングし、マッチする単語候補を一度表示。その上で適切な単語を自動選択して、Bing Translation経由による翻訳メッセージが現れる(図08~09)。

図08 手話で相手に質問を投げかけているシーン。左右の手がトラッキングされていることが、赤色・緑色のマークで確認できる(動画より)

図09 Bing Transitionエンジンを経て手話の内容を中国語および英語に翻訳。そのまま音声として流すのも難しくないだろう(動画より)

また、動画後半ではアバターが手話で説明し、聴覚障がい者とのコミュニケーションを行うシーンも収録されていた。これらの技術やKinect for Windows SDKのバージョンアップや、Bing Translationにフィードバックされた機械翻訳技術の存在が大きいだろう(図10)。

図10 アバターが手話を行い、聴覚障がい者との手話による会話を行うデモンストレーションも行われた(動画より)

ただし、現時点では米国手話のみをサポート。そもそも手話は世界共通ではなく、日本語やイギリス語の手話はその動きが異なる。記事では将来的に世界中の手話に対応したいと述べているので、これまで難しかったコミュニケーションの壁を破るシステムとして今後の発展に期待したい。

「Home OS」

現在Microsoft Researchで進められている研究プロジェクトの一つに「Home OS」というものがある。一見すると"Microsoftの新OSか"と驚かされるが、あくまでもデバイスのプラットフォームであり、さまざまなインフラ経由で相互接続するデバイスの基盤となる存在だ。例えば屋内ではSTB(セットトップボックス)やゲーム機、無線LANルーターなど数多くのデバイスが存在するが、これらのデバイスを相互接続し、日々の生活を向上させるのが目的である(図11)。

図11 HomeOSの概要を説明するMicrosoft ResearchのRatul Mahajan氏

プロジェクト自体は二年前からスタートしているが、現在Microsoftは家庭内にあるデバイスを相互接続するという、Home OSと同じコンセプトの「Lab of Things」のSDKベータ1を7月15日(現地時間)に公開したばかりだ。日本でもスマートフォンと連動する「スマート家電」が登場し始めたが、更に先を行くコンセプトと実装を備えている。

コンセプトは面白いが執筆時点では具現化できるデバイスや環境がそろっていないものの、興味を持った方は同社が運営するオープンソース向けホスティングWebサイト「CodePlex」に設置されたページにアクセスし、ドキュメントやSDKに目を通して欲しい。

阿久津良和(Cactus