日本電信電話(以下、NTT)は6月1日と2日に、研究開発結果を一般公開するイベント「オープンハウス2023」(入場無料・要事前登録)をQUINTBRIDGE(大阪府 大阪市)で開催する。なお、同イベントはNTTコミュニケーション科学基礎研究所が主催するものだ。
同研究所は新型コロナウイルス感染拡大防止のため2020年からイベントをオンラインで開催しており、今回が4年ぶりの現地開催となる。会場では、NTTグループが中心となって研究開発を続ける、IOWN(Innovative Optical and Wireless Network)構想の実現に向けた研究成果などが計16点披露される。イベント当日は、NTTの研究員がデモを交えながら直接説明するようだ。このほど、イベントで展示される研究成果が東京都内で報道陣に公開されたので、筆者がぜひ見てもらいたい研究を紹介したい。
複数の会話から興味のある話題のみを抽出する信号処理技術
複数人がそれぞれ別の会話をしているパーティ中のような音声データのから、興味のある話題の信号のみを抽出する技術がConceptBeamだ。この技術は音声や画像が持つ「意味」を計算機で表現しているという。興味の対象は音声や画像などで指定する。
これまでも、異なる音声を分離する際に用いられてきた音源分離の技術は開発されてきたが、混合音の音声認識は難しく分離の精度がまだ高くはない。そこで同社が開発したのが、信号に含まれている意味を特徴空間内に表現する方法だ。画像や音声などデータの種類に依存せず、そのデータが持つ意味そのものを特徴として捉える。
例えば、ブロッコリーの画像をそのまま"ブロッコリー"と認識しているのではなく、"ミニトマトと合う野菜"、"緑色"、"サラダ"のような、ブロッコリーに近い意味を持つ音声データとひもづけているようなイメージだ。同社はこれを「概念フィルタ(ConceptBeam)」と名付けている。
反対に、ブロッコリーが持つ特徴は"野球"、"相撲"、"電車"などが持つ意味とは離れて特徴空間上にプロットされるため、あまり関係がない概念であることが分かる。概念フィルタは、スポーツの実況中継のように、画像(映像)と音声が関連していることが明らかな既知のデータを用いて学習させている。
将来的にこの技術は、音声が重なったデータの音源分離や、音声認識の前処理として必要なデータのみを抽出する場面に使えるという。関連する意味だけを取り出した信号を利用することで、音声認識や検出の精度向上が見込める。
その他、自転車のベルや救急車など重要な音にのみ反応するようなノイズキャンセリング機能や、心雑音のみを取り出す聴診器の開発などへの応用が見込めるようだ。
磁気で多様なディスプレイを表現するマグネシェイプ技術
立体的な動きのある掲示が可能な形状変化ディスプレイは、広告用途などで活用されている。しかし、1本1本のピンの動作にモーターを使用する場合、配線や電気的制御が膨大になるため、構築が難しくコストも発生する。
そこで同社は、磁性材料(マグネットシート)に磁場のパターンを記録する技術を開発し、非電気的に動作する仕組みを実現した。それぞれのピンは磁場のパターンに従って上下する簡素な作りで、マグネットシートに書き込むパターン次第でさまざまな立体形状を形作る。
各ピンを個別に上下させるためには強い磁石が必要だが、このような磁石は隣のピンにも干渉しやすい課題があった。そこで、鉄などのポットに磁石を収めることで、地場分布を局所的に抑えたポット磁石を開発したとのことだ。これにより、高密度でピンを配置しても独立して動かせるようになった。
今回開発したキットは市販の磁石やストローを切り貼りしても作成可能なため、従来の形状変化ディスプレイと比較して安価かつ低消費電力で構築できる点が特徴的だ。
なお、同社は磁場のパターンとピンの上下の動きをシミュレートするツールも開発しているという。
生徒に個別に最適なレベルの問題を推薦する手法
通常の学校の授業や塾の講義では、多くの生徒が同時に参加するため、個別の生徒に最適なレベルの問題を出題するのは難しい。そこで同社は、AIの技術を用いて個人個人に最適な問題を出題するような技術を開発している。
この技術はMVAE(Monotonic Variational AutoEncoder)と呼ばれ、生徒がその問題を初めて解く際に正解する(であろう)確率を算出する。「その生徒が初見時に75%の割合で正解できる問題」のように、任意の難易度で生徒に求めるレベルでの出題が可能となる。
この技術は、システムの構築に際して教科や問題形式の情報が不要な点が特徴だ。各生徒の「正解」「不正解」「未回答」の情報のみで検証可能なため、幅広い科目に適用できる。各生徒の3値の情報のみをAIに学習させるだけで、生徒と問題の特徴を抽出する仕組みである。
例えば、英語の問題であれば、「英単語の知識が求められる問題」と「文法の知識が求められる問題」に分類するようなイメージだ。生徒の特徴としては「英単語の知識が求められる問題が得意な生徒」と、「文法の知識が求められる問題が得意な生徒」が分類される。
これにより、これまでは画一的に「50点以下は補習」としていたような授業を、「英単語が苦手な生徒」と「英文法が苦手な生徒」に可視化して分類できるようになる。よって、個別の生徒の学力や特性に応じた最適な学習を支援できるとのことだ。
目の動きから心の動きを読み取るマインドリーディング
この研究では瞳孔反応や眼球運動などの無自覚な反応を測定して、ヒトの注意や選好などの認知状態を推測する技術を開発している。瞳孔の大きさは目に入る光の強さや交感神経の活動などに応じて変化することが知られている。こうした反応を利用して、認知状態を読み取る仕組みだ。
通常、暗い画面を見ている際は明るい画面を見ている際よりも、瞳孔が小さくなる。また、同社の研究により、目線を左右に動かさなくても音が聞こえてきた方向に意識を向けるだけで、瞳孔が反応することも明らかになっている。研究グループでは、このような意識や注意と同行の動きを関連付けて認知の読み取りを試みているという。
将来的には、会議中に参加者が意識を向けているものを測定する機器や、意識を向けている特定の音のみに反応するスマート補聴器への応用が考えられるとのことだ。
遠隔操作ロボットが"柔らかく"触れる技術
ロボットを遠隔地から操作する技術は、遠隔医療や危険な場所でのロボット操作に応用できるため期待される。しかし同時に、効率的にロボットを操作するには、離れているロボットに操作者の意図が正確に伝わるだけでなく、現地で接触する物に柔らかく触れる技術も必要になる。
従来の遠隔操作技術では、操作者の動きを遅延なく追従しながら、遠隔地の対象物に応じて柔らかく触れる技術の実現が困難だった。また、通信を介しないロボットは操作者の動きを追従しながら柔らかく動かせるが、遅延が発生しやすく追従の精度向上が困難だった。
そこで同社は、操作する人の動かし方を先読みする技術を開発し、操作者の動作の意図を推定しながら動くことで、動きを追従しながらも対象物に柔らかく触れることができる技術の開発に成功したという。
この運動の意図を推定して伝送する技術は、ヒトとの協調作業が求められる動作や介護シーンなど、柔らかいアシストが求められる場面での活用が期待される。