低消費電力で4K解像度の処理を可能とするAI推論LSI

NTTは、AI推論における解像度制約を4Kの高精細映像にまで拡張し、リアルタイムで、低電力で処理することができる「AI推論LSI」を開発したと発表した。NTTイノベーティブデバイスにおいて、2025年度内に製品化する予定だ。

エッジ端末などへの搭載が可能であり、具体的な用途として、同LSIをドローンに搭載することで、地上150mの高さから、広域に渡って人やモノを検出し、目視外で安全航行したり、設備点検などへの応用が可能になったりするという。

映像AI技術を活用した領域のひとつとして、ドローンの目視外飛行や、ドローンを使用した人流分析および交通分析、自動被写体追跡などのアプリケーション活用があるが、その際には、4Kなどの高精細カメラ1台で、広範囲の物体をリアルタイムに、低電力で検出する技術が求められていたものの、これまでの技術では、解像度の低さや、リアルタイム性の面で課題があった。

NTTデバイスイノベーションセンタ コンピューティングデバイスプロジェクト 主幹研究員の中村健氏は、「一般的に、AI推論処理は、計算量抑圧や学習容易性の観点から、入力画像サイズが制限されており、YOLO v3公式モデルの最大入力サイズは608×608ピクセルに制限されている。そのため、カメラで撮影した3840×2160ピクセルの4K映像を制約サイズまで縮小し、AI推論処理を行っているため、小さな物体などの被写体が潰れてしまい、AIによる検出が困難になるという課題があった。今回開発したAI推論LSIでは、高精細映像を分割して処理し、AI推論結果を合成する手法により、AI推論の解像度制約の拡張を実現した」という。

  • NTTデバイスイノベーションセンタ コンピューティングデバイスプロジェクト 主幹研究員の中村健氏

    NTTデバイスイノベーションセンタ コンピューティングデバイスプロジェクト 主幹研究員の中村健氏

  • 高精細画像をそのままAI推論処理することは難しいという課題があった

    高精細画像をそのままAI推論処理することは難しいという課題があった (出所:NTT)

解像度の制約を分割処理と全体処理の結果の合成で解決

NTTでは、AI推論高精細化技術を開発。入力画像を制約画像サイズに分割して分割画像ごとに物体検出を実施する分割処理を行うほか、分割画像をまたがる大きな物体は検出ができないため、画像全体を縮小して物体検出を行う全体処理を行い、分割処理の結果と全体処理の結果を合成する合成処理によって、解像度制約の拡張を実現するという。

  • 高精細映像に対する分割処理の結果と全体処理の結果を合成する処理により、解像度の制約を解決

    高精細映像に対する分割処理の結果と全体処理の結果を合成する処理により、解像度の制約を解決 (出所:NTT)

「分割処理と全体処理における物体検出は、それぞれに独立して実行が可能なため、ハードウェアによる並列実行が可能になる」とした。

また、独自のAI推論エンジンを開発。フレーム間相関を利用した演算効率化や、動的ビット精度制御などの独自技術により、検出精度を確保しながら計算量の削減を実現したという。

  • 開発された独自のAI推論エンジンの概要

    今回開発された独自のAI推論エンジンの概要 (出所:NTT)

「4K画像を利用する際には画像の分割数が多くなり、そのままでは計算量が膨大になってしまう。たとえば、YOLOv3の608×608ピクセルの画像に置き換えると28分割も必要になる。だが、独自AI推論エンジンによって、計算量を削減しつつも、検出精度を維持できる」という。

ドローンの高性能化を支援

また、一般的なエッジおよび端末向けAIデバイスを利用した際には、低解像度に縮小し、物体検出処理するが、AI推論エンジンは、それらの処理と同等以下の20W以下の消費電力で、4K解像度による30fpsでのリアルタイム物体検出処理を可能としている点も特徴にあげた。

「AI推論LSIでは、画像処理部と4K対応のCODEC部、独自AI推論エンジンによって構成。低電力での4Kリアルタイム実行を可能にしている」と述べた。

今回発表したAI推論LSIは、ドローンに搭載することを用途に想定している。

とくに大きな特徴となるのは、目視外での安全航行に必要な飛行経路下の人やモノの有無を確認するといった用途だ。

「国土交通省航空局によるレベル3.5飛行の規定に求められる認可、承認に対応できる。従来の技術では、地上30m程度の高さからの確認に留まっていたものが、4Kによる高精度映像によって、最大150mの高度からでもAIで処理することが可能になる」とする。

AI推論エンジンでは、画像内の10画素程度の物体を検出することが可能だ。高度150mから、一般的な広角レンズを使用して、地上を4K撮影すると1mのサイズが10画素程度となり、人物の検出が可能になるという。

「150mの高度から物体検出ができることから、公共空間における人流分析サービスや交通量分析サービスにおいては、より広範囲での検出が可能になる」とした。

  • 150mの高度からの物体検出が可能に

    150mの高度からの物体検出が可能に (出所:NTT)

NTT研究所では、対応推論モデルやユースケースの拡大など、さらなる技術開発を進める予定であり、2025年度内の製品化を目指す。