日本メーカーが大苦戦!マシンビジョンの世界で何が起きているのか？(15) AI・IoT・SoC、混迷期から現実解が見え始めてきた

この数年間というもの、読者の皆さんはAI、IoTといった技術革新が、いかに我々の産業界に影響を及ぼすのか、その疑問に翻弄させられていたのではないだろうか。ツールサプライヤである我々も同様に翻弄させられた。しかし最近ではそのような霧がだいぶ晴れてきて、工場の現場に少しずつ現実解が生まれ始めているのではないかと考えている。

今回の議論を始める前に、我々は産業界に技術革新がどのように発生すると考えているのかという点について触れておきたい。

我々は民生技術の革新が、数年の遅れをもってして産業界に革新をもたらすと考えている。例えば、90年代にIntel CPUの性能が向上したことで、これまで50年以上も前から存在した画像処理アルゴリズムがようやく産業界で活用されるようになった。アルゴリズムが存在しても演算する素子が世の中になかった、という時期が長く続いていた。いわゆるパソコンの普及がなければ、今の1000億円市場と言われるマシンビジョン市場は生まれていなかった。そして、2000年代に入って世の中のEthernetがギガビット対応となった背景から、そこから少し遅れてGigE Visionが画像処理の標準インタフェースとして規格化された。CCDからCMOSへの変化も民生の世界でまず発生し、それが数年遅れで産業界にも発生した。

我々が次に産業界に変革をもたらす要素として着目しているのは、AI、IoT、SoCといった民生技術である。これらが様々な形で産業分野に革新をもたらし、オートメーションのレベルを上げていくと考えている。本稿では、画像処理、SoC、ロボット、IIoT、と大きく4つのビジネステーマに照らし合わせながら、各テーマにおいて長期的に目指すべき未来像を語ったうえで、決して見逃してはならないすでに成果を生んでいる現実解をセットで、我々の独自の見解を解説したい。

AIがもたらすマシンビジョン分野の潮流

まず、産業界における画像処理(=マシンビジョン)の分野で最も大きな潮流であるAIについて見ていきたい。

「AIは何でも解決してしまう魔法の杖」といった扱いを受けた混迷期があったが、本来AI技術が目指している未来像というのは、2、3枚の画像ですべて学習完了という、まさしく魔法の杖であった。人間は現実に数枚の画像で欠陥の特徴を理解することができ、それを即座に習得して判断することができる。しかし、その未来像を実現するには、この度発生したAI技術の革新では実現できるものではなく、さらに次の技術革新のタイミングを待たなければならないことが理解できた。現に、最近のAI関連の研究論文を見ていても、そのほとんどが、新たなネットワークアーキテクチャによって認識率が0.xパーセント向上したといったものばかりで飽和状態にある。

しかし、それでも今回の技術革新によってAIの性能は飛躍的に向上し、今までのルールベースでは到底実現できなかった検査が実現できるようになった意味は大きい。例えば、食品業界のマルハニチロの事例を以下に示すが、グラタンの上にエビが有るか無いかの検査において、これまでのルールベースの画像処理では絶対に見分けることができなかった。こういった事例が数多く報告されるようになったことは、産業界に現時点において大きな変化をもたらしている。

AI技術の未来像である「2,3枚の画像で学習終了」はまだ先のこと、しかしすでに現時点で現実解が上記のように生まれている。未来像と現実解の差分は何なのかというと、AIは上手に学習すれば賢くなるが、学習が下手だと賢くならないという点である。AIを学習させるのに数百枚の画像を用いてパラメータをチューニングしたりアノテーションしたりと、今は膨大なトライ＆エラーの工数が発生している。そのような状況においてもAI技術による「現実解」を最大化するには、我々が提供するようなツールの機能充実が重要になってくる。

具体的に言うと、学術界における最新の論文から的確なネットワークアーキテクチャを選択して標準ソフトとして提供する(学術界と産業界をつなぐ役割)、その際には効率よくプログラム実装することで演算速度を高める(例えば、マシンビジョンで利用する場合はすべて公式を実直に演算する必要はなく、うまく近似・簡素化することで高速化が可能)、マシンビジョンの用途に適した形でアーキテクチャを事前に学習させることでユーザーの労力を削減し(数万枚の画像は不要で、数十枚で十分)、さらには欠陥の候補位置が自動的に提案されるようなアノテーションを支援するお絵かきツールであったり、OK画像だけで学習が完了するアノマリー機能といった開発が求められる。

この混迷期には数多くのAIベンチャー企業が誕生したが、現時点となってはその霧が晴れ、これまでのマシンビジョン業界で画像処理ライブラリを提供してきた会社、つまりルールベース画像処理技術の覇者が、マシンビジョン業界でのAI技術の覇者として居座る構図となった。

これは、マシンビジョン業界におけるAI技術に限って言うと(音声や信号処理などのAI活用は別として)、マシンビジョンの特性を熟知した経験の方が、AI技術そのものより重要であったということであろう。AI技術を特定の課題に向けて技術検証(PoC)含めて受託開発するのであればAIベンチャーで十分だが、それをマシンビジョンのあらゆるアプリケーションでも利用できる「標準ツール」に仕上げるためには、市場ニーズを熟知している既存プレーヤに軍配が上がった構図である。

しかし、これはあくまでも現時点での話であり、これからさらなる技術革新が発生した場合、究極の未来像であるネットワークアーキテクチャを先駆けて完成させたものが、マシンビジョンのこれまでの経験を無視して覇者となる可能性はまだ残されているだろう。

次に、少し観点を変えてAIを演算する素子も今後は変化していくだろう。自動車業界ではAIの技術検証がすでに完了して、来年以降をめどにAIが自動車に本格的に搭載されるようになる。その際にAIを演算する素子はGPUかというとそうではなく、AIの演算に特化した専用チップの量産を来年以降に向けて準備が整えられている。これまではたまたまGPUがもっともAIの演算に性能を発揮していたから利用されてきたが、これからの本格実装段階に向けてはAIに特化した専用チップが世の中に流通するようになると考える。

SoCの時代が来る

ここからは演算素子と画像処理の将来について論じていきたいと思うが、まずはその基礎にあるSoCについて足並みを揃えるために簡単に触れておきたい。

SoCとはSystem on Chipの略称で、簡単に言うとArmなどのCPUと、ペリフェラル(外部インタフェース系素子)を1チップ化したものを言う。これまではCPU、メモリ、USB、Ethernetといった各素子を別々に基板に実装していたが、半導体の集積技術の発展により、これらをすべてまとめて1チップにまとめることができるようになった。これにより、サイズを小さくして消費電力を抑え、さらにはコストを下げることができるようになったのである。

もともとSoCはスマホ向けに膨大な数が量産され、その少し後から自動車向けにさらに膨大な数が量産された。そして、NVIDIA、NXP、Qualcomm、TIといった会社は、このSoCの技術を我々の産業界の世界にも持ち込むようになった。インタフェースの観点で見ると、スマホの世界ではカメラとSoCを接続するためにMIPIという標準規格が定められ、その結果すべてのSoCにはMIPIインタフェースが標準で搭載されている。

それに比べて自動車の世界でもカメラは必要となるが、現時点ではカメラインタフェースが標準規格になっておらず、自動車メーカーによってそれぞれ独自のインタフェースを搭載している。

我々産業界からすると、MIPIは標準化されていてメリットがあるものの、30cmしかケーブルが伸ばせないというデメリットがある。自動車のカメラは10m近く伸ばす必要があり、しかも耐環境性もロバストな設計になっているものの、標準規格が存在しない状況にある。ただ、自動車の世界でも将来的にはカメラインタフェースが標準規格化され、さらには先述したAIの専用チップも量産化されることで、それらのテクノロジーが数年遅れでマシンビジョンの世界で活用される時期が来ると我々は予測している。

今は、PCがあって箱型カメラがあってという構成がマシンビジョンのすべてである。しかし、年間数百台～数千台を生産する装置メーカーにとっては、将来的にはコストを抑えてサイズを小さくするために、SoCをベースとした組み込みカメラシステムに移行していくことになるだろう。さらには、カメラのインタフェースも自動車の標準規格が定まれば、必ずマシンビジョンの世界にも浸透するだろう。ただ、それはあくまでも未来像であって、その実現にはもう少し時間が必要となるだろう。

このような我々が考える未来像に対して、現実解はまったく存在しないのかというとそうではない。MIPIを利用すれば十分に成果を生むことができるし、AIもSoC内部のGPUで十分成果を出すことができる。我々の子会社であるリンクスアーツは、SoCをベースとしたカメラモジュールの設計・開発・量産を事業としている。

その一例として、日本国内のある半導体製造装置メーカーと、リンクスアーツはカメラモジュールの共同開発を進めている。同メーカーは、「SoCの時代が来ることは間違いない、それがマシンビジョンに本格的に来るのはもう少し先だろう、しかし今から我々は始めることにした」という形でアーリーアダプターとして着手された。

現在開発している商品のモックを図に記すが、NVIDIAのJetson NanoというSoCが搭載され、CMOSは4個搭載されている。4個のCMOSがかなり近い距離に設置される必要があるため、ミラーを利用して互い違いに整列させるといった、特殊な光学構造設計が施されている。我々はこのようなSoCをベースとしたカメラモジュールの設計・製造に加えて、光学システムの設計・製造も事業として発展させていくことを考えている。

著者紹介

村上慶(むらかみけい)/株式会社リンクス代表取締役

1996年4月、筑波大学入学後、在学中の1999年4月、オーストラリアのウロンゴン(Wollongong)大学に留学、工学部にてコンピュータ・サイエンスを学ぶ。2001年3月、筑波大学第三学群工学システム学類を卒業後、同年4月、株式会社リンクスに入社。主に自動車、航空宇宙の分野における高速フィードバック制御の開発支援ツールであるdSPACE(ディースペース、ドイツ)社製品の国内普及に従事し、国内の主要製品となる。2003年、同社取締役、2005年7月、同社代表取締役に就任。

同社代表取締役に就任後は、画像処理ソフトウエアHALCON(ハルコン、ドイツ)を国内シェアトップに成長させ、産業用カメラの世界的なリーディングカンパニーであるBasler(バスラ―、ドイツ)社と日本国内における総代理店契約を締結するなど、高度な技術レベルと高品質なサービスをバックボーンとした技術商社として確固たる地位を築く。次のビジネスの柱として2012年7月にエンベデッドシステム事業部を発足し、3S-SmartSoftware Solutions(スリーエス・スマート・ソフトウェア・ソリューションズ、ドイツ) 社の国内総代理店となる。