説明書を読まなくても使い方がわかるのが、iPhoneの魅力であり強みです。しかし、知っているつもりでも正しく理解していないことがあるはず。このコーナーでは、そんな「いまさら聞けないiPhoneのなぜ」をわかりやすく解説します。今回は、『今度のiOSは文字認識が得意ってホント?』という質問に答えます。

***

はい、そういえる機能がiOS 11で追加されました。iOS 11では、「Vision」という開発フレームワークを利用すると、画像を解析して人間の顔や文字などを認識する機能をアプリに持たせることができます。iPhone内蔵のカメラと標準装備のフレームワークで実現できる機能ですから、いろいろな用途での活用が期待されます。

Visionフレームワークは、画像内における人間の顔、顔の特徴部分(鼻や口など)を検出できます。真正面から写した顔だけでなく、髪の毛がかかった状態やメガネ/サングラスを装着した状態でも人間の顔を高精度に検出できる性能を持ちます。

これまでも同様の機能を持つアプリは存在しましたが、サードパーティー製/オープンソースのライブラリを使い開発されたものが大半です。しかし、VisionはAppleが開発した機械学習技術「Core ML」を利用しており、より高精度な検出/認識が可能と考えられます。

Visionフレームワークは、顔認識以外にもバーコードの検出や移動する物体の追跡などの機能を備えています。ご質問の文字認識も、Visionフレームワークにより実現される機能のひとつです。

ただし、Visionフレームワークの働きは文字領域の検出にとどまります。たとえば、「あ」という文字が被写体にある場合、文字であろう「あ」は検出できても、その「あ」が日本語の「あ」であるかどうかの判定はできません。文字の意味を知るための処理(OCR)は外部ソフトウェアに委ねるしかなく、その意味では基礎技術の提供にとどまります。

iOS 11には、人間の顔や文字領域の検出を得意とするフレームワーク「Vision」が用意されています