文章が綴られた紙や看板にカメラを向けると、ほぼ一瞬でその内容を読み取るiPhoneの「テキスト認識表示(Live Text)」。ここ日本では、iOS 16から存在が知られるようになりましたが、それ以前から着々と改良が続けられてきた機能です。

その中核となる存在が「Visionフレームワーク」です。これはiOS 11のとき登場した機械学習による画像分析を行うための関数群で、当初は文字領域か画像領域かを識別する程度でしたが、iOS 13で文字領域の内容をテキストデータとして取得する機能が追加され、iOS 16からは日本語テキストの認識が可能となりました。

つまり、VisionフレームワークはいわゆるOCR(光学文字認識)としての機能を備えています。従来は外部ライブラリやオンラインサービスを利用しなければiPhoneでは実現困難でしたが、いまやiPhone上で完結するOCR機能を標準装備するようになったのです。より優れた認識精度を誇る他社のライブラリ/サービスも存在しますが、Visionフレームワークは処理が速くテキスト認識は一瞬で完了します。

テキスト認識表示の機能をアプリに組み込むことも可能です。取得したカメラの映像や画像ファイルをもとにテキスト認識を行うという流れのプログラムを組めば、検出された矩形領域内のテキストを検出し、それをコピーするなどテキストデータとして扱える機能をアプリに搭載できるのです。

Visionフレームワークは、人間の顔の検出など幅広い物体認識をサポートする技術体系です。アルゴリズムには機械学習が取り入れられていることもあり、将来文字の認識精度は向上していくことが予想されます。開発者イベントのWWDCでは、空中に文字を描きそれを認識するなど画期的な機能も発表されていますから、今後も目が離せない存在といえそうです。

  • iPhoneの文字認識機能は「Visionフレームワーク」の働きが大きく貢献しています