Microsoftは4月2日(現地時間)、これまでWindows Phone向けに提供していた「Office Lens」を、iOS(iPhone)およびAndroid向けアプリケーションとして公開した。Office Lensはスマートフォンのカメラで撮影したホワイトボードやレシート、紙資料などを、OCR機能によってテキスト化する機能を持つ。

以前からMicrosoftは撮影画像のOCR処理機能を提供していた。振り返れば2013年6月開催のBuild 2013で公開したデモンストレーションをその後「翻訳(旧Bing Translator)」というWindows appとしてリリースしている。

「Bing Translator」で海外雑誌を撮影すると、OCR処理と同時にリアルタイム翻訳も行えた。この画像は2013年当時のものだが、現在は翻訳性能も向上しているはずだ

さらにさかのぼれば、Microsoftの研究機関であるMicrosoft Researchの「Whiteboard It!」にたどり着く。遠近法を踏まえたゆがみ補正や彩度識別でホワイトボードに書かれた内容をデータとして取り組む研究プロジェクトである。研究者も早期からOfficeアプリケーションとの連動を想定し、Officeチームとオンライン会議を重ねて、Microsoft Research ASIAとの協業や、処理品質を大きく向上させた結果、「Office Lens」が生まれた。

マイクロソフト ディベロップメントの担当者に確認したところ、OCR機能はもちろん、撮影画像の解析やレイアウト、ファイル生成に至るまでの課程は、Microsoft Development Center Serbiaの基本技術を使用したという。その技術をMicrosoft Azureサーバー上で運営しているのが、日本マイクロソフトのOffice Lens開発チームだ。

Channel9でも、セルビアのOCRチームに所属するIvan Stojiljkovic氏のインタビュー動画を公開し、各モバイルアプリケーションからOCR機能を利用するためのサンプルコードやパッケージの利用方法などを紹介している。ソフトウェア開発者なら興味深い情報を得られるだろう。

Microsoft Development Center SerbiaでOCRチームをけん引するIvan Stojiljkovic氏

「Microsoft OCR library」を使ってサンプルコードを実行しているシーン。撮影画像をOCR解析し、テキスト化している

では、Office Lensの具体的な動作を確認しよう。アプリケーションを起動すると、「写真」「ドキュメント」「ホワイトボード」といったモードを切り替えて、ホワイトボードや印刷物を撮影。写真はそのままだが、ドキュメントモードはトリミングや色調整、ホワイトボードモードもトリミング処理に加えて強い光や影の調整を行う。なお、インポート機能で撮影済みの画像を読み込むことも可能だ。

この際、撮影した画像はデバイス上で傾き補正を行った後、サーバー上でのOCR処理を経て、OneDriveへアップロードする仕組みである。

「Office Lens」を起動した状態。筆者は手書きメモを残す習慣がないので、記事の草稿を撮影した。内容に応じて自動的にトリミング処理が加わる

こちらが撮影結果。満足できない場合は「取り直し」で再撮影およびモード切り替えが可能だ

出力先としてWordやExcelのほか、PDFやメール送信、スマートフォンの写真用ライブラリも選択できる

サーバーへアップロード→解析→OneDriveへアップロードという処理が行われる

今回はWordを選択したため、OneDriveフォルダーの「ドキュメント\Office Lens」フォルダーにファイルが生成されたが、PowerPointやPDFを選択した場合も結果は同様。ただし、OneNoteを選択した場合は既定のQuickノートに、OneDriveは「画像」フォルダーにファイルを生成する。

OneDrive上のファイルをWindows 8.1から確認した状態。アプリケーションによって動作は異なる

ポイントはWordやPDF形式を選択した場合だ。前述したようにOCR処理で撮影画像上の文字列をテキストとして処理し、他のアプリケーションへコピー&ペーストが可能になる。PowerPointも同様の仕組みを備えているようだが、筆者が試した限りでは文字を画像として認識し、そのまま流用することはできなかった。

Word形式による出力。誤認識も各所に見受けられるが、基本的には実用レベルだ

こちらはPowerPointの結果。文字を画像として認識し、そのままでは使用できなかった

筆者が実際に使っていて便利に感じたのは、カンファレンス動画視聴時に現れるスライドの取り込みである。セッションによってはPowerPoint資料を公開しないため、その際はスライドをドキュメントモードで撮影し、PDF形式で出力すれば記事で引用する際や後から確認する場面でも便利だった。

PDF形式による出力は撮影時の画像とOCR情報が埋め込まれ、そのまま文章を吸い上げることが可能だった

GDC 2015のセッション動画をOffice Lensで撮影中。ちなみにこのスライドはWindows 7以前のPCとしてIBM PC 5150(と思われる)を使っているのが注目点

Office Lensの撮影画像をPDF化したものがこちら。同じようにテキストまわりはすべて再利用できる

強いてOffice Lensの短所をあげると、名刺モードの利用方法が複雑な点である。Office Lensで撮影した名刺画像をOneNoteに送信すれば、各テキスト情報やVCF(vCard)形式ファイルの作成が可能だ。しかし、ここからスマートフォンの連絡先に取り込むには手間がかかるため、同種のアプリケーションのように単独で取り込めるような仕組みの搭載を期待したい。

筆者の名刺を正しく認識しなかったため、仕事関係者の名刺で試したところ、OneNoteによるデータ化を確認した。名刺上のテキストやVCFファイルがノートに貼り付けられる

冒頭で述べたようにOffice LensはWindows PhoneからiOS/Androidへと活躍の場を広げるが、OCR系アプリケーションはすでにごまんとある。"レッドオーシャン"と言える厳しい市場だ。しかし、Office Lensは無償提供とOfficeアプリケーション連動という大きなアドバンテージを持ち、Windowsユーザーにとっては親和性も高い。有象無象のOCR系アプリケーションに埋没する可能性も否定できないが、ビジネスの生産性向上を金看板とするMicrosoft Officeなら、筆者の危惧など吹き飛ばしてくれるだろう。

阿久津良和(Cactus)