今回は、教師あり機械学習、ディープラーニングで必須となるデータセット(教師データ)についてです。認識性能の向上には、教師データが非常に重要となってきます。認識したい対象に合わせて教師データを準備する様にしましょう。

切り出し済みの画像

最もシンプルな教師データとして切り出し済みの画像があげられます(図1)。画像の中に認識対象の物体が含まれる画像ですので、同様な画像を入力した際に画像中に何が写っているか、0〜9のどの数字が書かれているか、山や海などどのようなシーンで撮影されたか、などを分類する問題で活用できます。

  • 切り出し済みの教師データ

    図1 切り出し済みの教師データ

物体の外接矩形

図2の例は、カメラで撮影した画像中の認識対象の物体の領域を外接矩形(Bounding Box)でアノテーションしたデータセットです。切り出し済みのものと異なり、物体間の位置関係や大小関係といったcontextを取り入れることができます。

  • 外接矩形の教師データ

    図2 外接矩形の教師データ

骨格データ

前回紹介したOpenPoseのような人物の姿勢推定を実現するためには、図3のような関節位置をアノテーションしたデータセットが必要となります。

  • 関節位置をアノテーションした教師データ

    図3 関節位置をアノテーションした教師データ

領域分割

Semantic Image Segmentationで必要になるのが図4に示すような教師データです。各画素がどの領域に属すかをラベルとして付与する必要があります。

  • 領域分割用の教師データ

    図4 領域分割用の教師データ

公開されているデータセット

世界の研究機関がさまざまなデータセットを公開しているので、いくつかご紹介したいと思います。

MNIST

手書き文字のデータセット。一文字一文字が切り出されたデータセット。

CIFAR-10 dataset

10クラス(air plane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)の物体識別用のデータセット。切り出されたデータセット。

PASCAL-Context Dataset

PASCAL VOCデータセットに領域分割のアノテーションを追加したデータセット。画像内の物体が存在する領域の外接矩形、および領域分割を真値として与えている。

MS COCO

物体認識、領域分割等のため統合的なデータセット。画像がどのような画像かを説明する5つのキャプションも含まれる。

MPII Human Pose Dataset

人物の姿勢推定のためのデータセット。

YouTube-8M

800万個の動画からなるデータセット。

YouTube-BoundingBoxes

動画像中の物体認識、トラッキングのためのデータセット。

MPI Dynamic FAUST

人物の3次元スキャンデータの時系列データセット。

他にもいろいろと公開されていますので、使えるものがないか調べてみて下さい。ただし製品化の際は、ライセンス条項を確認するようにしてください。商用利用不可の場合は、独自でデータセットを構築することが必要になります。実際に使うカメラで撮影した画像、映像にアノテーションすることで性能向上にも繋がりますので、ライセンス的に問題が無い場合も必要に応じて独自データセットを構築すると良いでしょう。私がCTOを務める会社でもアノテーションを行うサービスを提供しています。機械学習、Deep Learningの普及に伴い、そういったアウトソーシングを活用することも可能になってきていますので検討してみて下さい。

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習