本連載の第49回に教師あり学習で必須となるデータセット(教師データ)について紹介しました。教師ありのモデル開発、認識精度の向上のためには教師データが極めてに重要です。研究、開発の初期段階では公開されているデータセットを活用することができます。
今回から複数回にわたって、世界の研究機関が公開している様々なデータセットをご紹介していきたいと思います。データの種別ごとにカテゴライズして記載しますが、多様なデータを含むものもありきれいに分類できていないこともありますが、その点はご容赦ください。
静止画
1:文字データ
手書き文字のデータセット。一文字一文字が切り出されたデータセット。CC0ライセンスということで商用利用可能です。
科学論文のデータセット。商用利用は不可のようです。
崩した手書き数字、漢字のデータセット。商用利用可能です。
2:一般物体認識
1400万枚のデータセット。クラス数(物体の種類)もかなり多い。各画像には鳥など特定の物体のみが写るように切り出された画像です。商用利用不可です。
CIFAR-10は10クラス(air plane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)の物体識別用のデータセットで、各クラス6000枚の画像で構成されています。
CIFAR-100は100クラス、各クラス600枚の画像からなります。ライセンスについての記述が見当たらないため商用利用は避けたほうが良いかもしれません。
3:生物
ペットの画像のデータセット。37クラス、1クラスあたり200枚です(下図参照)。商用利用も可能です。
8000種以上の生物を撮影した画像からなるデータセット。画像数は45万枚におよびます。CC BY-NCという記載もあるため、商用利用は避けたほうが良いかもしれません。
4:ファッション
60,000サンプルの訓練セットと 10,000サンプルのテストセットで構成されています。クラス数は10、画像サイズは縦横それぞれ28画素のグレースケールと小さいな画像となってます。商用利用可能です。
100万枚を超えるカラー画像からなります。
80万枚以上の画像に対して、50クラス(カテゴリー)、1000種類の属性を付与したものです。商用利用不可です。
商用利用の可否についても簡単に記載しましたが、ライセンスについてはご使用になる際に改めて調査をお願いします。他にもいろいろデータセットがあります。次回も公開されているデータセットについて引き続き紹介する予定です。
今回ご紹介したデータセットも有用なものばかりですが、実用化に向けた開発では独自でデータセットを構築したほうが良いでしょう。また、公開されたデータセットには含まれないような認識対象の場合は、独自で教師データを作ることが必須もちろん必須です。プロジェクトにあったデータセットを準備するようにしてください。
また、データが追加されたり、新たなデータセットが公開されることもあるので、本連載でご紹介した内容をベースにこちらのWebサイトで情報を随時更新していきますので、今後もチェックしてみてください。
著者プロフィール
樋口未来(ひぐち・みらい)日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。
日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。
専門:コンピュータビジョン、機械学習