AOSデータは、データマーケットプレースにAI学習用データコマース「DataMart.jp」の提供を開始した。一言でいえば、データセットを安全に売買できる場となる。といわれても、ピンとこない人も多いかもしれない。本稿では、その背景などを紹介するとともに、どういったことが可能なのかを紹介したい。
AIを導入したものの…
AIシステムを導入したものの、思うように成果が上がってこないといった話は多い。AIシステムの開発には、大量の学習用のデータが必要となる。しかし、これが簡単ではない。図1は機械学習(ML)のプロジェクト時間の使い方のアンケート結果である。
見ての通り、
- データ収集
- アノテーション
- クレンジング
などに80%の時間が費やされている。結果として、AIアルゴリズムやモデル学習に時間をかけられないことになってしまう。これが、AIシステムを導入したのに、望む結果が得られない一因となっている。その対策として考えられたのが、AIプロジェクトを成功に導くために、AIライフサイクルにおける高品質なAI学習用データサービスを提供するDataMartである。
データコマース「DataMart.jp」
たとえば、データ収集を考えてみたい。不良品を発見するAIシステムを開発するには、不良品となるデータが必要になる。しかし、多くの製造ラインで、不良品の発生率はかなり低い。最近では、不良品データを効率よく収集・加工・生成させる仕組みも使われるようになった。しかし、この課題を解決するまでにはいたっていない。
そこで、各企業に内在するデータに注目したのである。これらのデータを売買することで、購入側にとっては、必要なデータを容易に入手でき、購入後すぐに活用できるように加工された高付加価値データを自社のAIシステムに学習用データとして利用できる。本来の開発作業に傾注できることになる。販売側にとっては、自社で蓄積したデータをマネタイズし、更新データを提供することで、継続的に収益を得ることが期待できる。
また、企業に存在するデータの集積プラットフォームとしての機能も担っていく。海外では、データの質も高く、ビジネスとして成立しているので、そのあたりも参考にしていくとのことだ。
現在のところ、DataMartに収集されたデータの多くは、公官庁などが公開しているオープンデータで、Excel形式が多い。まずは、あちこちに分散するデータを集めることを目標としている。現在も、ニーズに応じて、AIデータ加工センターとして、AI学習用データに加工するアノテーションや、フェイクデータとしてデータを生成するシンセティックデータ、また紙などをデジタルデータに変換するアナログデータ変換プラットフォームサービス、データリカバリセンターなど、AIライフサイクルにおけるデータワンストップサービスを提供している。
これまでは、企業の持つデータを売りたくても、その場もなく、紹介する場もない、公開する場もなかった。それが可能になり、企業にとってもコスト回収、さらには利益を出せる構造へと誘導する。その過程で、DataMartがアノテーションやクレンジングなどをサポートすることも重要な要素になるだろう。
欲しいデータを見つけるために:マッチング表示やメッセージ機能
データセットの購入は、図3のような流れとなる。
最終的にデータセットを購入するにしても、まず希望するデータセットを探す必要がある。DataMartでは、そのための機能が充実している。まずは、マッチング表示である。購入アカウントでログインする。
右上に[希望データ条件管理]がある。これを選択すると、図5のようになる。
ここに、ほしいデータの概要を記入していくのである。かなり詳しく記入することができ、マッチング率を高めることが可能である。たとえば「健康食品」と入力すると、結果として図6のように、健康食品に関するデータセットが表示される。
他にも[データセットを探す]から、検索フィルターで検索を行うことができる。
統計区分(大分類)では、現在16分野が登録されている(将来、追加される可能性もある)。ここから絞り込みを行うことができる。これ以外にも、フリーワードやこだわり検索なども利用可能である。
次いで、メッセージ機能であるが、図9は販売アカウントでログインしている画面である。
販売用のデータセットが表示される(デモのためのサンプルである)。[詳細]をクリックし、登録した情報を詳しく見てみると、図10のようになる。
それぞれのデータセットごとに、[メッセージを送る]や[チャットルーム]といったボタンが表示される。[チャットルーム]を選択すると、図11のようにメッセージを交換することができる。
これにより、データセットの提供者と速やかにコンタクトができ、質問やリクエストも可能になる。また、図10で[編集]をクリックすると、登録された情報を編集できる。
先ほどのマッチングでは、これらの入力データから検索が行われる。見ての通り、かなり多岐にわたる。
最後に、いいね機能であるが、図13の[いいねする]ボタンをクリックする。
確認メッセージが表示される、
[OK]をクリックするだけだ。
右上に「いいね済」と表示される。いいね設定をしておくと、そのデータセットの最新の状況を確認できるようになる。
提供されるデータセットの多くは、年次・月次で更新されるものがほとんどであろう。いいね機能を活用することで、つねに最新のデータを入手可能になる。
今後、DataMartで、データセットが増加していくと、ほしいデータセットをいかに素早く見つけることができるかが、ポイントになるだろう。これらの機能をうまく使うことで、対応可能となる。
「審査」で信用度を担保
もう一度、図3を見てほしい。もう1つ注目したい機能が「審査」である。実際何が行われるかというと、
- データ価値算定
- データ法律相談
などである。前者は、コスト基準価格設定などでデータセットの販売価格の基礎となるものだ。後者はデータとして著作権などを侵害していないか、ビジネスとして問題ないのかといったことが調べられる。これらは、AOSグループで、これまで培ったリーガルテック技術をベースとしている。
また、購入側においても、図17のように法人番号を必須にしている。
実際に法人として存在するかの確認が行える。将来は、登記簿謄本の提供も予定しているとのことだ。このように販売側も購入側にも身元の確実性を確認できるようにしている。特に、販売側においては、一定の審査を行うことにしている。
さらに競合対策も検討している。たとえば、同業やライバル会社には、自社のデータセットを売りたくないといったケースも予想される。競合対策として、購入側にも一定の企業情報号などの入力を求めることになる可能性もある。いずれにしても、データを売買する場において、互いの信用が重要な要素になってくることは明らかである(不正な取引は絶対に防ぐ必要がある)。その信用度を担保するのが、審査機能となる。現在は、オープンデータがほとんどなので、それほど厳しい運用はされていない。しかし、今後より厳格な審査を行うことが求められるかもしれない。
また、現在の課題として、データを提供するデータプロバイダの拡充が求められているとのことだ。
つねに新たな産業は、テクノロジーとリーガルの両輪で産業は発展してきた。今まさに世界で勃興している「データ産業」という新たな産業分野のデータインフラとしての確立が日本でも求められている
それを支えるのが、リーガルテックの技術力となると思われる。日本では、新たな市場なので、不安を感じる人も少なくないだろう。そこを払拭していくのが、日本で初期の頃からリーガルテックとデータテックの技術を基盤として発展してきたAOSデータ社の役割と なるだろう。