AIを活用しデータ品質を格付け-ソフトバンクら3者が共同研究を開始

九州大学、ソフトバンクおよび豆蔵の3者は11月26日、企業や自治体、教育・研究機関などで蓄積されているさまざまなデジタルデータについて、データの品質を数学的な理論を用いて客観的に判定し、格付けとして明示する「データ格付け」の実現に向けた研究を2020年11月から共同で開始したと発表した。

企業や自治体、教育・研究機関などが組織内で記録・蓄積しているデータの相互利用は、DX(デジタルトランスフォーメーション)における重要なテーマの一つとなっている。しかし、各組織が保有するデータは仕様や形式が異なるほか、そのデータが利用に適した品質であるかどうかが明示されていないため、データを分析する際には、形式上の整合性の確認や、重複や誤記、表記の揺れなどを探して修正・削除するデータクレンジングなどの作業が必要になり、データの相互利用における大きな障壁となっているという。3者は、こうしたデータの相互利用における障壁を取り除くため同研究を開始した。

同研究では、「データ格付け」を行うための新しい数理基盤(アルゴリズム)を確立するとともに、クラウド環境と連携した「データ格付けサービス」の実装に向けた理論の構築と実証実験を行う。「データ格付けサービス」とは、クラウド環境にある各種データの品質を数理的に判定し、格付けとして明確化するサービスだという。

「データ格付けサービス」のイメージ

同サービスを実装するためには、「データ格付け」を可能な限り自動化することが必要なため、数理基盤やAIの活用を想定しているとのことだ。データが形式的な要件を満たしているかどうかを数理基盤で判定し、データ利用者に提供可能な品質かを自動で格付けするほか、AIの活用によりデータの品質を保証する仕組みも検討するとしている。

3者は今後、2021年5月までに数理基盤・理論や実証実験の環境を構築し、同年7月までに実証実験を開始する方針だ。なお同研究において、「データ格付け」の理論構築は九州大学と豆蔵が主担当となり、理論の実装および実証実験は、九州大学とソフトバンクが主担当として実施するという。

また、同研究の開始に伴って、「デジタル・ニッポンの実現に向けたデータ格付け数理基盤に関するシンポジウム」を、2020年12月14日にオンラインで開催するとしている。