日本電信電話(NTT)は3月28日、関係データの解析のための機械学習技術として、関係データを表現する行列のあらゆる長方形分割クラスタリングの候補を一挙に表す「超長方形分割」の概念を新たに創出し、その中からデータに適合するクラスタリング結果を獲得するデータ解析方法を実現したと発表した。

関係データ解析は機械学習手法の一つであり、SNS(ソーシャルネットワーキングサービス)におけるクラスタ構造の発見や、ECサイトにおける購買履歴に基づく推薦システム構築、遺伝子パターンと病気の発現パターンの関係から科学的な知見を模索するデータサイエンスなど、さまざまな場面で活用される。

  • 長方形分割による関係データ解析のイメージ

同社は今回の研究成果について、「長方形分割を用いた関係データ解析において、従来ボトルネックとなってきた問題を原理的に回避する解析手法を実現したこと」にあるとしている。従来の長方形分割を用いた関係データ解析の問題は「行と列の並び替えを探す問題」と「データによく適合する長方形分割を探す問題」に帰着されるが、特に後者がデータ解析手法の性能のボトルネックとなっていた。そこで今回は、この処理を原理的に省略するデータ解析手法を創出したとのことだ。

  • 従来のデータ解析モデルと今回開発した提案モデルの比較

同社が今回創出した手法のポイントは、さまざまな長方形分割を個別的に表す代わりに、それ自身の部分領域にさまざまな長方形分割を内包する「超長方形分割」と呼ばれる新たな概念を導入したことにある。超長方形分割を用いた関係データ解析は、長方形分割を探索する問題を超長方形分割の部分を抽出する問題によって置き換えることによって、従来のボトルネックであった長方形分割の探索問題を原理的に回避可能となる。

  • 超長方形分割の要件

  • 順列から長方形分割への変換