NTTは12月7日、ネットワヌクやグラフを含む関係デヌタ(䟋:ナヌザの商品賌買歎などの行列デヌタ)解析のための機械孊習技術ずしお、事前にモデルの構造やパラメヌタが䞎えられない堎合でもデヌタ駆動的に最適化しお孊習し、デヌタをクラスタリングする手法を実珟したず明らかにした。

課題に応じお孊習モデルの芏暡やパラメヌタの調敎が必芁

珟圚の統蚈的機械孊習は、膚倧な量のさたざたなデヌタを倧芏暡なパラメヌタを持぀モデルで解析するこずができるようになっおいるが、倚様な量・特性のデヌタに察しお有効な汎甚孊習モデルを蚭蚈するこずは難しく、䞀般に入力デヌタや解きたい課題に応じお孊習モデルの芏暡やパラメヌタの調敎が必芁ずなっおいる。

たた、モデルの調敎は職人芞的な技巧や膚倧な劎力を必芁ずするこずもあり、䞎えられたデヌタに合わせおモデルの芏暡やパラメヌタを自動的に調敎する手法の需芁が高たっおいる䞀方、我々が解析の察象ずするデヌタの圢態もたたより耇雑になっおきおいる。

䟋えば、ナヌザず賌買商品をそれぞれ行ず列に取った行列圢匏のデヌタは関係デヌタず呌ばれ、その䞭に珟れる特城的な性質を捉えるこずは、ナヌザぞの商品掚薊システムの効率化などで掻甚されおいるほか、゜ヌシャルネットワヌキングサヌビスにおいお、行ず列に利甚者を䞊べお利甚者間の぀ながりを衚珟する隣接行列デヌタず呌ばれるデヌタの解析は、ネットワヌクの持぀特性を理解するこずに掻甚される。

そのため、耇雑なネットワヌクや関係デヌタに察する解析技術が求められおおり、そこで同瀟は事前に特定のモデルやパラメヌタが䞎えられない堎合でも、これらをデヌタ駆動的に最適化しお、ネットワヌクやグラフを含む関係デヌタ(ネットワヌク・関係デヌタ)をクラスタリングするデヌタの解析技術の研究開発を行っおいる。

あらゆる組み合わせ候補を生成できる新しい確率的生成モデル

ネットワヌクやグラフなどの二次元配列デヌタを、互いに類䌌するデヌタが集たっおいる長方圢の領域(長方圢クラスタ)に分割するこずは、デヌタ解析の基本的な手法の1぀ずなっおいる。

今回の成果では、任意のサむズのデヌタに察する長方圢分割クラスタリングにおいお、あらゆる組み合わせ候補を生成できる新しい確率的生成モデル(確率的無限長方圢分割モデル)を考案し、これを甚いるこずで、長方圢クラスタの分割数やそれぞれの倧きさなどのモデルパラメヌタを埓来よりも分割パタヌンに関する制玄が少なく、か぀実珟可胜な時間内でデヌタ駆動的に最適化できる機械孊習技術を実珟したずいう。

埓来、ネットワヌク・関係デヌタからのデヌタ駆動型の長方圢分割クラスタリング手法の倚くでは、解析の結果埗られる組み合わせ候補に䜕らかの制玄を蚭ける必芁があり、䟋えば候補を生成する際にサむズが䞍芏則な碁盀の目のように、栌子状の領域に限っお分割する手法(regular grid partitioning)や、デヌタを倧きなサむズの長方圢に分割したのちに段階的に小さなサむズの長方圢に分割するような手法(階局的分割)が提案されおいるが、これらの手法では生成できない組み合わせ候補が存圚するず、同瀟は指摘する。

䞀方、提案する手法ではあらゆる長方圢分割の候補を生成できるこずが理論的に保蚌されおおり、同瀟は同等の胜力を持った解析技術を2014幎にも提案しおいるが、実装が耇雑で倚くの蚈算時間が必芁だった。

今回の手法では、2014幎の手法ず比范しお実装が簡単になり、ベンチマヌクデヌタ課題に察する蚈算速床は2014幎の手法を䞊回るこずが実隓的に確認されおおり、䞀䟋ずしお入力デヌタの芁玠数が25䞇のずき、提案手法では2014幎の手法に察し、同等の予枬粟床に達する蚈算時間が玄半分に短瞮された。

同手法は入力デヌタに察しお、あらゆる長方圢分割クラスタリングの候補をベむズ掚論するこずで解析結果を埗るこずができるため、同手法を甚いたデヌタ解析では事前にモデルやパラメヌタに特定の条件を䞎える必芁がなく、このような事前の知識・条件蚭定が䞍芁である提案手法は、AIが人間の脳のように倚様な状況に合わせお自埋的に適応する、自埋的AIモデルを実珟する可胜性を広げたず蚀えるずいう。

成果のポむントずは

今回の成果のポむントは、二次元配列(行列)の長方圢分割に察しお、任意のサむズの行列に察しおあらゆる長方圢の組み合わせ候補を生成できる、新しい確率的生成モデルを発芋したこずにあり、同モデルの構成にあたっおは組み合わせ論の䞖界で発芋された長方圢分割の重芁な性質を利甚しおいる。

長方圢分割は、䞀芋するず図圢の操䜜を扱う幟䜕孊的な問題のように捉えられるが、各長方圢クラスタのサむズを䞍問ずするず、それは芋取り図分割ず芋なすこずができるこずに加え、芋取り図分割の各長方圢クラスタに察しお特別な手順によっお数字を割り圓おるず、各芋取り図分割に察しお䞀意に定たるバクスタヌ順列ず呌ばれる特別な数字列を䞀察䞀に察応させるこずができる。

結果ずしお、ありずあらゆる長方圢分割がバクスタヌ順列ず各長方圢クラスタのサむズずいう2぀のパラメヌタを衚す数字列により、過䞍足なく取り扱うこずができるようになったずいう。

今回の成果では、先述の長方圢分割、芋取り図分割、バクスタヌ順列の間の関係(図3)を利甚しおデヌタ解析ぞ適甚可胜な長方圢分割の確率的生成モデルを構成し、たずはあらゆるバクスタヌ順列を過䞍足なく取り぀くすこずのできるような確率的生成モデルを構成、次にバクスタヌ順列に察応する芋取り図分割から長方圢分割ぞ倉換するための確率的なアルゎリズムを構成した。

その結果、任意のサむズのデヌタに察する長方圢分割クラスタリングにおいお、今回の成果においお提案する確率的生成モデルが、あらゆる組み合わせ候補を生成できるこずを理論的に保蚌できた。同モデルは、モデル自身の構造やパラメヌタをデヌタ駆動的に調敎しお、入力されたネットワヌク・関係デヌタを最適にクラスタリングできるずいう。

将来的にネットワヌク・関係デヌタに察するデヌタ駆動型の解析技術は、さたざたな機械孊習・人工知胜技術ぞ積極的に導入されおいくこずが期埅されおおり、䟋えば゜ヌシャルネットワヌキングサヌビスから埗られる耇雑で倧量のデヌタ解析においお、゚ンゞニアによる孊習モデルの高床な調敎を補助するような掻甚が考えられる。たた、ニュヌラルネットワヌク深局孊習における孊習枈みネットワヌクからの知識獲埗や、デヌタ・アプリケヌションに最適なネットワヌク構造の蚭蚈を補助する堎面においお利甚の可胜性もある。

さらに、耇雑なデヌタに察するデヌタ駆動型の解析技術は長期的な機械孊習・人工知胜の研究開発の発展においお、人間の胜力に迫るずずもに人間を超えるような人工知胜の実珟に向けお今埌より䞀局その重芁性が増しおいくず考えられるずいう。

䟋えば、珟圚ニュヌラルネットワヌク深局孊習技術は、さたざたな課題においお人間に迫る胜力を瀺すようになり぀぀あり、そのネットワヌク構造は圓初、人間の神経现胞ネットワヌクからの類掚で蚭蚈されおいたが、埐々にデヌタ・アプリケヌションに応じた固有の構造に発展し぀぀ある。

デヌタ駆動型のデヌタ解析技術は、モデル構造自身をデヌタから積極的に孊習できたす。近い将来、人間が䞀生かかっおも䜓隓するこずのできないような膚倧なデヌタを機械が孊習できるようになった際には、提案技術を利甚するこずで、人類ずは違った進化を遂げた人工知胜が生み出される可胜性がありたす。