日本IBM、テキストマイニング技術の効果と開発の取り組みについて説明

日本アイ・ビー・エムは6月25日にプレスセミナーを開催し、同社のテキストマイニング技術への取り組みについて説明した。同社は「TAKMI(Text Analysis and Knowledge Mining)」という独自のテキストマイニング技術を開発しており、「IBM Cognos Content Analytics」として製品化されている。

IBM東京基礎研究所ナレッジ・インフラストラクチャー那須川哲哉氏

同社でテキストマイニング技術の開発を統括するIBM東京基礎研究所シニア・リサーチャーの那須川哲哉氏が説明を行った。

同氏は「当社の顧客のうち、製造・金融・保険・放送・通信・小売などさまざまな業種で、テキストマイニング技術が導入されている。テキストマイニングによって全体を見ることで、問題の早期発見や解決が可能になる。残念なのは、戦略的に使われているので、事例として公開してもらえる企業が少ないこと。ビジネスにおけるテキストマイニングの有用性をもっと多くの人に知ってもらい、ぜひ使ってもらいたい」と話した。

同氏によると、テキストマイングは当初、世界のIBMの研究所で研究開発が行われていたが、今では東京基礎研究所がリーダーとなって開発が進められているという。その理由は欧米言語と異なり、文が単語で区切られていない日本語は独自の技術が必要であることから、結果として、すぐれたテキストマイニング技術を開発することができたからだ。

TAKMIはテキストマイニング技術として、検索や分類整理に加えて、さらに上のレベルである「知識発見」を目指しているという。同氏は、知識発見を実現する技術要素として、以下を挙げた。

分析したい内容を的確にとらえる事前言語処理
膨大なデータのどこに着目すべきかを示唆する統計解析
着目対象を多様な観点から深堀できるインタフェース
上記の3つの処理を高速かつインタラクティブに実現する仕組み

TAKMIは、カテゴリ分析・二次元マップ・時系列分析・増減分析といった機能を備えている。


IBMのテキストマイニング技術「TAKMI」の仕組み

国土交通省の「自動車不具合情報ホットライン」

同氏は、Cognos Content Analyticsで国土交通省の自動車のリコール・不具合情報が検索できるWebサイト「自動車不具合情報ホットライン」のデータを分析するデモを披露した。

具体的には、同サイトのデータから事故や不具合につながる単語を分類し、それらから1つの車種ごとに同類の事故・不具合の数を集計して見せた。これにより、事故や不具合が多い車種を特定することが可能になるというわけだ(デモでは車種は伏せられていたが)。

デモでは、同社のノートPC1台で約2万件のデータの処理が行われ、同氏がいう「高速な処理」を実証した。


「自動車不具合情報ホットライン」の情報をテキストマイニングするデモの様子。車種ごとに不具合の数や状況を示すことができる

同氏はさらに、同社が取り組んでいるテキストマイニングの拡張技術「評判・嗜好のマイニング」「議論(online discussion)のマイニング」「言語横断テキストマイニング」の3点について説明を行った。

評判・嗜好のマイニングについては、好評・不評の表現が1つの文に複数連なって文脈を形成することに着目して、分野特有の語句を自動的に得る手法が開発された

議論のマイニングについては、議論をネットワークとしてとらえて発言の重要度を判定するロジックを開発した。例えば、意見をネットワークのノードに見立て、議論が重要なノードほど大きな円で示すといった形で、視覚化できる。

言語横断テキストマイニングは、異なる国の言語間でテキストマイニングを行うための技術だ。同技術では、同一概念の他言語表現を特定し、訳語候補語と意味の類似性を評価する。同氏はこの技術を用いて、先の国土交通省のサイトのテキストマイニングの結果を英語で示して見せた。