富士通は、住所や氏名のデータ表記を統一するデータクレンジングソフト「Interstage Information Quality」を、9月9日から販売開始したと発表した。10月末から出荷が開始され、来年には法人名のクレンジング機能を提供し、今後情報活用の適用範囲を拡大していくという。

「Interstage Information Quality」は、住所や氏名の表記のゆらぎを解消するためのソフト。データベースの住所や氏名には、漢字/ひらがな、区切りスペースの有無、数字の全角/半角などの表記ゆれが存在し、これはさまざまなシステムからデータを収集し、データ分析を行うBI分野では大きな妨げとなる。

日本語の表記ゆれの例

また、統合したデータベースでは、同一人物を示すデータが重複して存在するケースがあり、ダイレクトメールの重複発送や宅配物の配達遅延、顧客情報の不整合などの問題が生じている。

富士通 ミドルウェア事業本部 データマネジメントミドルウェア事業部長 堀江剛氏

富士通 ミドルウェア事業本部 データマネジメントミドルウェア事業部長 堀江剛氏は、「データを統合するための運用コストだけなく、時間もかかるというのが大きな問題となっている」と語る。

Interstage Information Qualityは、住所データを文節に区切ることなく、各要素ごとに住所辞書内の要素と総当たりで照合して一致する割合の高い住所を選択し、ゆれを補正する。

これにより、高速化を実現すると同時に、これまで他社のソフトではできなかった省略や誤りも補正できるという。

具体的には、住所の欠落補完、誤り補正、「丁番地」表記の標準化、住所・氏名の分かち書き、市町村合併等による新住所への変換といった住所・氏名のクレンジングや、ひらがな/カタカナ統一、半角/全角統一、空白/記号の除去といった文字列クレンジングを実現する。

Interstage Information Qualityのクレンジング機能

富士通の検証では、成功率は97%で、クアッドコアのCPUで100万件処理する時間は350秒ほどだったという。

表記ゆれの補正例

富士通の独自技術により成功率は97%を達成(社内検証による)

対応フォーマットは、入力、出力ともCSVで、企業のポリシーに合わせ、半角スペースで区切る、丁番地の区切りをハイフンにするなどの指定も可能だという。

比較用の住所データは、過去40年間にさかのぼって旧住所と新住所を対応づけられる住所辞書を搭載しており、毎月最新版の住所辞書を提供する「住所辞書更新サービス」により、市町村合併などで住所表記の変更を重ねた顧客データも最新の住所に変換できるという。

過去40年間の住所データを提供。データはDBではなく、テキストをベースとした独自形式だという

富士通ではこのソフトを単体で販売するとともに、他社製のマスターデータを統合するツールの中に組ん込んでいくことも視野にいれ、現在交渉中だという。

販売価格は、Interstage Information Quality Standard Edition V10 の1プロセッサあたりのライセンスが250万円(税別、2コアを1CPUとカウントする)で、住所辞書更新サービスは80万円(税別、サーバあたり年額)となっている。

対応OSは、Windows Server 2008/2003、Windows 7/Vista/XP、Red Hat Enterprise Linux 5/4、Solaris 10/9となっている。