【コラム】

Yet Another 仕事のツール

50 KH Coderとコーディング・ルール

50/112

さて、前回予告した通り、今回はKH Coderを使った、より細かいテキストマイニングをやってみたい。前回はKH Coderのチュートリアルとして用意されている夏目漱石の「こころ」から、品詞別の出現回数リストを作成してみたが、今回はもう少し実用に即したデータとして、ある旅行会社への「問い合わせ」メールのデータを利用することにしよう。

前回やったように、単語の出現頻度をランク付けするだけでも、ある程度はデータの傾向は見えてくるものだ。しかし、実際に自然文から意味のあるデータを発掘しようとする場合、単に出現頻度を数えるだけでは十分でないことも多い。例えば、この旅行会社のデータから品詞別の出現回数リストを作成してみたところ、図1のようになった。

図1

旅行会社のデータなので、「ホテル」や「航空」といったキーワードが上位に並んでいる。特に「ホテル」が頻出しているところを見ると、顧客がこの会社のサイトを訪れるニーズのトップは、ホテルの情報を得たり、予約をしたりといったところにありそうだ、と考えられるだろう。

しかし、これだけの材料でそう決めつけるのはちょっと早計すぎる気もする。なぜなら、実際の「言葉」では、ホテルに関する問い合わせだからといって、ホテルという単語を使用するとは限らないからだ。問い合わせの文章が自由形式である以上、ホテルを「宿」と書く人もいるだろうし、「部屋」「ルーム」といった言葉も使われるだろう。一方で「航空券」の予約に関する問い合わせには「チケット」や「空港」「フライト」などの言葉が使われるはずだ。顧客のニーズが「ホテル」にあるのか、「航空券」にあるのかを知りたければ、単語そのものの出現頻度を数えるだけでは不十分で、それぞれの「概念」的な集合を考慮して集計を行う必要がある。

KH Coderには、こういった概念的、カテゴリ的な集計を行うための「コーディング・ルール」と呼ばれるルールを作成する機能が用意されている。コーディング・ルールは、テキストファイルに以下のような簡単な形式で記述するだけで作成できる。

*コード
単語 or 単語 or 単語 or .......

早速、「ホテル」と「航空券」に関するコーディング・ルールを作成してみよう。ただ、データ中に出てこない単語をコーディング・ルールとして定義しても意味がない。無闇やたらと類語を並べるのではなく、抽出語検索機能(「ツール」-「抽出語」-「抽出語検索」)などを利用しながら、データ中に一定の頻度で現れる単語をリストアップしていくとよいだろう。

以下が、「宿泊」に関する単語と「飛行機」に関する単語をリストアップしたコーディング・ルールだ。これを「travel.cod」ファイルとして保存しておく。

*宿泊
ホテル or 部屋 or 宿 or ルーム or 泊まる or 宿泊 or 満室
*飛行機
飛行機 or チケット or 航空 or フライト or 飛ぶ or 空港 or ビジネス or エコノミー or 片道 or 往復

このコーディング・ルールを適用した集計を行ってみよう。まず、メニューから「ツール」-「コーディング」-「単純集計」を実行する。表示されるウィンドウで「コーディングルール・ファイル」の「参照」ボタンを押し、「travel.cod」ファイルを指定する。

「集計」ボタンをクリックすれば、コーディング・ルールに記述されたコード毎に集計が行われ、結果が表示される。

この結果からは、ホテルに関する問い合わせより、むしろ飛行機に関する問い合わせの方がわずかながら多い、という結論が導き出された。さらにコードを増やしてみよう。できるだけ問い合わせの多そうな「概念」を品詞毎の出現頻度リストから考え、以下の記述をコーディング・ルールに追加する。

*ツアー
ツアー or ゴルフ or ビーチ or 観光 or 旅程 or バス or スケジュール
*手続き
ビザ or パスポート or 手数料 or クレジットカード or 口座

再度集計してみると、結果は以下のようになった。

結局、この旅行会社では「ホテル」と「飛行機」に関する問い合わせが突出して多いことがわかる。つまり、例えばWebサイト上のFAQとして「ホテル」「飛行機」に関する項目を挙げておけば、問い合わせに対応するコストを下げつつ、的確に顧客ニーズに応えられることがわかるだろう。

KH Coderには、ここで紹介した以外にもより深い分析を行うための機能がいくつか用意されている。メニューやドキュメントに専門用語が多く、多少素人にはとっつきにくい部分もあるが、チュートリアルを使ってあれこれいじってみるだけでも、慣れるに従って結構自分なりの使い方が見えてくる。茶筌を使った優れたツールとして、お勧めしたい一本だ。

50/112

インデックス

連載目次
第112回 TYPO3とHTMLテンプレート
第111回 TYPO3とデザイン変更
第110回 エクステンションでTYPO3の機能を向上
第109回 TYPO3コンテンツの作成
第108回 いよいよWebサイトを構築
第107回 TYPO3の文字化けを解消
第106回 超高機能CMS TYPO3を使いこなしてみよう(3)
第105回 超高機能CMS TYPO3を使いこなしてみよう(2) - インストール、環境設定
第104回 超高機能CMS TYPO3を使いこなしてみよう(1)
第103回 OSSのナレッジベースaphpkbを活用してみる
第102回 ナレッジツール「aphpkb」で知識共有
第101回 PHProjektの文字化け対策
第100回 LAMPプロジェクト管理ツール - PHProjekt
第99回 プロジェクト管理を効率化しよう - JProjectTimerとGanttPV
第98回 プロジェクト管理を効率化しよう - GanttProject
第97回 EclipseでBusiness Intelligence - BIRTを使ってみよう(3)
第96回 EclipseでBusiness Intelligence - BIRTを使ってみよう(2)
第95回 EclipseでBusiness Intelligence - BIRTを使ってみよう(1)
第94回 Olutで販売在庫管理
第93回 オープンソースのSNS - OpenPNEを試してみる
第92回 SugarCRMの不具合を修正する
第91回 Synergyでキーボード、マウスを共有する
第90回 SugarCRMへのデータ登録を省力化する
第89回 SugarCRMの用語を理解する
第88回 SugarCRM - オープンソースで「ほう・れん・そう」
第87回 Oracle XE - HTML DBでアプリケーションをつくる
第86回 無料のOracle Database XEを試す
第85回 OpenOffce.org 2.0「Base」を使ってみる
第84回 JpGraphでSNMPデータからグラフを生成
第83回 SNMPの活用(4) - ホスト情報をMySQLに自動蓄積~グラフの生成
第82回 SNMP InformantによるWindowsサーバのSNMPエージェント
第81回 SNMPを活用する(3) - マシンから収集した情報を活用~MIBの基本
第80回 SNMPを活用する(2) - Net-SNMPの導入
第79回 SNMPを活用する(1) - サーバの状態を監視~SNMPとは
第78回 Nagios Pluginを使ってサーバをチェック
第77回 Nagiosに監視対象を追加する
第76回 Nagiosにプラグインを導入する
第75回 Nagiosでネットワークを監視する
第74回 DrupalをBlogとして使う
第73回 Drupalを日本語化 - 翻訳ファイルのインポート~設定
第72回 XOOPS、Ploneに続け! - YetAnotherなCMS"Drupal"の導入
第71回 EpozでPloneのコンテンツを編集する
第70回 OpenSolarisをビルドしてみる(2)
第69回 OpenSolarisをビルドしてみる(1)
第68回 ZMIの日本語化とデザインのカスタマイズ
第67回 Zope + CMFのCMS"Plone"を使ってみよう - 基本的なコンテンツの編集
第66回 Zope + CMFのCMS"Plone"を使ってみよう - 導入
第65回 phpCollabでプロジェクト管理(5) - ガントチャートを日本語化
第64回 phpCollabでプロジェクト管理(4) メール送信の文字化けを解消する
第63回 phpCollabでプロジェクト管理(3) phpCollabの不具合を修正
第62回 phpCollabでプロジェクト管理(2) phpCollabの導入
第61回 phpCollabでプロジェクト管理(1)
第60回 osCommerceでショップを構築(7) お勧め商品を表示
第59回 osCommerceでショップを構築(6) MySQLにデータをロード
第58回 osCommerceでショップを構築(6) 分析スクリプト
第57回 osCommerceでショップを構築(5) PHP CLIスクリプト
第56回 osCommerceでショップを構築(4) 処理の手順を考える
第55回 osCommerceでショップを構築(3) 注文データ
第54回 osCommerceでショップを構築(2) - データベース構造
第53回 osCommerceでショップを構築(1) - 導入
第52回 PostgreSQLとMySQLのベンチマークテスト(2) - mysqlbench
第51回 PostgreSQLとMySQLのベンチマークテスト(1) - pgbench
第50回 KH Coderとコーディング・ルール
第49回 茶筌を利用するソフトウェア「KH Coder」
第48回 MySQL 4.0から4.1へのアップグレード 、トラブってませんか?
第47回 茶筌の辞書に単語を登録する
第46回 茶筌とMUSASHIで純和風テキストマイニング
第45回 日本語形態素解析ツール「ChaSen」
第44回 PostgreSQLレプリケーションのまとめ
第43回 PGCluster - 部分レプリケーション
第42回 ロードバランサの冗長構成
第41回 レプリケーションサーバを冗長化する
第40回 システムの急所、SPOFを無くすための考察
第39回 PGCluster データベースクラスタの障害からの復旧(2)
第38回 PGCluster データベースクラスタの障害からの復旧(1)
第37回 PGClusterの動作確認とDBクラスタの障害検出
第36回 1台のホストでPGClusterを試す(2)
第35回 1台のホストでPGClusterを試す
第34回 PGClusterの導入
第33回 PGClusterの特徴
第32回 Slony-Iのslonikコマンドラインユーティリティ
第31回 Slony-Iでデータベースをレプリケーション
第30回 レプリケーションシステム「Slony-I」の導入
第29回 pgpoolの障害復旧手順(2)
第28回 pgpoolの障害復旧手順(1)
第27回 pgpoolの障害検出と縮退運転
第26回 pgpoolでデータベースのレプリケーション
第25回 SQLrelayとpgpoolの効能を試す
第24回 SQLrelayとpgpoolのアプリケーションへの適用範囲
第23回 汎用コネクションプーリングサーバ「SQLrelay」 - 導入編
第22回 pgpoolの導入と設定
第21回 PostgreSQLと可用性(1)
第20回 TEAMSPEAKサーバをMySQLと連携させる
第19回 TEAMSPEAKクライアントの使い方
第18回 TeamSpeakサーバの設定とクライアントからの接続
第17回 TeamSpeakで音声通話 - TeamSpeakサーバのインストール
第16回 データマイニングツール MUSASHI(5) MUSASHIとWEKA
第15回 データマイニングツール MUSASHI(5) 出力のカスタマイズ
第14回 データマイニングツール MUSASHI(4)
第13回 データマイニングツール MUSASHI(3)
第12回 データマイニングツール MUSASHI(2)
第11回 データマイニングツール MUSASHI(1)
第10回 KNOPPIXを利用した手軽な"LAMP"環境
第9回 高機能CMS XOOPS(4) XOOPSを手軽に使うために
第8回 高機能CMS XOOPS(3) 標準以外のモジュールで仕事をスムーズに
第7回 高機能CMS XOOPS(2)Webサイトの構築
第6回 高機能CMS XOOPS(1)導入
第5回 MySQLデータベースを使う
第4回 VMware Workstationでテスト環境を整える
第3回 Linuxデスクトップの実力(2)
第2回 Linuxデスクトップの実力(1)
第1回 仕事の道具、オープンソースという選択

もっと見る



人気記事

一覧

イチオシ記事

新着記事