【コラム】

Yet Another 仕事のツール

50 KH Coderとコーディング・ルール

    鶴田展之  [2005/01/18]

    さて、前回予告した通り、今回はKH Coderを使った、より細かいテキストマイニングをやってみたい。前回はKH Coderのチュートリアルとして用意されている夏目漱石の「こころ」から、品詞別の出現回数リストを作成してみたが、今回はもう少し実用に即したデータとして、ある旅行会社への「問い合わせ」メールのデータを利用することにしよう。

    前回やったように、単語の出現頻度をランク付けするだけでも、ある程度はデータの傾向は見えてくるものだ。しかし、実際に自然文から意味のあるデータを発掘しようとする場合、単に出現頻度を数えるだけでは十分でないことも多い。例えば、この旅行会社のデータから品詞別の出現回数リストを作成してみたところ、図1のようになった。

    図1

    旅行会社のデータなので、「ホテル」や「航空」といったキーワードが上位に並んでいる。特に「ホテル」が頻出しているところを見ると、顧客がこの会社のサイトを訪れるニーズのトップは、ホテルの情報を得たり、予約をしたりといったところにありそうだ、と考えられるだろう。

    しかし、これだけの材料でそう決めつけるのはちょっと早計すぎる気もする。なぜなら、実際の「言葉」では、ホテルに関する問い合わせだからといって、ホテルという単語を使用するとは限らないからだ。問い合わせの文章が自由形式である以上、ホテルを「宿」と書く人もいるだろうし、「部屋」「ルーム」といった言葉も使われるだろう。一方で「航空券」の予約に関する問い合わせには「チケット」や「空港」「フライト」などの言葉が使われるはずだ。顧客のニーズが「ホテル」にあるのか、「航空券」にあるのかを知りたければ、単語そのものの出現頻度を数えるだけでは不十分で、それぞれの「概念」的な集合を考慮して集計を行う必要がある。

    KH Coderには、こういった概念的、カテゴリ的な集計を行うための「コーディング・ルール」と呼ばれるルールを作成する機能が用意されている。コーディング・ルールは、テキストファイルに以下のような簡単な形式で記述するだけで作成できる。

    *コード
    単語 or 単語 or 単語 or .......

    早速、「ホテル」と「航空券」に関するコーディング・ルールを作成してみよう。ただ、データ中に出てこない単語をコーディング・ルールとして定義しても意味がない。無闇やたらと類語を並べるのではなく、抽出語検索機能(「ツール」-「抽出語」-「抽出語検索」)などを利用しながら、データ中に一定の頻度で現れる単語をリストアップしていくとよいだろう。

    以下が、「宿泊」に関する単語と「飛行機」に関する単語をリストアップしたコーディング・ルールだ。これを「travel.cod」ファイルとして保存しておく。

    *宿泊
    ホテル or 部屋 or 宿 or ルーム or 泊まる or 宿泊 or 満室
    *飛行機
    飛行機 or チケット or 航空 or フライト or 飛ぶ or 空港 or ビジネス or エコノミー or 片道 or 往復

    このコーディング・ルールを適用した集計を行ってみよう。まず、メニューから「ツール」-「コーディング」-「単純集計」を実行する。表示されるウィンドウで「コーディングルール・ファイル」の「参照」ボタンを押し、「travel.cod」ファイルを指定する。

    「集計」ボタンをクリックすれば、コーディング・ルールに記述されたコード毎に集計が行われ、結果が表示される。

    この結果からは、ホテルに関する問い合わせより、むしろ飛行機に関する問い合わせの方がわずかながら多い、という結論が導き出された。さらにコードを増やしてみよう。できるだけ問い合わせの多そうな「概念」を品詞毎の出現頻度リストから考え、以下の記述をコーディング・ルールに追加する。

    *ツアー
    ツアー or ゴルフ or ビーチ or 観光 or 旅程 or バス or スケジュール
    *手続き
    ビザ or パスポート or 手数料 or クレジットカード or 口座

    再度集計してみると、結果は以下のようになった。

    結局、この旅行会社では「ホテル」と「飛行機」に関する問い合わせが突出して多いことがわかる。つまり、例えばWebサイト上のFAQとして「ホテル」「飛行機」に関する項目を挙げておけば、問い合わせに対応するコストを下げつつ、的確に顧客ニーズに応えられることがわかるだろう。

    KH Coderには、ここで紹介した以外にもより深い分析を行うための機能がいくつか用意されている。メニューやドキュメントに専門用語が多く、多少素人にはとっつきにくい部分もあるが、チュートリアルを使ってあれこれいじってみるだけでも、慣れるに従って結構自分なりの使い方が見えてくる。茶筌を使った優れたツールとして、お勧めしたい一本だ。

    新着記事

    特設サイトの情報

      求人情報

      人気記事

      一覧

      イチオシ記事

      新着記事

      特別企画

      転職ノウハウ

      あなたの仕事適性診断

      4つの診断で、自分の適性を見つめなおそう!

      Heroes File ~挑戦者たち~

      働くこと・挑戦し続けることへの思いを綴ったインタビュー

      はじめての転職診断

      あなたにピッタリのアドバイスを読むことができます。

      転職Q&A

      転職に必要な情報が収集できます

      スカウト転職する

      企業からアプローチのメッセージが届きます。

      マイナビニュースマガジン