【コラム】
前回はごくごく簡単なテキストマイニングの例を紹介したが、実は結果があまり正しく分析できていなかったりする。なぜなら、茶筌の辞書「IPA品詞体系辞書(ipadic)」に登録されていない単語は「未知語」として扱われてしまったり、アルファベットの1文字ずつに分割されてしまったりするため、単語としての集計の対象から漏れてしまうのだ。例えば、「MySQLもPostgreSQLもデータベースである。」という文を解析した結果は以下のようになる。
「PostgreSQL」はかろうじて単語として扱われているが、品詞が「未知語」だ。MySQLは一文字ずつに分解されてしまった。このようなコンピュータ用語や、あまり一般的でない固有名詞などの単語は、独自に辞書に登録して正しく解析に反映されるようにしよう。今回はipadicへの単語登録の手順を紹介する。
用意するものは、ipadicのインストールに使用したソース一式だけだ。ソースファイル群は以下のように構成されている。
grammar.chaは品詞定義ファイルであり、ipadicで扱う品詞の分類が階層的に定義されている。品詞を追加したり、品詞の名称を変更したりする場合はgrammar.chaを編集する必要がある。
活用する品詞に関して、活用型の一覧を定義したファイルがctypes.cha、具体的な活用形が記述されているのがcforms.chaだ。
「.cha」という拡張子のついたファイルが、実際の単語を定義した辞書ファイルだ。辞書ファイルは各品詞毎に細かく分割されている。たとえば、人名は「Noun.name.dic」、地名は「Noun.place.dic」といった具合だ。なお、ユーザが独自に辞書ファイルを追加することもできる。その場合も、拡張子を「.dic」にしておくだけでOKだ。
さて、単語登録を行う場合、品詞や活用形をいじる必要が生じることはほとんどないだろう。つまり、編集するのは辞書ファイルだけだ。ここでは、「Linux」「Apache」「MySQL」「PostgreSQL」といった単語を、新たな辞書ファイル「オープンソース名詞辞書」を作成して定義してみよう。まず、エディタで新しい辞書ファイル「Noun.oss.dic」を開く。
辞書ファイルは、あらかじめ定められたフォーマットで記述する。今回追加する四語の例では以下のようになる。これをNoun.oss.dicに記述しよう。
各行の先頭では品詞の定義を行い、「見出し語」として登録したい単語を記述する。単語の後に記述された数値は、「形態素生起コスト」と呼ばれる値で、文中に出現しやすい、つまりよく使われる単語ほど値を小さく設定する。ここでは至極適当に"5000"としているが、他の辞書ファイルを参照しながら、似たような使われ方をする単語と近い値に設定しておくと良いだろう。
辞書ファイルの用意ができたら、あとは前々回を参照して辞書をコンパイルし、インストールするだけだ。先ほどの例文を再度茶筌で解析してみよう。
きちんとMySQLもPostgreSQLも固有名詞として認識されている。いちいち辞書をコンパイルしなおすのはちょっと面倒だが、頻出する単語は使いながら徐々に追加していくとよいだろう。
| 理研、脳・脊髄形成に必要な神経板湾曲の仕組みを解明 [20:16 5/25] |
| 京大、「慢性閉塞性肺疾患」患者の労作時呼吸困難は鍼治療が有効と実証 [20:08 5/25] |
| 120Hz SHVカメラ用イメージセンサーを使った撮像装置 - SHVフルスペック化へ [18:10 5/25] |
| 京大、視覚による物体認知は前頭前野からのトップダウン信号が重要と確認 [17:45 5/25] |
| 製品数の拡大だけでなくBCPの展開なども含めた総合力で事業の強化を図るTI [17:25 5/25] |
|
「ゆりてつ」サイン会は作者と都電に揺られるツアー仕立て [17:45 5/27] ホビー |
|
【ネタバレもありの徹底解明コラム】『サザエさん』タマの意外な事実 [17:30 5/27] ホビー |
|
鍼灸(しんきゅう)師が教える。オフィスで口臭予防ツボ・ベスト3 [17:00 5/27] キャリア |
|
[梶浦由記]米「アニメ・エキスポ」に2度目の参加決定 [17:00 5/27] ホビー |
|
【連載】これだけは要チェック! TOEIC(R)単語帳 第107回 今回のお題は…「chemical」 [17:00 5/27] キャリア |
4つの診断で、自分の適性を見つめなおそう!
働くこと・挑戦し続けることへの思いを綴ったインタビュー
あなたにピッタリのアドバイスを読むことができます。
転職に必要な情報が収集できます
企業からアプローチのメッセージが届きます。