「むントラネット」なんお蚀葉も死埌になり぀぀ある昚今だが、それも、わざわざ蚀う必芁もないほど「業務ぞのWeb技術の掻甚」が圓たり前になったずいうこずなのだろう。こずに、近ごろ巷では「Web 2.0」ずか「Ajax」ずいったキヌワヌドが倧流行で、我々の仕事や生掻がたすたすWebに䟝存し぀぀あるのは間違いない。さお、そんなWebを支える芁玠ずしお重芁なのは、やはりなんずいっおもサヌビスを提䟛するWebサヌバだろう。そこで、今回からはWebサヌバの定量評䟡をテヌマに、いろいろ考えおみよう。

Webサヌバを評䟡する際も、その切り口はさたざたである。「性胜」や「皌働率」も評䟡軞のひず぀だし、「ペヌゞビュヌ」や「怜玢語」などの、アクセスログから埗られるデヌタをもずにした分析も倧切だ。ずはいえ、皌働率はほかのサヌバシステムず同じように蚈算すればよいし、性胜に関しおも、ちょっず怜玢すればベンチマヌクテストの方法やツヌルの情報をたくさん芋぀けるこずができる。アクセスログの解析だっお、単玔にペヌゞビュヌの掚移を芋るだけずか、怜玢語のランキングをチェックするだけならば、たいおいのサむトではGoogle Analysticsで事足りるだろう。そこで、もうちょっず進んだ話ずしお、今回はアクセスログの「より高床な分析」に関する話題を玹介しよう。

ちょっず叀い話(今幎3月26日)で恐瞮だが、経営科孊系研究郚䌚連合協議䌚が䞻催するむベント「デヌタ解析コンペティション」の成果報告䌚を取材しおきた。このむベントは、産孊から参加する各チヌムが1぀のテヌマに沿っおデヌタの解析を行い、新たなモデルの構築や知識の発芋を競うこずで孊術および実務研究の発展に寄䞎するこずを目的ずするものである。今幎のテヌマは、郜合良く「りェブ・アクセス・ログの解析」だった。さすがにデヌタ解析の専門家が集たるだけあっお、どのチヌムの研究も興味深いものだった。䞭でも、瀟䌚人郚門最優秀賞を受賞した関西孊院倧孊チヌム(チヌム名:Crescent)の発衚は、研究の新芏性、実甚可胜性ずもに優れおいた。

Crescentの発衚者は、オヌプン゜ヌスのデヌタマむニング゜フトりェア「MUSASHI」の開発者ずしおも知られる矜宀行信氏だった。研究の内容は、アクセスログを「Emerging Sequence Pattern」ずいうモデリング手法を甚いお分析し、「ワンクリックだけしお垰る人」「長くサむトに滞圚する人」「有料サヌビスに申し蟌む人」ずいったナヌザの傟向予枬を行うずいうものである。

さお、この「Emerging Sequence Pattern」ずいうモデリング手法は、「アむテム集合」や「シヌケンス」ずいった芁玠から構築されおいる。たずアむテム集合ずいうのは、怜玢語やリファラ、曜日や時刻など、ログに蚘録されおいる個別のデヌタの集たりである。たた、シヌケンスはログに蚘録されたURLの、時間軞に沿った䞊びを指すず考えればよい。

分析は、たずアクセスログ党䜓から、出珟頻床の高いアむテム集合やシヌケンスを抜出するこずからはじたる。ただ、生のログではアむテムやシヌケンスのばら぀きが倧きくなるため、あらかじめ「タク゜ノミヌ」を導入しお䌌たもの同士を分類、䞀般化しおおく必芁がある。䟋えば倧文字ず小文字、カタカナず平仮名の違いなどをたずめお、同じ意味なのに異なるアむテムずしお扱われないようにしおおくわけだ。

たた、シヌケンスに関しおは、Webサヌバぞの各リク゚ストの時間間隔をもずに、「タむムギャップ」「りィンドりサむズ」ずいった制玄も蚭定しおおく。同じナヌザが初回アクセスから3日経っお再床アクセスしおきおも、それはサむトぞの連続したアクセスずは芋なさないのが圓然だし、「申し蟌みフォヌム」に名前や䜏所を入力するこずを考えるず、衚瀺から送信たで1秒しかかからないずいったこずは有り埗ない。シヌケンスの抜出に時間の制玄を適切にかけるこずで、分析結果の粟床を高めようずいうわけだ。

抜出したアむテム集合ずシヌケンスをもずに分析を行うず、「頻出する特城的なパタヌン(Emerging Pattern)」が発芋できる。䟋えば、「キヌワヌド●●で怜玢しおサむトにたどり着いたナヌザは、長期滞圚する率が1クリックで垰っおしたう率より○○倍高い」ずか、「この順序でペヌゞを移動したナヌザは有料サヌビスに申し蟌む確率が高い」ずいったパタヌンだ。぀たり、アクセスログを现かく分析するこずで、Webサむトを蚪れるナヌザの動向をかなり高い粟床で予枬できる可胜性がある。

きちんずアクセスログを残し、か぀デヌタマむニングの技術を甚いお分析を行えば、気付かなかったWebサむトの欠点を芋぀けられるこずも倚いはずだ。たた、ECサむトなどでは、導線の改善から倧幅な販売数増加に結び付けるこずも考えられるだろう。なお、「Emerging Sequence Pattern」は既にプログラムも実装されおおり、珟堎でも実際に運甚可胜な分析手法であるずのこずだ。