未知のITキーワードや難しい専門用語が多い中、こんなビッグデータや可視化だったらとても楽しくITの魅力を理解できるのではないだろうか?Yahoo! JAPANビッグデータレポートチームは5日、日本のミュージシャンたち16万曲の歌詞を分析・可視化、その類似性を可視化したツール「アーティストクラスタリングチャート」を公開した。

GYAOとヤフーが協力して運営する映像配信サービス「GYAO!」では、映画やアニメ、ドラマなどとともに注目の新曲から洋楽や演歌、アニメソングなど幅広く音楽コンテンツを提供するが、断片的な歌詞からいくつかの曲名候補を提示し、直ぐさまにリンクで飛べる歌詞サービスも展開している。曲名やアーティスト名がわからない場合にも、数秒で目的の音楽へとたどり着ける便利なこの機能。膨大な歌詞データがビッグデータとしてユーザーのためにサービスとして提供されているのだ。

今回、両社は日本のミュージシャンの16万曲分の日本語歌詞データを解析、ビッグデータを形態素解析を用いて、アーティストごとに特徴を抽出したという。形態素解析は、意味を持つ最小単位に分解していく文章解析手法で、名詞や形容詞、動詞と分類と出現個数や出現頻度などを洗い出せる。また、Yahoo! JAPANビッグデータレポートチームが"特徴語"と名付けるアーティストごとに計算された基準を用いている。

公開された「アーティストクラスタリングチャート」では、特徴語が似たアーティストを系譜図のように分類。ミスチルとTOKIO、矢沢永吉と郷ひろみ、筋肉少女帯と人間椅子などなど、歌詞から分析した似たものアーティストを発見できる。アーティスト名をクリックするとそのアーティストらしい歌詞ワード上位10件、特徴語が似ているアーティスト、似ている特徴語(共起語)や類似スコアも表示される

同社はデータの持つ力と面白さを伝えるためにビッグデータを活用したレポート「Yahoo! JAPANビッグデータレポート」を公開している。特徴語の抽出方法や詳細な分析手順、今回公開されたアーティストクラスタリングチャートでの興味深いアーティストのピックアップなども取り上げている。