データベースのクロール

【連載】

簡単導入! OSS全文検索サーバFess入門

【第17回】データベースのクロール

[2019/10/16 08:00]菅谷 信介 ブックマーク ブックマーク

開発ソフトウェア

今回はデータベースに格納されたデータをクロールして検索する方法を紹介します。

データベースからSQLでデータを取得する際、言語処理が必要な条件で検索するような場合は、Fessを利用することで効率的にデータベース内のデータを検索することが可能です。また、FessはJDBCドライバが提供されているデータベースならばクロールして検索対象とすることができます。

データベースの設定

今回はMySQLのデータベースクロールを例にして紹介していきます。以下の設定のMySQLサーバを用意します。

項目
url mysql://localhost:3306
データベース名 testdb
ユーザー名 hoge
パスワード fuga

また、testdbに以下のようなテーブルを用意します。

CREATE TABLE doc (
    id BIGINT NOT NULL AUTO_INCREMENT,
    title VARCHAR(100) NOT NULL,
    content VARCHAR(255) NOT NULL
    PRIMARY KEY (id)
);

テーブルには以下のようにデータを入れておきます。

INSERT INTO doc (title, content) VALUES ('タイトル 1', 'コンテンツ 1 です.');
INSERT INTO doc (title, content) VALUES ('タイトル 2', 'コンテンツ 2 です.');
INSERT INTO doc (title, content) VALUES ('タイトル 3', 'コンテンツ 3 です.');
INSERT INTO doc (title, content) VALUES ('タイトル 4', 'コンテンツ 4 です.');
INSERT INTO doc (title, content) VALUES ('タイトル 5', 'コンテンツ 5 です.');

Fessの構築

次に、Fessを構築します。今回はFess-13.3.2を利用します。FessのZIPファイルはダウンロードページから入手することができます。

JDBCドライバのインストール

Fessを起動後、「管理画面のシステム」>「プラグイン」で「インストール」を押下して、プラグインのインストール画面を表示します。リモートタブで「mysql-connector-java-8.0.17」を選択し、「インストール」を押下するとMySQLのJDBCドライバがインストールされます。

プラグインのインストール

一覧にないものをインストールする場合は、ローカルタブからファイルをアップロードしてインストールしてください。

クロール設定

ここからは、MySQLのデータベースクロールの設定を説明します。

Fessの管理画面にログインし、「クロール」>「データストア」で新規作成をします。 設定画面では以下の4項目を設定します。

  • 名前
  • ハンドラ名
  • パラメータ
  • スクリプト

名前には任意の文字列を入力してください。ハンドラ名は「DataBaseDataStore」に設定します。

今回のパラメータはデータベースの内容に合わせて、以下のように設定します。

driver=com.mysql.jdbc.Driver
url=jdbc:mysql://localhost:3306/testdb?useUnicode=true&characterEncoding=UTF-8
username=hoge
password=fuga
sql=select * from doc

パラメータは「キー=値」形式となっています。キーの説明は以下です。

キー
driver ドライバクラス名
url データベースサーバのURL
username データベースに接続する際のユーザー名
password データベースに接続する際のパスワード
sql クロール対象を得るためのSQL文

スクリプトは以下のように設定します。

url="http://localhost/" + id
host="localhost"
site="localhost"
title=title
content=content
cache=content
digest=content
anchor=
content_length=content.length()
last_modified=new java.util.Date()

スクリプトもパラメータと同様で「キー=値」形式となっています。各キーの説明は、以下の通りです。

キー
url URL(検索結果に表示されるリンク)
host ホスト名
site サイトパス
title タイトル
content ドキュメントのコンテンツ(インデックス対象文字列)
cache ドキュメントのキャッシュ(インデックス対象ではない)
digest 検索結果に表示されるダイジェスト部分
anchor ドキュメントに含まれるリンク(普通は指定する必要はありません)
content_length ドキュメントの長さ
last_modified ドキュメントの最終更新日

値は、Groovyとして処理されます。文字列はダブルクォーテーションで閉じてください。データベースのカラム名を変数として利用することができます。

指定する値は検索用にインデックスされるので要件に合わせて指定してください。

クロールの開始/検索の実行

クロール設定登録後、「システム」>「スケジューラ」>「Default Crawler」から「今すぐ開始」を押下します。クロールが完了するまでしばらく待ちます。

クロールが完了したら「http://localhost:8080/」にアクセスして、検索してみてください。以下のような検索結果が表示されるはずです。

検索結果

* * *

今回は、Fessのデータベースクロール方法について説明しました。FessではJDBCドライバが提供されているデータベースであれば、MySQL以外のデータベースも同様の設定でクロールすることができます。ぜひ試してみてください。

著者紹介

菅谷 信介 (Shinsuke Sugaya)

Apache PredictionIOにて、コミッター兼PMCとして活動。また、自身でもCodeLibs Projectを立ち上げ、オープンソースの全文検索サーバFessなどの開発に従事。

※ 本記事は掲載時点の情報であり、最新のものとは異なる場合がございます。予めご了承ください。

一覧はこちら

連載目次

この記事に興味を持ったら"いいね!"を Click
Facebook で IT Search+ の人気記事をお届けします

会員登録(無料)

注目の特集/連載
[解説動画] Googleアナリティクス分析&活用講座 - Webサイト改善の正しい考え方
[解説動画] 個人の業務効率化術 - 短時間集中はこうして作る
ミッションステートメント
教えてカナコさん! これならわかるAI入門
知りたい! カナコさん 皆で話そうAIのコト
対話システムをつくろう! Python超入門
Kubernetes入門
AWSで作るクラウドネイティブアプリケーションの基本
PowerShell Core入門
徹底研究! ハイブリッドクラウド
マイナビニュース スペシャルセミナー 講演レポート/当日講演資料 まとめ
セキュリティアワード特設ページ

一覧はこちら

今注目のIT用語の意味を事典でチェック!

一覧はこちら

ページの先頭に戻る