マイナビニュースマイナビ

SharePoint Serverのクロール

【連載】

簡単導入! OSS全文検索サーバFess入門

【第35回】SharePoint Serverのクロール

[2021/04/14 08:00]菅谷 信介 ブックマーク ブックマーク

今回はFessでSharePoint Server 2019をクロールする方法について説明します。解説に使用するバージョンは、Fess 13.11です。事前に公式サイトからZIPファイルを入手し、インストールガイドを参考にして、FessとElasticsearchをインストールしておいてください。

プラグインのインストール

Fessの起動後、管理者としてログインして、SharePoint Server内のデータをクロールするためのプラグインをインストールします。

管理画面の左メニューで「システム」→「プラグイン」をクリックし、画面左上の「インストール」をクリックします。ここで、プルダウンメニューから「fess-ds-sharepoint-13.11.1」を選択し、「インストール」ボタンをクリックしてプラグインをインストールしてください。

インストール

インストール後、プラグインの一覧画面を表示して「fess-ds-sharepoint」が表示されていることを確認します。

fess-ds-sharepoint

Active Directoryの連携

SharePoint ServerでActive Directoryを使用している場合、FessもActive Directoryと連携させることで、Fessで権限情報を取得できます。

管理画面の左メニューで「システム」→「全般」をクリックし、全般の設定を開きます。 LDAP項目を以下のように入力し、「更新」ボタンをクリックします。なお、設定値は例なので、ご利用のActive Directoryサーバの情報を入力してください。

項目 設定値
LDAP URL ldap://example.co.jp:389
Base DN dc=example, dc=co, dc=jp
Bind DN ex_admin@example.co.jp
パスワード ex_adminのパスワード
User DN %s@example.co.jp
アカウントフィルタ (&(objectClass=user)(sAMAccountName=%s))
グループフィルタ (member:1.2.840.113556.1.4.1941:=%s)
memberOf属性 memberOf

クロール設定

Fessのクロール対象は、SharePoint Serverに作成したチームサイトのドキュメントライブラリとリストになります。

クロール設定時は、ドキュメントライブラリ、またはリスト単位で設定します。

例として、以下のサイトにあるドキュメントライブラリとリストをクロールする場合の設定を説明します。SharePointのURL、管理者などの情報は、使用している環境に合わせて読み替えてください。

検証環境の情報 登録内容
SharePointのURL http://sharepoint-SP/
サイト名 testsite
ドキュメントライブラリ名 DocLib
リスト名 tasklist
管理者 sp_siteadmin

ドキュメントライブラリのクロール

Fessの管理画面にログインし、「クローラ」→「データストア」→「新規作成」を開き、クロール設定を作成します。設定が必要な項目は以下の4つです。

  • 名前
  • ハンドラ
  • パラメータ
  • スクリプト
  • パーミッション

「名前」にはこのクロール設定名として任意の文字列を入力し、「ハンドラ」は「SharePointDataStore」を選択してください。

「パラメータ」は、以下のように入力してください。

url=http://sharepoint-SP/
auth.ntlm.user=sp_siteadmin
auth.ntlm.password=sp_siteadminのパスワード
site.name=testsite
site.doclib_path=/Doclib

「スクリプト」は、以下のように入力してください。

url=url
host=host
site=site
title=title
content=content
digest=digest
content_length=content.length()
last_modified=last_modified
created=created
timestamp=last_modified
mimetype=mimetype
filetype=filetype

取得できる値のキーと値の説明は以下になります。

キー 説明
url URL(検索結果に表示されるリンク)
host ホスト名
site サイトパス
title タイトル
content ドキュメントのコンテンツ
digest 検索結果に表示されるダイジェスト部分
content_length ドキュメントのサイズ
last_modified ドキュメントの最終更新日時
created ドキュメントの作成日時
timestamp ドキュメントの更新日時
mimetype ドキュメントのMIMEタイプ
filetype ドキュメントの種類

「パーミッション」には、デフォルトで「{role}guest」が入っています。このままだと、権限を持たないユーザーも検索できてしまうので、「{role}guest」を削除して、空欄にします。

管理画面の左メニュー「システム」→「スケジューラ」で「Default Crawler」のジョブを開きます。「今すぐ開始」をクリックしてクローラを開始し、ジョブの状態が「実行中」から「有効」になるまで待ちます。

クロール完了後、管理画面からログアウトして、ドメインユーザーでFessにログインします。ログイン後に、検索画面から検索語を入力して検索してください。ドメインユーザーでログインしているので、権限が一致する結果のみ表示されます。

検索結果

複数のクロール設定を作成してみて、検索結果がわかりにくい場合には「スクリプト」でタイトルに「title=”[DocLib]” + title」のように接頭子を付加するとわかりやすくなります。

検索結果

リストのクロール

リストもデータストアクロールの画面で設定します。Fessの管理画面にログインし、「クローラ」→「データストア」→「新規作成」を開き、「ハンドラ」で「SharePointDataStore」を選択してください。

「パラメータ」は、以下のように入力してください。

url=http://sharepoint-SP/
auth.ntlm.user=sp_siteadmin
auth.ntlm.password=sp_siteadminのパスワード
site.name=testsite
site.list_name=tasklist

「スクリプト」は、以下のように入力してください。

url=url
host=host
site=site
title=title
content=content
digest=digest
content_length=content.length()
last_modified=last_modified
created=created
timestamp=last_modified
mimetype=mimetype
filetype=filetype

「パーミッション」は「{role}guest」を削除して、空欄にします。

管理画面の左メニュー「システム」→「スケジューラ」で「Default Crawler」のジョブを開きます。「今すぐ開始」をクリックして、クローラを開始し、ジョブの状態が「実行中」から「有効」になるまで待ちます。

クロール完了後、管理画面からログアウトして、ドメインユーザでログインします。 ログイン後に検索画面から検索語を入力して検索してください。 ドキュメントライブラリと同様に、権限が一致する結果のみ表示されます。

検索結果

リストの場合、「content」に登録するフィールド名を指定したい場合は、「パラメータ」に「list.item.content.include_fields」を追加し、フィールド名を指定します。フィールド名を除外する場合は「list.item.content.exclude_fields」で指定します。

list.item.content.include_fields=Status,Priority,Body,AssignedTo,PercentComplete,StartDate

また、ドキュメントライブラリと同様、「スクリプト」で「title=”[リスト名]” + title」のようにすることで、検索結果のタイトルをわかりやすくすることができます。

検索結果

* * *

今回は、SharePoint Server 2019のサイト内をクロールする方法を紹介しました。 サイトで設定された権限も取得できるので、ユーザーごとに適切な検索結果を表示することができます。SharePoint Serverのサイト内の情報を検索する際は、ぜひ参考にしてみてください。

著者紹介

菅谷 信介 (Shinsuke Sugaya)

Apache PredictionIOにて、コミッター兼PMCとして活動。また、自身でもCodeLibs Projectを立ち上げ、オープンソースの全文検索サーバFessなどの開発に従事。

本連載の内容やFessに関するご質問は公式フォーラムまで。

※ 本記事は掲載時点の情報であり、最新のものとは異なる場合がございます。予めご了承ください。

一覧はこちら

連載目次

もっと知りたい!こちらもオススメ

【連載】AzureとOffice 365のセキュリティ、MS ゆりか先生が教えます [20] Office 365のフィッシング対策(その2)

【連載】AzureとOffice 365のセキュリティ、MS ゆりか先生が教えます [20] Office 365のフィッシング対策(その2)

今回は、Office 365/Microsoft 365で利用されているフィッシング対策を解説すると共に、その活用方法をご紹介していきます。

関連リンク

この記事に興味を持ったら"いいね!"を Click
Facebook で TECH+ の人気記事をお届けします
注目の特集/連載
[解説動画] Googleアナリティクス分析&活用講座 - Webサイト改善の正しい考え方
Slackで始める新しいオフィス様式
Google Workspaceをビジネスで活用する
ニューノーマル時代のオウンドメディア戦略
ミッションステートメント
次世代YouTubeクリエイターの成長戦略
IoTでできることを見つけるための発想トレーニング
教えてカナコさん! これならわかるAI入門
AWSではじめる機械学習 ~サービスを知り、実装を学ぶ~
Kubernetes入門
SAFeでつくる「DXに強い組織」~企業の課題を解決する13のアプローチ~
マイクロサービス時代に活きるフレームワーク Spring WebFlux入門
AWSで作るマイクロサービス
マイナビニュース スペシャルセミナー 講演レポート/当日講演資料 まとめ
セキュリティアワード特設ページ

一覧はこちら

今注目のIT用語の意味を事典でチェック!

一覧はこちら

会員登録(無料)

ページの先頭に戻る