コンテンツのクロールを計画する

重要:  この記事は機械翻訳されています。機械翻訳についての「免責事項」をお読みください。この記事の英語版を参照するには、ここをクリックしてください。

注:  このコンテンツは、ソフトウェアの暫定リリース用の仮のコンテンツです。不完全である場合があり、変更される可能性があります。

この記事の内容

コンテンツのクロールの概要

コンテンツ ソースを計画する

SSP のクロール計画に関する考慮事項

サーバー ファームのクロール計画に関する考慮事項

Microsoft Office SharePoint Server 2007 でエンタープライズの検索機能を使用して、組織全体のコンテンツを検索できるようにするには、コンテンツとそのプロパティが検索クエリの対象になるように、検索に含めるコンテンツと、コンテンツをクロールする計画を決定する必要があります。

Microsoft Office SharePoint Server 2007 は、関連するコンテンツとデータが検索結果に表示されるように、コンテンツ ソースを使用して、サイト コレクションまたは関連する外部サイトやビジネス データ アプリケーションのコンテンツをクロールします。クロールが完了すると、他の検索機能でコンテンツのフィルターや変更を行うことができます。コンテンツ ソースを適切に計画すると、初期展開時に、コンテンツとデータ、Office Server 展開の外部にあるコンテンツとデータ、または組織の外部にあるコンテンツとデータの主要なサブセットに基づいて、組織全体のコンテンツを構成および管理できる検索機能を構築できます。各コンテンツ ソースのクロール スケジュール、クロール ルール、プロパティ管理、および関連する設定も計画できます。

コンテンツのクロールの概要

クロールとは、コンテンツ、データ、およびメタデータのインデックスを作成して、検索クエリから関連する検索結果を返すことができるようにする処理です。コンテンツ ソースは、Office SharePoint Server 2007 がコンテンツをクロールして検索クエリに使用できるようにする処理の起点です。コンテンツ ソースは、1 つ以上の開始アドレスで構成されます。開始アドレスとは、組織の検索に含めるコンテンツまたはデータが含まれる URL です。共有サービス プロバイダー (SSP) 管理者が検索用に選んだルールに基づいて、コンテンツ インデックスにコンテンツが含まれるか、除外されます。コンテンツ ソースのコンテンツとデータがクロールされた後、クエリ サーバーは、管理されている検索のプロパティと検索サービスの機能に基づいてクエリを処理し、関連する検索結果を返すようになります。既定では、SSP を使用する各 Web アプリケーションのすべてのコンテンツが 1 つのコンテンツ ソースでクロールされます。

検索の SSP 管理者は、コンテンツのキー サブセットについて、追加のコンテンツ ソースを作成できます。組織に関連する各開始アドレスのコンテンツとデータに基づいて、SSP のすべてのコンテンツ ソースに適用される開始アドレスのクロール ルールを選び、各コンテンツ ソースの設定を構成することができます。

以前のバージョンの Microsoft SharePoint Portal Server では、管理者がコンテンツ インデックスを管理していました。コンテンツ インデックスは、コンテンツ ソースでクロールされるすべてのコンテンツの基礎となるコレクションです。Microsoft Office SharePoint Server 2007 では、コンテンツ インデックスは不要になりました。各コンテンツ ソースに選んだ設定に基づいて、各 SSP につき 1 つのコンテンツ インデックスが自動的に作成されます。コンテンツ インデックスは管理者に表示されなくなりました。

ページの先頭へ

コンテンツ ソースを計画する

SSP の既定のコンテンツ ソースでは、SSP を使用するすべての Web アプリケーションのコンテンツがクロールされます。SSP のすべての Web アプリケーションの開始アドレスは、コンテンツ ソースに自動的に追加されるので、コンテンツ ソースの最初のフル クロールが完了した後は、SSP 内のすべてのコンテンツが検索対象になります。

各 Web アプリケーションの各サイト コレクションについて追加のコンテンツ ソースを作成する方がよい情報アーキテクチャもあります。クロールを独立して管理およびスケジュールするには、SSP 全体のコンテンツのサブセットをクロールするコンテンツ ソースを作成する方法があります。この方法は、すべてのコンテンツをクロールせずに、高い優先度のコンテンツや頻繁に変更されるコンテンツをクロールする場合に便利です。

追加のコンテンツ ソースを計画するコンテンツの例を次に示します。

  • 組織内のファイル共有上にあるコンテンツ。

  • Exchange Server のコンテンツ。

  • Lotus Notes サーバー上のコンテンツ。

  • サイト ディレクトリ内のサイト。

  • SharePoint サイトにはない、組織内のその他のコンテンツ。

  • SSP の外部、または組織の外部のコンテンツ。

  • 基幹業務アプリケーションに格納されているビジネス データ。

各コンテンツ ソースには、このような各種コンテンツが混在している場所を示す 1 つ以上の開始アドレスを含めることができます。1 つのコンテンツ ソース内のコンテンツをグループ化するか、追加のコンテンツ ソースを作成するかは、管理者の考えによって大きく左右されます。管理者は、特定のコンテンツ ソースのフル更新を必要とする変更を行うことがよくあります。クロール ルール、クロール アカウント、アクセス アカウント、または管理されているプロパティの変更には、フル更新が必要です。管理を容易にするには、コンテンツを同時に更新して、管理者やその他の計画された管理タスクにとって便利になるようにコンテンツ ソースを構成します。

メール サーバー、SharePoint サイトを含まない Web サーバー、ビジネス データ アプリケーション サーバーなど、組織のサーバー ファームの外部にあるファイル共有とサーバー上のコンテンツは、可用性によって構成することをお勧めします。コンテンツを含むサーバーが同時に稼働している場合、コンテンツ ソースのすべてのコンテンツを正常にクロールできる可能性が高くなります。後でフル更新を実行する頻度が低くなります。

組織の各サイト コレクション内に必要なすべてのコンテンツを効率的にクロールするには、以上の考慮事項に加え、コンテンツ ソースを可能な限り少なくすることをお勧めします。"クロールおよびクエリ検索機能の計画" ワークシートを使用して、初期展開のコンテンツ ソースに関する決定を記録します。

外部コンテンツ ソースを計画する

外部コンテンツは、組織内のユーザーに役立つ 2 種類のコンテンツを参照します。

  • この SSP を使用してクロールする、別の SSP を使用する Web アプリケーション内のコンテンツ。

  • 組織内のユーザーが作成または管理していないインターネット コンテンツまたはエクストラネット コンテンツ。

通常、Web アプリケーション上のコンテンツの関連性が高く、コンテンツ ソースに含める必要がある場合、おそらく、その Web アプリケーションは、コンテンツ ソースの開始アドレスに他の Web アプリケーションと同じ SSP を使用しています。場合によっては、さまざまな共有サービスを使用する 1 つの Web アプリケーションから、組織のコンテンツのサブセットを含めることもあります。可能であれば、情報アーキテクチャ、SSP、サイト構造を慎重に計画し、このような状況が起きないようにします。異なる SSP を使用する Web アプリケーション上のコンテンツをクロールする必要がある場合、関連するクロール アカウントがコンテンツに対する読み取りアクセス許可を持っていることを確認します。また、同様の時間に稼働している他のコンテンツ、または概念的に関連性がある他のコンテンツを含むコンテンツ ソースの開始アドレスをグループ化してみてください。

一般的なシナリオとして、SharePoint サイト上のコンテンツに関連する組織の管理対象外のコンテンツがあります。このコンテンツの開始アドレスを既存のコンテンツ ソースに追加するか、外部コンテンツ用の新しいコンテンツ ソースを作成できます。外部サイトの可用性は大幅に変化するため、外部コンテンツごとに別のコンテンツ ソースを追加すると便利です。こうしておくと、各サイトの可用性に合わせたクロール スケジュールに従って外部コンテンツの各セットを更新することができます。

クロール対象のサーバーのリソースがクロールに使用されるため、外部コンテンツ ソースをクロールする場合、クローラー影響ルールは特に重要です。外部サーバーのコンテンツを大量に要求したり、過度な頻度で要求を実行したりして、リソースや帯域幅がクロールに過度に使用されると、そのサイトの管理者から今後のアクセスが制限される可能性があります。また、各コンテンツ ソース用のクロール設定と、SSP 用のクロール ルールを使用して、外部サーバーに対する影響を制限することもできます。

ビジネス データのコンテンツ ソースを計画する

ビジネス データのコンテンツ ソースの場合、まずデータをホストするアプリケーションをビジネス データ カタログに登録し、そのプロパティを、使用する検索スキーマに合う管理プロパティに対応付ける必要があります。ビジネス データの開始アドレスを、他のコンテンツ用の開始アドレスと組み合わせることはできません。そのため、ビジネス データ コンテンツ ソースは別に管理する必要があります。

多くの場合、サイト コレクション内のビジネス データの統合を計画するユーザーは、全体的なコンテンツ計画プロセスに関係するユーザーと同じにはなりません。コンテンツ計画チームには、ビジネス アプリケーションの管理者を含め、データを他のコンテンツに統合し、サイト コレクションに効果的に表示する方法についてアドバイスをもらえるようにします。

クロール設定を計画する

コンテンツ ソースごとに、そのコンテンツ ソースの開始アドレスをクロールする範囲を選ぶこともできます。各コンテンツ ソースのプロパティでは、次のオプションを使用できます。

  • 各開始アドレスのホスト名以下の全コンテンツをクロールする。

  • 各開始アドレスの SharePoint サイトのみをクロールする。

他のコンテンツ ソースの決定時と同様に、コンテンツ ソースのクロール設定を計画するときに考慮する際に最も重要な要素は、情報の関連性と、パフォーマンスに与える影響です。次のクロール方法が推奨されます。

  • リンク先のサイトで使用できるコンテンツが関連している可能性が低く、サイト自体のコンテンツが関連している場合、SharePoint サイトのみをクロールします。

  • 開始アドレスのリンクが関連するコンテンツを指している傾向がある場合は、すべてのコンテンツをクロールします。

クロール スケジュールを計画する

各コンテンツ ソースは、そのコンテンツ ソースのクロール スケジュールに基づいて、独立して更新できます。クロール スケジュールは、検索サービスを実行するサーバーと、クロールされるコンテンツをホストするサーバーの両方の可用性、パフォーマンス、および帯域幅の考慮事項に基づいて計画することをお勧めします。

最適な結果を得られるように、次の考慮事項に基づいてクロール スケジュールを計画してください。

  • コンテンツをホストするサーバーについて、同様の可用性と、許容できる全体的なリソース使用状況に基づいて、コンテンツ ソースの開始アドレスをグループ化します。

  • コンテンツをホストするサーバーが稼働していて、サーバーのリソースに対する要求が少ないときに、各コンテンツ ソースの増分クロールをスケジュールします。

  • ファーム内のサーバーにかかる負荷が時間的に分散されるように、クロール スケジュールをずらします。

  • フル クロールの頻度を少なくします。

  • フル クロールが必要になる管理者の変更を、フル クロールの定期スケジュールの直前に行うようにスケジュールします。

ファーム内のサーバーとコンテンツをホストするサーバーのパフォーマンスと容量に基づいて、初期展開後のスケジュールを調整できます。

ページの先頭へ

SSP のクロール計画に関する考慮事項

初期展開について計画するコンテンツ ソースを特定したら、SSP の計画について考慮します。SSP の共有サービス管理ページのクロール設定は、SSP のすべてのコンテンツ ソースのクロールに影響があります。ほとんどの組織では、1 つの SSP のみを使用してコンテンツ全体をクロールおよびクエリするので、これらの設定は、組織内のすべてのコンテンツ ソースに適用されます。

展開中に、SSP を作成し、各 SSP 用にコンテンツ ソースを作成します。こうしておくと、計画段階で最初にコンテンツ ソースを計画するときに役立ちます。少数のケースで追加の SSP が必要な場合、コンテンツ ソースの計画によって、複数の SSP の必要性を特定できます。コンテンツ ソースを計画すると、クロール ルールまたは新しいファイルの種類の恩恵を受ける可能性があるコンテンツを特定することもできます。

クロールされるコンテンツに影響する SSP 設定の一部を次に示します。

  • 既定のコンテンツ アクセス アカウントの設定。

  • 任意のコンテンツ ソースから使用される特定の開始アドレスに関するクロール ルールの構成。

  • ファイルの種類も含まれます。

既定のコンテンツ アクセス アカウントを計画する

既定のコンテンツ アクセス アカウントは、コンテンツ ソースをクロールするときに既定で使用されるアカウントです。このアカウントは、SSP 管理者が設定後の構成中に選択されます。既定のアクセス アカウントには、クロールされるすべてのコンテンツに対して読み取りアクセス権が必要です。読み取りアクセス権がない場合、コンテンツはクロールされず、検索クエリで使用できなくなります。コンテンツ ソースの個々のサイトについて、別のアクセス アカウントを使用するクロール ルールを使用できます。ベスト プラクティスとして、クロールされるコンテンツのほとんどに対して最も広いアクセス権を持つ既定のコンテンツ アクセス アカウントを選び、セキュリティ上の考慮事項で別アカウントが必要な場合にのみ、他のアクセス アカウントを使用することをお勧めします。計画する各コンテンツ ソースについて、既定のコンテンツ アクセス アカウントからアクセスできない開始アドレスを特定し、そのような開始アドレスのアクセス アカウントを追加する計画を立てます。管理者は、関連する開始アドレスについて、クロール ルールで追加のアクセス アカウントを構成できます。アクセス アカウントの計画の考慮事項の詳細については、クロール ルールに関する次のセクションを参照してください。

クロール ルールを計画する

コンテンツ ソースでクロールされるコンテンツを制限して、サーバー リソースやネットワーク トラフィックの使用を最小限に抑え、検索結果の関連性を向上するために、クロール ルールが使用されます。クロール ルールは、すべてのコンテンツ ソースに同時に適用されます。特定のサイトのクロール方法を構成する場合や、既定のコンテンツ アクセス アカウントとは別のクロール アカウントに変更する場合は、特定のサイトや場所をクロール対象から除外するクロール ルールを作成します。

各クロール ルールには、1 つの URL、またはワイルドカード、包含ルール、除外ルール、クロール アカウントで表現された複数 URL のセットが含まれます。

除外ルールを使用して、無関係なコンテンツがクロールされないようにすることができます。多くの場合、特定のサイト アドレスのほとんどのコンテンツは関連性がありますが、サイトの特定のサブサイトや範囲は関係がないことがあります。SSP 管理者は、特定の開始アドレスと除外クロール ルールの組み合わせを選ぶことで、クロールされるコンテンツを最大化し、クロールのパフォーマンスに対する影響とコンテンツ データベースのサイズを最小限に抑えることができます。除外ルールは、外部コンテンツの開始アドレスについて計画するときに特に便利です。外部コンテンツの場合、リソースの使用状況への影響は、組織内のユーザーが制御できないからです。

包含ルールとコンテンツのクロール方法を変更するオプションを使用して、特定の URL や、複数 URL の範囲を含めることができます。包含ルールの 3 つのオプションを任意に組み合わせることができます。

  • リンクをたどり、開始アドレスの URL にあるコンテンツをたどらない。このオプションは、リンクを含むページに無関係な情報が含まれ、関連するコンテンツのリンクがあるサイトに有効です。

  • 複合 URL をクロールする。このオプションでは、複合文字を含む URL をクロールします。サイトによって、関連するコンテンツが含まれる場合と含まれない場合があります。複合 URL は、無関係なサイトにリダイレクトされる可能性が高いため、複合 URL から使用できるコンテンツが関連しているとわかっているサイトでのみ、このオプションを有効にすることをお勧めします。

  • SharePoint サイトのコンテンツを HTTP としてクロールする。

クロール ルールにコンテンツが含まれるか除外されるかにかかわらず、管理者は、ルールのクロール アカウントを変更することができます。クロール ルールで別のアカウントが指定されていない場合、既定のコンテンツ アクセス アカウントが使用されます。クロール ルールに別のクロール アカウントを使用する主な理由は、既定のコンテンツ アクセス アカウントが、すべての開始アドレスに対するアクセス権を持っていないためです。このような開始アドレスの場合、クロール ルールを作成し、アクセス権を持っているアカウントを選びます。

初期展開のベスト プラクティスとして、情報アーキテクチャで特定された組織に最も関連する概念とビジネス プロセスに従って、最も関連性の高いコンテンツにクロール対象を絞り込むクロール ルールを使用することをお勧めします。コンテンツのクロールはリソースと帯域幅を消費するため、無関係な可能性がある大量のコンテンツではなく、関連するとわかっている少量のコンテンツを含めることをお勧めします。初期展開後に、クエリとクロール ログを確認し、コンテンツ ソースとクロール ルールを調整して関連性を向上し、より多くのコンテンツを含めるようにすることができます。

含めるファイルの種類を計画する

含めるファイルの種類一覧に、関連するファイル拡張子が含まれる場合にのみ、コンテンツはクロールされます。初期インストール時に、複数のファイルの種類が自動的に含まれます。初期展開のコンテンツ ソースを計画するときに、主なコンテンツが、含まれないファイルの種類を使用しているかどうかを確認することをお勧めします。使用している場合は、そのコンテンツの種類を追加します。特定のファイルの種類にほとんど関係がないコンテンツが含まれる場合、その拡張子についてファイルの種類の包含を削除することができます。その結果、クロールからその拡張子のファイル名が除外されるようになります。

ファイルの種類を追加するときは、ファイルの種類のクロールに使用できる IFilter も用意する必要があります。複数のファイルの種類に対応する IFilter は、サードパーティ ベンダーから入手できます。また、ソフトウェア開発者は、必要に応じて新しいファイルの種類に対応する IFilter を作成できます。

ページの先頭へ

サーバー ファームのクロール計画に関する考慮事項

SSP レベルで構成されている設定に加え、サーバー ファーム管理者が管理する一部の設定も、コンテンツ ソースのクロール方法に影響します。クロールの計画時には、次の設定について考慮してください。

クロールに影響するファームレベルの設定の一部を次に示します。

  • ファームレベル検索の設定。

  • クローラー影響ルール。

  • ファーム サービス。

  • 複数のファーム展開の共有サービス。

ファームレベル検索の設定を計画する

ファームレベル検索の設定には、次の設定があります。

  • 連絡先のメール アドレス

  • プロキシ設定

  • タイムアウトの設定

  • SSL の設定

連絡先のメール アドレスは、コンテンツ ソースのクロールによって生じる影響について連絡する個人のアドレスです。このアドレスは、開始アドレスを含むサーバーの管理者用ログに含まれるので、管理者は、クロールがパフォーマンスや帯域幅に与える影響が高すぎる場合や、他の問題が発生した場合に担当者に連絡することができます。連絡先メール アドレスには、必要な専門知識を持ち、要求に対してすばやく対応できる個人または適切に監視されているエイリアスを指定することをお勧めします。クロールされたコンテンツを組織の内部に保存するかどうかにかかわらず、迅速な対応時間が重要です。

プロキシ設定には、コンテンツをクロールするときに使用するプロキシ サーバーが含まれています。使用するプロキシ サーバーは、組織内の SharePoint 展開と他のサーバーのアーキテクチャのトポロジに応じて変わります。タイムアウト設定は、検索サーバーが他のサービスに接続する間に待機する時間を制限するために使用されます。SSL 設定によって、コンテンツをクロールする際に、SSL 証明書が正確に一致する必要があるかどうかを決定します。

クローラー影響ルールを計画する

クロール対象のサーバーにかかる負荷を管理するには、クローラー影響ルールを使用します。クローラー影響ルールによって、クロール中にサイトのドキュメントを要求する頻度や、同時に要求するドキュメント数を制限します。

組織内のコンテンツの場合、他の管理者と協調して、サーバーのパフォーマンスと容量に基づいてクローラー影響ルールを設定できます。ほとんどの外部サイトの場合、このような協調はできないので、大量にクロールするのではなく、ごく少量をクロールし、関連するコンテンツをクロールできるアクセスを失わないようにするのがベスト プラクティスです。

初期展開時には、他のサーバーに与える影響を可能な限り軽減し、有意義なクロールになる頻度でコンテンツがクロールされるように、クローラー影響ルールを設定します。

運用時には、経験とクロール ログのデータに基づいて、クローラー影響ルールを調整できます。

複数のサーバー ファームの展開を計画する

多くの場合、大規模な組織では、セキュリティやアーキテクチャの考慮事項に基づいて、複数のサーバー ファームを含む展開を計画します。たとえば、組織がコンテンツの運用に 1 つのファームを使用し、インターネットにコンテンツを公開するために別のファームを使用することがあります。また、主要な各子会社用のファームを含む地理的に分散している展開や、他のプロジェクトと区別する必要がある社外秘または機密プロジェクト用に追加ファームを用意する例もあります。

複数のファームがある場合、共有サービスをファーム全体で構成する方法を計画する必要があります。各ファームの [サーバーの全体管理] の [アプリケーション構成の管理] ページの Office SharePoint Server 共有サービス セクションで、ファーム間の共有サービスを付与または構成するオプションを選択できます。次の 3 つのオプションのいずれかを使用するように各ファームを構成できます。

  • このファームはファーム間共有サービスに参加しない    このオプションを使用するファームは、ファーム間共有サービスに参加せず、同じファーム上の SSP の共有サービスに依存します。これは、1 つのサーバー ファームを使用する小規模な展開の、中小規模の組織に一般的な構成です。

  • このファームは他のファームに共有サービスを提供する    他のファームにサービスを提供するファームは、大規模な組織のファーム間共有サービスを管理するために設計されており、小規模な部門や組織用のファームよりも大きな容量です。

  • このファームは別のファームからの共有サービスを使用する    共有サービスを消費するファームは、部門のポータル サイトまたは小規模なビジネス アプリケーションを実行する部門のファームに一般的です。このようなファームは独自の SSP を用意し、中央の SSP を使用できないときに、ローカル ファームで稼働しているサービスを使用できるようにすることもできます。

ページの先頭へ

注: 機械翻訳についての免責事項: この記事の翻訳はコンピューター システムによって行われており、人間の手は加えられていません。マイクロソフトでは、英語を話さないユーザーがマイクロソフトの製品、サービス、テクノロジに関するコンテンツを理解するのに役立てるため、こうした機械翻訳を提供しています。記事は機械翻訳されているため、用語、構文、文法などに誤りがある場合があります。

スキルを磨く
トレーニングの探索
新機能を最初に入手
Office Insider に参加する

この情報は役に立ちましたか?

ご意見をいただきありがとうございます。

フィードバックをお寄せいただき、ありがとうございます。Office サポートの担当者におつなぎいたします。

×