规划内容进行爬网

重要:  本文是由机器翻译的,请参阅免责声明。请在 此处 中查找本文的英文版本以便参考。

注意: 此内容是初步初步的软件发布内容。它可能不完整,可能会更改。

本文内容

有关爬网内容

计划内容源

规划 Ssp 爬网的注意事项

规划服务器场爬网的注意事项

可用于企业搜索功能在Microsoft Office SharePoint Server 2007您组织中搜索内容之前,您必须决定要搜索和对内容进行爬网,以便可以在搜索中使用内容并将其属性的规划中包括哪些内容查询。

Microsoft Office SharePoint Server 2007使用内容源进行爬网内容在您的网站集或相关外部网站或业务数据应用程序,以便在搜索结果中显示的相关内容和数据。其他搜索功能筛选或修改后已爬网的内容。良好规划内容源可帮助您在您的初始部署,您可以配置和管理内容和数据、 内容和 Office Server 的外部数据的关键子集基于您组织中的内容构建搜索功能部署,或者内容,然后向您的组织外部的数据。您还计划爬网计划、 爬网规则、 属性管理和每个内容源的关联设置。

有关爬网内容

爬网是索引内容、 数据和元数据的过程,以便搜索查询可以提供相关的搜索结果。内容源是Office SharePoint Server 2007用于爬网内容以使其可用于搜索查询的起点。内容源由组成的一个或多个开始地址,这 Url,包含内容或您想要包括在您的组织中的搜索中的数据。内容是包括或排除内容索引基于搜索的共享服务提供商 (SSP) 管理员选定的规则。内容和数据源中的内容进行爬网之后,查询服务器处理基于搜索的托管的属性和搜索服务的功能的查询,并提供相关的搜索结果。默认情况下,每个 Web 应用程序使用 SSP 上的所有内容在单个内容源进行爬都网。

搜索 SSP 管理员可以创建其他内容源的内容的关键子集。他们可以选择将应用于 SSP 根据内容和每个开始地址的数据是关心的组织中的所有内容源和配置为每个内容源的设置的开始地址的爬网规则。

与早期版本的 Microsoft SharePoint Portal Server,管理员管理内容源的索引,它们的所有内容的基础集爬网的内容。使用Microsoft Office SharePoint Server 2007,这是不再需要。每个 SSP 的单个内容索引会自动创建基于所选的每个内容源的设置和内容索引将不再显示管理员。

返回页首

计划内容源

个的默认内容源上所有 Web 应用程序使用 SSP 爬网此内容开始地址 SSP 中的所有 Web 应用程序将自动添加到内容源,以便 SSP 中的所有内容都都可搜索的内容源在第一个完全爬网。

信息体系结构还应建议的每个网站集在每个 Web 应用程序创建的其他内容源。要管理和独立计划爬网,您可以创建爬网内容的整个 SSP 的子集的内容源。这是有用内容进行爬网高优先级或快速更改更频繁地无需所有内容进行爬网。

您可能希望计划包含的其他内容源的内容的示例:

  • 在您的组织内的文件共享的内容。

  • Exchange Server 的内容。

  • 在 Lotus Notes 内容服务器。

  • 网站目录中的网站。

  • 在 SharePoint 网站中找不到您的组织中的其他内容。

  • 指向 SSP 外部或向您的组织外部的内容。

  • 业务数据存储在业务线应用程序。

每个内容源可以包含一个或多个开始地址的指向这些类型的内容的任意组合的位置。您在内容源中的内容进行分组或创建其他内容源取决于很大程度上管理注意事项。管理员经常进行需要完全更新的特定内容源的更改。爬网规则、 爬网或访问帐户或托管的属性的更改需要完全更新。轻松管理,组织内容的方式是为管理员和其其他方便,同时更新该内容源计划管理任务。

文件共享和邮件服务器等服务器场外部服务器上的内容,不包含 SharePoint 网站的 Web 服务器或业务数据应用程序服务器应组织按可用性。如果同时包含内容服务器不可用,则您更容易成功爬网中的所有内容的内容源不需要以后运行完全更新。

以下注意事项,超出有效地爬网需要您的组织中的每个网站集内的所有内容,使用尽可能少内容源越好。使用"爬网和查询搜索功能计划"工作表来记录有关内容源进行的初始部署的决策。

计划外部内容源

外部内容指您的组织中的人员的两种类型的内容有用:

  • 使用另一个 SSP 要使用此 ssp。 爬网的 Web 应用程序中的内容

  • Internet 或不是创建或由您组织中的人员控制 extranet 内容。

通常情况下,如果足够的相关内容源中要包括在 Web 应用程序的内容,该 Web 应用程序应可能使用同一个 SSP 当在其他 Web 应用程序开始内容源中的地址。在某些情况下,您可能希望使用不同的共享的服务的 Web 应用程序从您的组织中包括的内容的子集。如果可能,请仔细规划信息体系结构、 Ssp 和网站结构避免这种情况。如果您必须在使用另一个 SSP 的 Web 应用程序以对内容,或确保相关爬网帐户具有读取权限的内容,并尝试组内容源与其他可用时间相似的内容开始地址这是概念相关。

常见方案涉及控制你的组织中与您的 SharePoint 网站上的内容相关的内容。您可以将此内容的开始地址添加到现有内容源或创建外部内容的新内容源。外部网站的可用性变化很大,因为它也有助于添加不同的外部内容的不同内容源。然后,您可以更新每个组有意义的每个网站可用性爬网计划的外部内容。

爬网外部内容源,因为爬网的已爬网的服务器上使用资源时,爬网程序影响规则是特别重要。请求对外部服务器太多内容或过于频繁地进行请求可能导致这些网站的管理员,如果您爬网使用资源太多或太多的带宽限制您将来访问。您也可以使用爬网设置为每个的内容源和爬网规则以限制对外部服务器的影响。

规划业务数据的内容源

业务数据内容源要求承载数据的应用程序是第一个注册在业务数据目录和映射到托管属性的搜索架构一致的属性。业务数据开始地址不能使用的其他内容,开始地址组合,以便必须单独管理业务数据内容源。

通常情况下,规划业务数据集成到您的网站集的用户将无法整体内容计划过程中涉及的人员不同。包含内容,以便他们可以建议如何将其数据集成到您的其他内容并有效地显示在您的网站集规划工作组中的业务应用程序管理员。

计划爬网设置

对于每个内容源,您可以选择如何广泛爬网该内容源中的开始地址。每个内容源的属性中可用的选项是:

  • 在每个开始地址的主机名下的所有内容爬网。

  • 爬网的 SharePoint 网站将每个开始地址。

为与其他内容源决策,最重要的因素规划内容源的爬网设置时要考虑是相关性的信息以及影响性能。为获得最佳结果:

  • 如果链接网站上可用的内容不可能相关,并且本身的网站上的内容是相关爬网仅对 SharePoint 网站。

  • 如果在开始地址的链接往往指向相关内容,爬网的所有内容。

计划爬网计划

每个内容源可以基于该内容源的爬网计划独立更新。应基于运行搜索服务的服务器和托管的已爬网的内容的服务器的可用性、 性能和带宽注意事项计划爬网计划。

为获得最佳结果,规划爬网计划基于以下事项:

  • 组启动基于类似的可用性与可接受的总体资源使用状况的服务器承载的内容的内容源中的地址。

  • 当服务器承载的内容可供但在服务器上的资源需求低时间安排每个内容源的增量爬网。

  • 爬网计划交错,以便在您的服务器场中服务器上的负载随时间。

  • 频率较低计划完全爬网。

  • 日程安排管理需要完全爬网不久完全爬网计划之前,需要进行的更改。

在初始部署基于的性能和容量的服务器场中的和服务器托管内容之后,您可以调整日程。

返回页首

规划 Ssp 爬网的注意事项

您已为您的初始部署规划的内容源后,可考虑 SSP 计划。设置中的共享服务管理页面爬网 ssp 影响 SSP 中的所有内容源的爬网在大多数组织,只有一个 SSP 用于爬网和查询的所有内容,因此这些设置应用于组织中的所有内容源。

在部署期间,您将创建 Ssp,然后为每个 ssp。 创建内容源规划期间,它实际可以帮助第一次计划内容源。少数需要其他 Ssp 的情况下,在规划内容源可帮助确定需要多个 Ssp。 规划内容源,也有助于您确定无法受益爬网规则或新的文件类型的内容。

影响已爬网的内容的 SSP 设置包括:

  • 设置默认内容访问帐户。

  • 配置使用的任何内容源的特定的开始地址的爬网规则。

  • 包括的文件类型。

规划默认内容访问帐户

默认内容访问帐户已爬网内容源时,默认情况下使用的帐户。安装后配置期间,SSP 管理员选择此帐户。默认访问帐户必须具有读取访问进行爬网的所有内容或内容不进行爬网并在搜索查询期间将不可用。对于内容源中的单个网站,您可以使用爬网规则使用一个不同的访问权限的帐户。最佳做法是选择具有广泛的访问权限的已爬网内容,大多数默认内容访问帐户,仅使用 access 的其他帐户时的安全注意事项需要单独的帐户。对于您计划每个内容源,确定的开始地址不能访问的默认内容访问帐户和计划添加的人员访问帐户开始地址。管理员可以在相关的开始地址的爬网规则配置其他访问权限的帐户。有关规划访问帐户注意事项的详细信息,请参阅以下有关爬网规则部分。

计划爬网规则

爬网规则用于限制爬网内容源以最小化的服务器资源和网络流量使用并提高搜索结果的相关性的内容。爬网规则同时应用于所有内容源。创建爬网规则,以排除特定网站或位置爬网,配置特定网站进行爬网,或者更改爬网的帐户不同于默认内容访问帐户。

每个爬网规则包括 URL 或一组由通配符,包括或排除规则和爬网的帐户的 Url。

您可以使用排除规则来避免爬网不相关的内容。通常情况下,大部分为特定网站地址内容是相关,,但不是特定的子网站的区域。通过选择获得焦点的开始地址和排除爬网规则的组合,SSP 管理员可以获得最高已爬网的内容最小化爬网性能的影响和内容数据库的大小。排除规则是人员的特别有用规划的外部内容,开始地址时对资源使用状况的影响不控制的组织中。

您可以使用的包含规则来为特定的 URL 或区域的 Url,使用选项来更改该内容的已爬网包含的内容。提供了包含规则的三个选项的任意组合:

  • 请按照在开始地址的 URL 而不是内容和链接。当包含链接的页面中包含不相关的信息时,此选项可用于链接相关内容的网站。

  • 爬网复杂的 Url。此选项进行爬网包含复杂的字符的 Url。根据网站,这些 Url 可能或不可能包含相关内容。因为复杂 Url 可能经常重定向到相关的网站,最好只允许此位置已知来自复杂 Url 的内容相关的网站上的选项。

  • 爬网内容在 SharePoint 网站中为 HTTP。

无论是否爬网规则包括或排除内容,管理员可以更改规则的爬网帐户的选项。除非另一个帐户指定爬网规则中使用的默认内容访问帐户。爬网规则中使用不同的爬网帐户的主要原因是默认内容访问帐户不具有访问所有开始地址。对于这些开始地址,您可以创建爬网规则,并选择一个具有访问权限的帐户。

初始部署好的做法是使用爬网规则焦点到已爬网内容的最相关的概念和信息体系结构中标识时向您的组织,最相关的业务流程根据。内容进行爬网消耗资源和带宽,因为它是内容的内容的更好地包括较小的知道比更大的可能并不相关相关量。初始部署之后,您可以查看查询和爬网日志和调整内容源并爬网规则以将更多相关以及包含更多的内容。

规划文件类型包含

仅爬网内容,如果在文件类型包含列表中包括相关文件扩展名。多个文件类型会被自动包括在初始安装过程。当您规划内容源初始部署中时,最好检查任何主要内容如果使用未包括的文件类型。如果是这样,添加这些内容类型。如果某些文件类型包含大部分不相关的内容,您可以决定要删除该扩展,将排除文件名称具有该扩展名爬网的文件类型包含。

当您添加的文件类型时,您还必须确保您拥有可用于爬网的文件类型 IFilter。Ifilter 多个文件类型可供第三方供应商,并且如果需要的软件开发人员可以为新的文件类型创建 Ifilter。

返回页首

规划服务器场爬网的注意事项

除了设置 SSP 级别配置的几个设置管理服务器场管理员影响如何内容源进行爬网。规划爬网时应考虑这些设置。

影响爬网的服务器场级设置包括:

  • 服务器场级搜索设置。

  • 爬网程序影响规则。

  • 服务器场服务。

  • 共享多个服务器场部署的服务。

规划服务器场级搜索设置

服务器场级搜索设置包括以下设置:

  • 联系人电子邮件地址

  • 代理服务器设置

  • 超时设置

  • SSL 设置

联系人电子邮件地址是有关爬网内容源产生的影响联系的人员的地址。此地址出现在日志中为包含开始地址的服务器管理员,以便这些管理员的爬网的性能和带宽影响是太高,或出现其他问题时可以联系某人。快速响应请求的人员或便于监视别名必需的专业和可用性,应为联系人的电子邮件地址。无论是否内容进行爬网内部存储到组织,快速响应时间非常重要。

代理服务器设置包括爬网内容时使用代理服务器。要使用的代理服务器取决于您的 SharePoint 部署的拓扑和您的组织中的其他服务器的体系结构。超时设置用于限制搜索服务器连接到其他服务时等待的时间。SSL 设置确定是否 SSL 证书必须才能爬网内容完全匹配。

规划爬网程序影响规则

使用爬网程序影响规则来管理已爬网的服务器上的负载。爬网程序影响规则限制频率请求文档从网站爬网,同时或多少文档一次您请求。

对于您组织中的内容,您可以协调与其他网站的管理员设置爬网程序影响规则基于的性能和容量的服务器。对于大多数外部网站,这种协调不能,以便最佳做法是太少爬网,而不太多爬网和风险丢失访问相关内容进行爬网。

在初始部署过程设置爬网程序影响规则以的影响时仍爬网尽可能其他服务器上足够多的内容经常进行爬网值得。

在操作期间,您可以调整爬网程序影响规则基于您的体验和爬网日志中的数据。

规划多个服务器场部署

较大的组织通常与多个服务器场基于安全或体系结构因素规划部署。例如,组织可能会产生内容使用一个服务器场和其他服务器场的发布 internet 上的内容。其他示例 incluede 场为每个主要子公司或机密或敏感项目必须保持不同于其他项目附加服务器场的地理位置分布式部署。

如果您有多个服务器场,则必须规划如何共享服务配置跨服务器场。在管理中心的应用程序管理页面的每个服务器场,在 Office SharePoint Server 共享服务部分中,您可以选择要授予或配置服务器场之间的共享的服务的选项。您可以配置每个场使用三个选项之一:

  • 不参与服务器场之间的共享服务   使用此选项的服务器场不参与服务器场间的共享服务,并依赖于 SSP 场的共享服务。这是使用单个服务器场的小型部署中小型企业的典型配置。

  • 提供给其他服务器场的共享的服务   向其他服务器场提供服务的服务器场旨在管理服务器场间共享的服务在大型组织,且通常比服务器场的较小的部门或组织更大的容量。

  • 使用共享服务的其他服务器场   使用共享的服务的服务器场是通常部门服务器场运行部门门户网站或非常业务应用程序。这些服务器场也可以具有自己的 Ssp,以便当中心 SSP 不可用,他们可以在本地服务器场使用可用的服务。

返回页首

注意: 机器翻译免责声明:本文是由无人工介入的计算机系统翻译的。Microsoft 提供机器翻译是为了帮助非英语国家/地区用户方便阅读有关 Microsoft 产品、服务和技术的内容。由于机器翻译的原因,本文可能包含词汇、语法或文法方面的错误。

扩展你的技能
了解培训
抢先获得新功能
加入 Office 预览体验计划

此信息是否有帮助?

谢谢您的反馈!

谢谢你的反馈! 可能需要转接到 Office 支持专员。

×