管理爬网规则

重要:  本文是由机器翻译的,请参阅免责声明。请在 此处 中查找本文的英文版本以便参考。

可以添加爬网规则,以便在对内容进行爬网时包含或排除特定路径。包含路径时,可以选择提供备用帐户凭据来对其进行爬网。除了添加新的爬网规则外,还可以测试、编辑、删除现有的爬网规则或对它们重新排序。

爬网规则将按照所列顺序应用。

注意: 若要管理爬网规则,必须先打开“管理爬网规则”页。然后,在“搜索管理”页上的“正在爬网”下,单击“爬网规则”

您要做什么?

添加爬网规则

测试 URL 爬网规则

编辑爬网规则

删除爬网规则

重新排列爬网规则

添加爬网规则

  1. 在“管理爬网规则”页面上,单击“新建爬网规则”

  2. 在“添加爬网规则”页上“路径”部分中的“路径”框中,键入受该规则影响的路径。您可以在路径中使用标准通配符,如下面的示例所示:

    • http://server1/folder *包含了开头 http://server1/folder URL 的所有 Web 资源。

    • *://*.txt包含.txt 扩展名为每个文档。

  3. “爬网配置”部分中,选择下列选项之一:

    • “排除此路径中的所有项目”。如果要将指定路径中的所有项目都排除在爬网范围之外,请选择此选项。如果选择此选项,可通过选择以下选项进一步改进包含规则:

      • “包含复杂 URL (即包含问号(?)的 URL)”。如果要包含的 URL 含有使用问号 (?) 表示法的参数,请选择此选项。

    • “包含此路径中的所有项目”。如果要对此路径中的所有项目进行爬网,请选择此选项。如果选择此选项,便可通过选择以下各项的任意组合来进一步优化包含:

      • “使用该 URL 上的链接,而不对该 URL 本身进行爬网”。如果要对 URL 中包含的链接进行爬网而不对 URL 本身进行爬网,请选择此选项。

      • “对复杂 URL (包含问号(?)的 URL)进行爬网”。如果要对包含参数(参数使用问号 (?) 表示法)的 URL 进行爬网,请选择此选项。

      • “将 SharePoint 内容作为 HTTP 页面进行爬网。”。通常情况下,需要使用特殊的协议对 SharePoint 网站进行爬网。如果要将 SharePoint 网站改作 HTTP 页面进行爬网,请选择此选项。在使用 HTTP 协议对内容进行爬网时,将不存储项目权限。

  4. “指定验证”部分中,请执行下列操作之一:

    • 若要使用默认的内容访问帐户,请选择“使用默认内容访问帐户”

    • 如果要使用其他帐户,请选择“指定其他内容访问帐户”,然后执行下列操作:

      1. “帐户”框中,键入可以访问此爬网规则所定义的路径的帐户名。

      2. “密码”“确认密码”框中,键入此帐户的密码。

      3. 要禁止使用基本身份验证,请选中“不允许基本身份验证”复选框。

        服务器将尝试使用 Windows NTLM 验证。如果 NTLM 验证失败,服务器将尝试使用基本身份验证,除非选中了“不允许基本身份验证”复选框。

    • 要将客户端证书用于身份验证,请选择“指定客户端证书”,然后单击“证书”菜单上的证书。

    • 若要在身份验证中使用窗体凭据,请选择“指定窗体凭据”,接着在“窗体 URL”框中输入窗体 URL(接受凭据信息的页的位置),然后单击“输入凭据”按钮。

      1. 当在新窗口中打开远程服务器的登录提示时,请输入窗体凭据并登录。

      2. 系统将询问您是否已成功登录。如果是,则在远程网站上存储身份验证所需的凭据。

    • 若要使用 Cookie 验证,请选择“将 Cookie 用于爬网”,然后执行以下两项操作当中的任意一项:

      1. 单击“从 URL 获取 Cookie”,以便从网站或服务器提取 Cookie。

      2. 单击“指定 Cookie 进行爬网”,以便从本地文件系统或文件共享导入 Cookie。此外,您还可以选择在“错误页(以分号分隔)”框中指定错误页。

  5. 单击“确定”

返回页首

测试 URL 的爬网规则

可以对 URL 测试爬网规则,以便确定对该 URL 进行爬网时适用哪些规则,以及应用这些规则后将产生什么结果(包含内容或排除内容)。请注意,对 URL 测试爬网规则时,并不对该 URL 进行实际爬网。

  1. 在“管理爬网规则”页面上的“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框中,键入要测试的 URL。

  2. 单击“测试”

  3. 测试结果将在“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框的下方列出。

返回页首

编辑爬网规则

如果编辑爬网规则,在启动下次完全爬网之前,更改将不会生效。

  • 在“管理爬网规则”页面上的爬网规则列表中,在要编辑的爬网规则的菜单上单击“编辑”

    添加爬网规则部分中,您可以找到有关爬网规则的设置信息。

返回页首

删除爬网规则

如果删除爬网规则,在启动下次完全爬网之前,将不会反映删除。

  1. 在“管理爬网规则”页面上的爬网规则列表中,在要删除的爬网规则的菜单上单击“删除”

  2. 在消息框中单击“确定”,以确认要删除该爬网规则。

返回页首

对爬网规则重新排序

  • 在“管理爬网规则”页面上的爬网规则列表的“顺序”栏中,在指定规则要占用的位置的下拉列表中选择一个值。其他值将相应移位。

    爬网规则将按照所列顺序应用。因此,如果两个规则涵盖相同或重叠的内容,将应用列出的第一个规则。

返回页首

注意: 机器翻译免责声明:本文是由无人工介入的计算机系统翻译的。Microsoft 提供机器翻译是为了帮助非英语国家/地区用户方便阅读有关 Microsoft 产品、服务和技术的内容。由于机器翻译的原因,本文可能包含词汇、语法或文法方面的错误。

扩展你的技能
了解培训
抢先获得新功能
加入 Office 预览体验计划

此信息是否有帮助?

谢谢您的反馈!

谢谢你的反馈! 可能需要转接到 Office 支持专员。

×