Планирование обхода контента

Важно :  Данная статья переведена с помощью машинного перевода, см. Отказ от ответственности. Используйте английский вариант этой статьи, который находится здесь, в качестве справочного материала.

Примечание :  В этой статье приведены предварительные сведения о предварительной версии программного обеспечения. В будущем они могут быть изменены или дополнены.

В этом разделе...

Сведения об обходе контента

Планирование источников контента

Планирование обхода для поставщиков общих служб

Планирование обхода для ферм серверов

Перед использованием функции поиска контента в корпоративной среде в Microsoft Office SharePoint Server 2007 следует решить, на какое именно содержимое должен распространяться поиск, а также спланировать обход, чтобы контент и его параметры могли использоваться в поисковых запросах.

В Microsoft Office SharePoint Server 2007 для обхода контента в семействах веб-сайтов, на связанных внешних сайтах и в приложениях бизнес-данных используются источники контента, чтобы в результатах поиска отображались запрошенные данные и содержимое. С помощью других функций поиска выполняется фильтрация или изменение контента после его обхода. Подробно спланировав источники контента, вы сможете расширить возможности поиска на первоначальном этапе развертывания. В результате вы сможете настраивать содержимое и управлять им в масштабах организации, основываясь на ключевых подмножествах контента и данных, а также контенте и данных, внешних по отношению к развернутому экземпляру Office Server либо к вашей организации. Для каждого источника контента вам также следует спланировать расписания и правила обхода, управление свойствами и параметры релевантности.

Сведения об обходе контента

Обход контента — это процесс индексирования контента, данных и метаданных, цель которого — обеспечить релевантность результатов поисковых запросов. Источник контента представляет собой отправную точку, используемую в Office SharePoint Server 2007 для обхода содержимого, чтобы сделать его доступным для поисковых запросов. Источники контента состоят из одного или нескольких начальных адресов — URL-адресов, указывающих на контент или данные, на которые должны распространяться поисковые запросы в организации. Контент включается в индекс контента или исключается из него на основе правил, выбранных администратором поставщика общих служб по вопросам поиска. После обхода контента и данных в источнике контента серверы запросов обрабатывают запросы на основе управляемых свойств поиска и возможностей службы поиска, а затем предоставляют релевантные результаты. По умолчанию весь контент во всех веб-приложениях, использующих поставщика общих служб, обходится в одном источнике.

Администраторы поставщика общих служб по вопросам поиска могут создавать дополнительные источники для ключевых подмножеств контента. Они могут выбирать правила обхода начальных адресов, действующие для всех источников контента в поставщике общих служб, на основе того, какой контент или данные, расположенные по каждому начальному адресу, релевантны для организации, а также настраивать параметры для каждого источника контента.

В предыдущих версиях Microsoft SharePoint Portal Server администраторы управляли индексами контента — базовыми коллекциями всего содержимого, обход которого выполняется в источниках контента. В Microsoft Office SharePoint Server 2007 это больше не требуется. На основе параметров, выбранных для каждого источника контента, для каждого поставщика общих служб автоматически создается один индекс контента, и такие индексы больше не отображаются для администраторов.

К началу страницы

Планирование источников контента

Источник контента по умолчанию для поставщика общих служб обходит контент во всех веб-приложениях, использующих этого поставщика. Начальные адреса всех веб-приложений в поставщике общих служб автоматически добавляются в источник контента, поэтому после первого полного обхода источника весь контент в поставщике общих служб становится доступен для поиска.

Ваша структура данных также должна позволять выявить дополнительные источники контента, которые нужно создать для каждого семейства веб-сайтов в каждом вашем веб-приложении. Для независимого планирования обходов и управления ими вы можете создать источники, обходящие подмножество контента в поставщике общих служб. Это полезно для более частого обхода важного или часто меняющегося контента без необходимости обходить весь массив содержимого.

Примеры контента, для которого может потребоваться спланировать дополнительные источники:

  • контент в общих папках организации;

  • контент Exchange Server;

  • контент серверов Lotus Notes;

  • сайты в каталоге веб-сайтов;

  • прочий контент организации, который не находится на сайтах SharePoint;

  • контент, внешний по отношению к вашему поставщику общих служб или вашей организации;

  • бизнес-данные, хранящиеся в бизнес-приложениях.

В каждом источнике контента может быть один или несколько начальных адресов, указывающие на расположения с любыми сочетаниями этих типов контента. Выбор метода (группировка контента в одном источнике или создание дополнительных источников контента) по большей части зависит от целесообразности этих действий с точки зрения администрирования. Администраторы часто вносят изменения, требующие полного обновления отдельных источников контента. Так, полное обновление требуется при изменениях в правилах обхода, учетных записях обхода или доступа либо в управляемых свойствах. Для облегчения администрирования следует упорядочить источники контента так, чтобы обновление этого контента было удобно для администраторов и не препятствовало другим запланированным задачам администрирования.

Контент в общих папках и на серверах, расположенных за пределами вашей фермы серверов (например, на почтовых серверах, веб-серверах, не содержащих сайтов SharePoint, или на серверах приложений бизнес-данных), следует упорядочить по доступности. Если серверы с контентом одновременно доступны, вероятность успешного обхода всего контента в источнике растет, а потребность в последующих полных обновлениях снижается.

Помимо этого, для эффективного обхода всего нужного контента в каждом семействе веб-сайтов организации следует использовать как можно меньше источников. Создайте документ для планирования обхода и поисковых запросов и записывайте в него свои решения относительно источников контента для первоначального этапа развертывания.

Планирование внешних источников контента

Внешний контент, который может быть полезен сотрудникам вашей организации, делится на два типа:

  • контент из веб-приложений, расположенных в другом поставщике общих служб, обход которого вам требуется выполнить с использованием данного поставщика;

  • контент из интра- или экстрасети, не созданный или не контролируемый сотрудниками вашей организации.

Как правило, если контент из какого-либо веб-приложения достаточно релевантен для включения в источник, это веб-приложение использует того же поставщика общих служб, что и другие веб-приложения, расположенные по начальным адресам из источника контента. В некоторых случаях вам может потребоваться включить в свою организацию подмножество контента из веб-приложения, использующего другие общие службы. По возможности лучше избегать таких ситуаций и тщательно планировать структуру данных и сайта, а также поставщиков общих служб. Если вам следует выполнить обход контента в веб-приложении, использующем другого поставщика общих служб, убедитесь, что релевантной учетной записи для обхода назначены разрешения на чтение контента, и попытайтесь сгруппировать начальные адреса в источнике контента с другим доступным или близким по содержанию контентом.

Часто требуется выполнить обход контента, не контролируемого вашей организацией и связанного с контентом, расположенным на ваших сайтах SharePoint. Вы можете добавить в существующий источник начальные адреса, указывающие на такой контент, или создать новый источник для внешнего контента. Поскольку некоторые внешние сайты могут оказаться недоступны, лучше создавать отдельные источники для разных видов внешнего контента. После этого вы можете обновить наборы внешнего контента в расписании обхода, основываясь на доступности каждого сайта.

При обходе внешних источников контента особенно важны правила воздействия программы-обходчика, поскольку при обходе используются ресурсы серверов, обход которых выполняется. Запрос слишком больших объемов контента на внешних серверах и слишком частые запросы могут вынудить администраторов соответствующих сайтов ограничить ваш доступ, если ваши обходы будут использовать слишком много ресурсов или занимать полосу пропускания. Чтобы ограничить воздействие на внешние серверы, вы также можете настроить параметры обхода для каждого источника контента и использовать правила обхода для поставщика общих служб.

Планирование источников контента: бизнес-данные

Для использования источников бизнес-данных требуется сначала зарегистрировать приложения с информацией в каталоге бизнес-данных, а также сопоставить их параметры с управляемыми параметрами, соответствующими вашей схеме поиска. Начальные адреса, указывающие на бизнес-данные, нельзя использовать совместно с начальными адресами другого контента, поэтому источниками бизнес-данных следует управлять отдельно.

Часто планированием интеграции бизнес-данных в семейство веб-сайтов занимаются сотрудники, не участвующие в общем планировании контента. В группы планирования контента следует включить администраторов бизнес-приложений, чтобы они могли давать советы относительно интеграции своих данных в остальной ваш контент, а также помогли эффективно задействовать их в ваших семействах веб-сайтов.

Планирование параметров обхода

Для каждого источника контента также можно выбрать, насколько широко следует обходить его начальные адреса. Для каждого источника контента можно:

  • обходить по каждому начальному адресу весь контент, лежащий на уровнях ниже имени узла;

  • обходить по каждому начальному адресу только сайт SharePoint.

Важнейшие факторы, которые следует учитывать при планировании параметров обхода для источников контента, — релевантность информации и влияние обхода на быстродействие. Для достижения лучших результатов придерживайтесь следующих рекомендаций:

  • если контент, доступный на связанных сайтах, скорее всего не будет релевантен, а контент на самом сайте SharePoint релевантен, обходите только сайт SharePoint;

  • если ссылки по начальному адресу указывают на релевантный контент, обходите весь контент.

Планирование расписаний обхода

Каждый источник контента можно независимым образом обновлять на основе расписания обхода, действующего для него. Расписания обхода следует планировать исходя из соображений доступности, быстродействия и пропускной способности серверов, на которых запущена служба поиска, и серверов, на которых размещен обходимый контент.

Для лучших результатов при планировании расписания обхода придерживайтесь следующих советов:

  • объединяйте начальные адреса из источников контента в группы, если их доступность одинакова и на серверах с контентом могут использоваться все ресурсы;

  • назначайте добавочные обходы контента для каждого источника на время, когда серверы с контентом доступны, но их ресурсы используются мало;

  • делите расписания обхода на этапы, чтобы равномерно распределять нагрузку на серверы в своей ферме;

  • назначайте полные обходы как можно реже;

  • назначайте изменения в администрировании, требующие полного обхода, непосредственно перед запланированными полными обходами.

Вы можете настроить расписания после первоначального развертывания, основываясь на производительности и емкости серверов фермы и серверов с контентом.

К началу страницы

Планирование обхода: поставщики общих служб

Определив источники контента, которые следует спланировать для первоначального развертывания, следует обдумать поставщика общих служб. Параметры обхода на странице администрирования общих служб влияют на обход всех источников контента в поставщике общих служб. В большинстве организаций для обхода всего контента и запросов используется только один поставщик, поэтому эти параметры действуют для всех источников контента в организации.

Во время развертывания вы создадите поставщиков общих служб, а затем — источники контента для каждого из них. По этой причине на этапе планирования в первую очередь лучше обдумать источники. Иногда, когда вам будут требоваться дополнительные поставщики общих служб, при планировании источников контента вы сможете понять, нужно ли вам несколько поставщиков. При планировании источников контента вы также сможете понять, на какой контент положительно повлияют правила обхода или новые типы файлов.

На обходимый контент влияют следующие параметры поставщика общих служб:

  • параметры учетной записи по умолчанию для доступа к контенту;

  • параметры правил обхода для определенных начальных адресов, используемых всеми вашими источниками контента;

  • используемые типы файлов.

Планирование учетной записи по умолчанию для доступа к контенту

Учетная запись по умолчанию для доступа к контенту — это учетная запись, используемая по умолчанию при обходе источников контента. Она выбирается администратором поставщика общих служб во время настройки, выполняемой после установки. У учетной записи по умолчанию для доступа к контенту должно быть разрешение на чтение всего контента, обход которого выполняется. В противном случае обход не будет произведен, и контент окажется недоступен для поисковых запросов. Воспользоваться другой учетной записью для доступа для отдельных сайтов в источнике контента можно с помощью правил обхода. Лучше всего выбрать учетную запись, у которой будет самый широкий доступ к большей части обходимого контента, и использовать другие учетные записи лишь в случае, если это потребуется из соображений безопасности. Для каждого источника контента, обход которого вы планируете, следует определить начальные адреса, недоступные для учетной записи по умолчанию, и создать для этих начальных адресов учетные записи для доступа. Для релевантных начальных адресов администраторы могут настроить дополнительные учетные записи для доступа в правилах обхода. Дополнительные сведения о планировании учетных записей см. в следующем разделе.

Планирование правил обхода

Правила обхода используются для ограничения контента, который обходится в источниках. Они минимизируют использование серверных ресурсов и сетевого трафика, а также повышают релевантность результатов поиска. Правила обхода действуют для всех источников контента одновременно. Они создаются для исключения из обхода определенных сайтов или расположений, настройки обхода отдельных сайтов, а также для выбора учетной записи для обхода контента, отличной от учетной записи для доступа к контенту по умолчанию.

Каждое правило обхода содержит один или несколько URL-адресов c подстановочными знаками, правило включения или исключения, а также учетную запись для обхода контента.

Чтобы избежать обхода нерелевантного контента, вы можете создать правило исключения. Обычно большая часть контента, соответствующего адресу какого-либо сайта, является релевантной, но это может быть не так для отдельных дочерних сайтов или диапазонов сайтов. Выбрав продуманное сочетание начальных адресов и правил исключения, администраторы поставщиков общих служб могут максимально увеличить количество обходимого контента и минимизировать воздействия на скорость обхода и размер баз данных с контентом. Правила исключения особенно полезны при планировании начальных адресов для внешнего контента, когда воздействия на использование ресурсов не контролируются людьми из вашей организации.

Вы можете использовать правила включения, чтобы включить в обход контент, на который указывает определенный URL-адрес или диапазон URL-адресов, а также настроить параметры обхода этого контента. Для правил включения можно использовать любые сочетания описанных ниже вариантов.

  • Переходить по ссылкам на URL-адрес без обхода контента самого URL-адреса (для начальных адресов). Этот вариант полезен для сайтов с ссылками на релевантный контент, когда на страницах с этими ссылками содержатся нерелевантные сведения.

  • Выполнять обход сложных URL-адресов. Этот вариант предназначен для обхода URL-адресов, содержащих сложные символы. В зависимости от сайта эти URL-адреса могут как указывать на релевантный контент, так и нет. Поскольку сложные URL-адреса часто указывают на нерелевантные сайты, лучше использовать этот вариант только в случае, если контент, доступный по сложным URL-адресам, точно является релевантным.

  • Выполнять обход контента SharePoint как страниц HTTP.

Независимо от того, включает правило обхода контент или исключает его, администраторы могут изменить для этого правила учетную запись для обхода. Если в правиле обхода не указать другую учетную запись, то будет использоваться учетная запись по умолчанию для доступа к контенту. Главная причина, по которой для правила обхода может потребоваться использовать другую учетную запись — отсутствие доступа ко всем начальным адресам у учетной записи по умолчанию для доступа к контенту. Для этих начальных адресов можно создать правило обхода и выбрать учетную запись, доступ для которой разрешен.

При первоначальном развертывании можно использовать правила обхода, чтобы сосредоточить внимание на самом релевантном контенте в соответствии с концепциями и бизнес-процессами, наиболее актуальными в вашей организации в соответствии со структурой данных. Поскольку для обхода контента требуются ресурсы и пропускная способность, лучше выполнить обход меньшего количества релевантного контента, чем больших объемов данных, которые могут быть нерелевантны. После первоначального развертывания вы можете посмотреть журналы запросов и обхода, а затем настроить источники контента и правила обхода, чтобы добиться более релевантных результатов и охватить больше контента.

Планирование допустимых типов файлов

Обход контента выполняется только в том случае, если релевантные расширения включены в список допустимых типов файлов. Некоторые типы файлов включаются в список автоматически во время первоначальной установки. При планировании источников контента в первоначальном развертывании следует проверить, используются ли в важном контенте типы файлов, отсутствующие в списке. Если да, то эти типы файлов нужно добавить в список. Если в файлах определенных типов хранится преимущественно нерелевантный контент, вы можете удалить эти расширения из списка, таким образом исключив соответствующие файлы из будущих обходов.

При добавлении типов файлов следует также убедиться, что у вас есть интерфейс IFilter, который можно использовать для их обхода. Интерфейсы IFilter для некоторых типов файлов доступны у сторонних поставщиков. При необходимости разработчики программного обеспечения могут создавать интерфейсы IFilter для новых типов файлов.

К началу страницы

Планирование обхода для ферм серверов

Помимо параметров, настраиваемых на уровне поставщика общих служб, на обход источников контента также влияют некоторые настройки, управляемые администраторами фермы серверов. При планировании обхода следует продумать следующие параметры:

Параметры уровня фермы:

  • параметры поиска;

  • правила воздействия программы-обходчика;

  • службы фермы;

  • общие службы для развертываний с несколькими фермами серверов.

Планирование параметров поиска уровня фермы

К параметрам поиска уровня фермы относятся:

  • контактный адрес электронной почты;

  • параметры прокси-сервера;

  • параметры времени ожидания;

  • параметры SSL.

Контактный адрес электронной почты — это адрес пользователя, с которым можно связаться по вопросам воздействий обхода источников контента. Этот адрес доступен администраторам серверов в журналах с начальными адресами, чтобы они могли связаться с сотрудником, если обход будет слишком влиять на быстродействие и пропускную способность, а также по другим вопросам. В качестве контактного адреса должен использоваться основной или тщательно просматриваемый альтернативный адрес квалифицированного сотрудника, способного быстро отвечать на сообщения. Независимо от того, хранится обходимый контент в организации или за ее пределами, важно, чтобы ответы приходили быстро.

В параметрах прокси-сервера указывается прокси-сервер, используемый при обходе контента. Используемый прокси-сервер зависит от топологии развертывания SharePoint и архитектуры остальных серверов организации. Параметры времени ожидания используются для ограничения времени ожидания поискового сервера при подключении к другим службам. Параметры SSL определяют, требуется ли для обхода контента точное совпадение SSL-сертификата.

Планирование правил воздействия программы-обходчика

Правила воздействия программы-обходчика используются для управления нагрузкой на обходимые серверы. С их помощью ограничивается частота запросов документов на сайте во время обхода или количество документов, запрашиваемых за единицу времени.

Вы можете согласовать правила воздействия программы обходчика с администраторами других сайтов своей организации, основываясь на производительности и емкости серверов. Для большинства внешних сайтов такое согласование невозможно, поэтому лучше обходить меньше контента, чем рисковать потерей доступа к релевантным данным.

При первоначальном развертывании следует настроить правила воздействия так, чтобы воздействие на другие серверы было минимальным, но при этом обходилось достаточное количество контента, и обходы выполнялись достаточно часто.

Вы можете настроить правила воздействия программы-обходчика на основе предыдущих результатов и данных из журналов обхода контента.

Планирование обхода для развертываний с несколькими фермами серверов

Основываясь на соображениях безопасности или исходя из своей архитектуры, крупные организации часто используют развертывания с несколькими фермами серверов. Например, одна ферма серверов может использоваться для создания контента, а другая — для его публикации в Интернете. Другие примеры: географически распределенные развертывания с фермами для каждого крупного дочернего подразделения или дополнительная ферма для конфиденциального проекта, который следует изолировать от других проектов.

Если в вашей организации используется больше одной фермы, вам придется спланировать для них параметры общих служб. Для каждой фермы в Центре администрирования следует перейти на страницу "Управление приложениями", а затем в разделе "Общие службы SharePoint Server" выбрать один из трех вариантов, чтобы предоставить общие службы другим фермам или настроить их использование фермами.

  • Не участвовать в общих службах для ферм   : фермы, для которых выбран этот вариант, не участвуют в системе межферменных общих служб; для них используются общие службы поставщика общих служб из той же фермы. Это обычное явление для малых и средних организаций, которые используют малое развертывание с одной фермой серверов.

  • Предоставлять общие службы другим фермам   : в крупных организациях фермы, предоставляющие службы другим фермам, используются для управления системой межферменных общих служб. Такие фермы обычно отличаются большей емкостью, чем фермы, используемые меньшими подразделениями или организациями.

  • Использовать общие службы других ферм   : фермы, использующие общие службы других ферм, обычно предназначены для подразделений организации; в них размещены сайты порталов подразделений или небольшие бизнес-приложения. В этих фермах также могут быть свои поставщики общих служб, чтобы в случае недоступности центрального поставщика общих служб могли использоваться службы, доступные на локальной ферме.

К началу страницы

Примечание : Отказ от ответственности относительно машинного перевода. Данная статья была переведена с помощью компьютерной системы без участия человека. Microsoft предлагает эти машинные переводы, чтобы помочь пользователям, которые не знают английского языка, ознакомиться с материалами о продуктах, услугах и технологиях Microsoft. Поскольку статья была переведена с использованием машинного перевода, она может содержать лексические,синтаксические и грамматические ошибки.

Совершенствование навыков
Перейти к обучению
Первоочередный доступ к новым возможностям
Присоединиться к программе предварительной оценки Office

Были ли сведения полезными?

Спасибо за ваш отзыв!

Благодарим за отзыв! Возможно, будет полезно связать вас с одним из наших специалистов службы поддержки Office.

×