Дедупликация результатов поиска, выполненного с помощью функции обнаружения электронных данных

В этой статье поясняется, как работает дедупликация результатов поиска, выполненного с помощью функции обнаружения электронных данных, а также описаны ограничения алгоритма дедупликации.

При использовании средств обнаружения электронных данных в Office 365 для экспорта результатов поиска вы можете применить дедупликацию, чтобы исключить дублирование результатов. Что это означает? Когда дедупликация включена (по умолчанию это так), то всегда экспортируется только одна копия каждого сообщения, даже если в почтовых ящиках найдено несколько его экземпляров. Дедупликация помогает экономить время, так как уменьшается количество элементов, которые нужно просматривать и анализировать после экспорта результатов поиска. Однако важно понимать, как работает дедупликация, и учитывать существующие ограничения этого алгоритма, из-за которых уникальный элемент может быть помечен в процессе экспорта как дубликат.

Содержание

Принцип определения сообщений-дубликатов

Ограничения алгоритма дедупликации

Дополнительные сведения

Принцип определения сообщений-дубликатов

Средства обнаружения электронных данных в Office 365 используют для выявления дубликатов сочетание описанных ниже свойств сообщений.

  • InternetMessageId   . Это свойство содержит идентификатор сообщения Интернета, т. е. глобальный уникальный идентификатор, который относится к конкретной версии определенного сообщения. Этот идентификатор генерируется клиентской почтовой программой отправителя или почтовой системой узла, которая отправляет сообщение. Если пользователь отправляет сообщение нескольким получателям, идентификатор сообщения Интернета будет одинаковым для всех экземпляров. Последующие редакции исходного сообщения получат другой идентификатор.

  • ConversationTopic   . Это свойство содержит тему беседы, к которой относится сообщение. Значение свойства ConversationTopic — строка, описывающая общую тему беседы. Беседа состоит из исходного сообщения и всех сообщений, отправленных в ответ на него. Для сообщений из одной беседы свойство ConversationTopic содержит одно и то же значение. Обычно это значение совпадает со строкой "Тема" исходного сообщения беседы.

  • BodyTagInfo   . Это внутреннее свойство хранилища Exchange. Его значение вычисляется путем проверки различных атрибутов в тексте сообщения. Это свойство используется для выявления различий в тексте сообщений.

В процессе экспорта результатов электронного обнаружения данных эти три свойства проверяются для каждого сообщения, соответствующего условиям поиска. Если они идентичны для двух или нескольких сообщений, эти сообщения считаются дубликатами. Когда дедупликация включена, экспортируется только одна копия такого сообщения. Экспортируемое сообщение называется "исходным элементом". Сведения о сообщениях-дубликатах включаются в отчеты Results.csv и Manifest.xml, которые предоставляются вместе с экспортированными результатами поиска. В файле Results.csv сообщения-дубликаты можно определить по наличию значения в столбце Дублирование до элемента. Оно соответствует значению в столбце Удостоверение элемента экспортированного сообщения.

Ниже показано, как сообщения-дубликаты отображаются в отчетах Results.csv и Manifest.xml, которые экспортируются вместе с результатами поиска. В этих отчетах отсутствуют описанные выше свойства сообщений, используемые в алгоритме дедупликации. Вместо этого отчеты содержат свойство Удостоверение элемента, назначаемое элементам хранилищем Exchange. 

Отчет Results.csv, открытый в Excel

Просмотр сведений о повторяющихся элементах в отчете Results.csv

Отчет Manifest.xml, открытый в Excel

Просмотр сведений о повторяющихся элементах в отчете Manifest.xml

В отчеты об экспорте также включаются другие свойства сообщений-дубликатов. Например, там указывается почтовый ящик, в котором содержится сообщение-дубликат, а также сведения о том, отправлено ли сообщение группе рассылки и была ли отправлена его копия или скрытая копия другому пользователю.

К началу

Ограничения алгоритма дедупликации

Алгоритму дедупликации свойственны некоторые ограничения, из-за которых уникальный элемент может быть помечен как дубликат. Чтобы принять обоснованное решение о том, следует ли включить дедупликацию, важно понимать суть этих ограничений.

Существует одна ситуация, в которой функция дедупликации может ошибочно определить сообщение как дубликат и не экспортировать его (при этом сообщение будет помечено как дубликат в отчетах об экспорте). Это касается сообщений, которые пользователь редактирует, но не отправляет. Предположим, что пользователь выбирает сообщение в Outlook, копирует его содержимое и вставляет его в новое сообщение. Затем пользователь изменяет одну из копий, например удаляет или добавляет вложение, редактирует тему или сам текст. Если эти два сообщения соответствуют условиям поискового запроса для обнаружения электронных данных, то при включенной дедупликации только одно из них будет экспортировано. Несмотря на то что исходное или скопированное сообщение было изменено, пользователь не отправил ни одно из отредактированных сообщений, и поэтому значения свойств InternetMessageId, ConversationTopic и BodyTagInfo не были обновлены. Но, как упоминалось выше, оба сообщения будут указаны в отчетах об экспорте.

Обратите внимание: уникальные сообщения также могут быть помечены как дубликаты, если включена защита страниц на основе копирования при записи. Это происходит, когда для почтового ящика включено хранение для судебного разбирательства или удержание на месте. Функция копирования при записи создает копию исходного сообщения (и сохраняет ее в папке "Версии", вложенной в папку пользователя "Элементы с возможностью восстановления") перед сохранением его отредактированной версии. В этом случае отредактированная копия и исходное сообщение (в папке "Элементы с возможностью восстановления") могут рассматриваться как дубликаты, поэтому будет экспортирован только один из элементов.

Важно : Если ограничения, присущие алгоритму дедупликации, могут ухудшить качество результатов поиска, не следует включать эту функцию при экспорте элементов. Если ситуации, описанные в этом разделе, маловероятны и вам нужно уменьшить количество элементов, исключив сообщения, которые наверняка являются дубликатами, целесообразно применить дедупликацию.

К началу

Дополнительные сведения

К началу

Совершенствование навыков
Перейти к обучению
Первоочередный доступ к новым возможностям
Присоединиться к программе предварительной оценки Office

Были ли сведения полезными?

Спасибо за ваш отзыв!

Благодарим за отзыв! Возможно, будет полезно связать вас с одним из наших специалистов службы поддержки Office.

×