Desduplicación en los resultados de búsqueda de exhibición de documentos electrónicos

Este artículo describe el funcionamiento de la duplicación de los resultados de búsqueda de exhibición de documentos electrónicos y explica las limitaciones del algoritmo de deduplicación.

Nota:  Nos gustaría proporcionarle el contenido de ayuda actual lo más rápido posible en su idioma. Esta página se ha traducido mediante un sistema automático y es posible que contenga imprecisiones o errores gramaticales. Nuestro objetivo es que este contenido sea útil para usted. ¿Puede informarnos sobre si la información le ha sido útil al final de la página? Aquí tiene el artículo en inglés para que pueda consultarlo fácilmente.

Al utilizar herramientas de exhibición de documentos electrónicos Office 365 para exportar los resultados de una búsqueda de exhibición de documentos electrónicos, tiene la opción de anular duplicar los resultados que se exportan. ¿Qué significa esto? Al habilitar la duplicación (deduplicación no está deshabilitada de forma predeterminada), se exporta solo una copia de un mensaje de correo electrónico aunque también podrían haber encontrado varias instancias del mismo mensaje en los buzones que estaban buscando. Duplicación de la ayuda a ahorrar tiempo al reducir el número de elementos que se deben revisar y analizar después de exportarán los resultados de búsqueda. Pero es importante comprender cómo funciona la duplicación y tenga en cuenta que existen limitaciones al algoritmo que podrían provocar un único elemento marcarse como un duplicado durante el proceso de exportación.

Contenido

Cómo se identifican los mensajes duplicados

Limitaciones del algoritmo de deduplicación

Más información

Cómo se identifican los mensajes duplicados

herramientas de exhibición de documentos electrónicos Office 365 use una combinación de las siguientes propiedades de correo electrónico para determinar si un mensaje es un duplicado:

  • InternetMessageId    Esta propiedad especifica el identificador de mensaje de Internet de un mensaje de correo electrónico, que es un identificador único global que hace referencia a una versión específica de un mensaje específico. Este ID es generado por el programa de cliente de correo electrónico del remitente o el sistema de correo electrónico que envía el mensaje. Si alguien le envía un mensaje a más de un destinatario, el identificador de mensaje de Internet será el mismo para cada instancia del mensaje. Las siguientes revisiones al mensaje original recibirá un identificador de mensaje diferente.

  • ConversationTopic    Esta propiedad especifica al asunto de la secuencia de conversación de un mensaje. El valor de la propiedad ConversationTopic es la cadena que describe el tema general de la conversación. Una conservación consta de un mensaje inicial y todos los mensajes enviados en la respuesta al mensaje inicial. Mensajes de la misma conversación tienen el mismo valor de la propiedad ConversationTopic . El valor de esta propiedad suele ser la línea de asunto del mensaje inicial que generan a la conversación.

  • BodyTagInfo    Esta es una propiedad de almacenamiento interno Exchange. El valor de esta propiedad se calcula al seleccionar varios atributos en el cuerpo del mensaje. Esta propiedad se usa para identificar las diferencias en el cuerpo de los mensajes.

Durante el proceso de exportación de exhibición de documentos electrónicos, se comparan estas tres propiedades para cada mensaje que coincida con los criterios de búsqueda. Si estas propiedades son idénticas para mensajes de dos (o más), los mensajes se determinan que duplicados y el resultado es que se exportarán sólo una copia del mensaje si está habilitada la duplicación. El mensaje que se exporta se conoce como el elemento de"origen". Información acerca de los mensajes duplicados se incluye en los informes de Results.csv y Manifest.xml que se incluyen con los resultados de búsqueda exportado. En el archivo Results.csv , un mensaje duplicado se identifica por tener un valor en la columna duplicada al elemento. El valor de esta columna coincide con el valor de la columna de Identidad del elemento para el mensaje que se ha exportado.

Los gráficos siguientes muestran cómo duplicados mensajes se muestran en los informes de Results.csv y Manifest.xml se exportan con los resultados de búsqueda. Estos informes no incluyen las propiedades de correo electrónico descritas anteriormente, que se usan en el algoritmo de deduplicación. En su lugar, los informes incluyen la propiedad de Identidad del elemento que se asigna a los elementos de la tienda deExchange.

Informe de Results.csv (que se visualiza en Excel)

Ver información sobre elementos duplicados en el informe de Results.csv

Manifest.XML viendo el informe (en Excel)

Ver información sobre elementos duplicados en el informe Manifest.xml

Además, otras propiedades de los mensajes duplicados se incluyen en los informes de exportación. Esto incluye el buzón que se encuentra el mensaje, si el mensaje se envió a un grupo de distribución y si el mensaje fue sería Cc o CCO con otro usuario.

Volver al principio

Limitaciones del algoritmo de deduplicación

Existen algunas limitaciones conocidas del algoritmo de desduplicación que podrían provocar elementos únicos a obtener marcado como duplicados. Es importante comprender estas limitaciones para que pueda decidir si desea usar la característica de deduplicación opcional o no.

Hay una situación donde la característica de desduplicación podría identificar erróneamente un mensaje como un duplicado y exportarlo no (pero aún se citar como un duplicado en los informes de exportación). Estos son los mensajes que un usuario modifica pero no enviar. Por ejemplo, supongamos que un usuario selecciona un mensaje de Outlook, copia el contenido del mensaje y, a continuación, pega en un mensaje nuevo. A continuación, el usuario cambia una de las copias quitando o agregar datos adjuntos o cambiar la línea de asunto o el cuerpo propiamente dicho. Si estos dos mensajes coinciden con la consulta de una búsqueda de exhibición de documentos electrónicos, solo uno de los mensajes se exportarán si está habilitada la duplicación cuando se exportan los resultados de búsqueda. Aunque se cambió el mensaje original o copiada, ninguno de los mensajes revisados ha enviado y, por tanto, no se han actualizado los valores de las propiedades InternetMessageId, ConversationTopic y BodyTagInfo . Pero como se explica anteriormente, los mensajes se mostrarán en los informes de exportación

Tenga en cuenta que los mensajes únicos también se marquen como duplicados cuando está habilitada la característica de protección de página de copia de escritura, como en el caso de un buzón de correo que se está en espera de litigios o suspensión en contexto. La característica de copia en escritura copia el mensaje original (y guarda en la carpeta de versiones de la carpeta del usuario elementos recuperables) antes de guarda la revisión del elemento original. En este caso, la copia revisada y el mensaje original (en la carpeta elementos recuperables) podrían considerarse mensajes duplicados y, por tanto, solo uno de ellos se exportan.

Importante: Si las limitaciones del algoritmo de desduplicación pueden afectar a la calidad de los resultados de búsqueda, no debe habilitar la duplicación al exportar elementos. Si las situaciones descritas en esta sección no están probable que ser un factor en los resultados de búsqueda, y desea reducir el número de elementos más probables ser duplicados, debe considerar habilitar desduplicación.

Volver al principio

Más información

Volver al principio

Ampliar sus conocimientos de Office
Explorar los cursos
Obtener nuevas características primero
Únase a los participantes de Office Insider

¿Le ha sido útil esta información?

¡Gracias por sus comentarios!

Gracias por sus comentarios. Quizá le interese ponerse en contacto con uno de nuestros agentes de soporte de Office.

×