Deduplizierung in eDiscovery-Suchergebnissen

In diesem Artikel wird beschrieben, wie die Deduplizierung in eDiscovery-Suchergebnissen funktioniert. Außerdem werden auch die Einschränkungen beim Deduplizierungsalgorithmus aufgezeigt.

Wenn Sie mit Office 365 eDiscovery-Tools die Ergebnisse einer eDiscovery-Suche exportieren möchten, haben Sie die Möglichkeit, Duplikate aus den zu exportierenden Ergebnissen zu entfernen. Was bedeutet das? Wenn Sie die Deduplizierung aktivieren (sie ist standardmäßig deaktiviert), wird nur eine Kopie einer E-Mail-Nachricht exportiert, selbst wenn mehrere Vorkommen derselben Nachricht in den durchsuchten Postfächern gefunden wurden. Die Deduplizierung hilft Ihnen, Zeit zu sparen, indem sie die Anzahl der Elemente, die Sie nach dem Exportieren der Suchergebnisse überprüfen und analysieren müssen, reduziert. Es ist jedoch wichtig zu verstehen, wie die Dedupluzierung funktioniert, und zu wissen, dass der Algorithmus Einschränkungen unterliegt, die dazu führen können, dass beim Exportvorgang ein eindeutiges Element als Duplikat gekennzeichnet wird.

Inhalt

Identifizieren von doppelten Nachrichten

Einschränkungen beim Deduplizierungsalgorithmus

Weitere Informationen

Identifizieren von doppelten Nachrichten

Die Office 365 eDiscovery-Tools verwenden eine Kombination aus den folgenden E-Mail-Eigenschaften, um zu bestimmen, ob eine Nachricht ein Duplikat ist:

  • InternetMessageId    Diese Eigenschaft gibt den Internetnachrichtenbezeichner einer E-Mail-Nachricht an, einen international eindeutigen Bezeichner, der auf eine bestimmte Version einer bestimmten Nachricht verweist. Diese ID wird von dem E-Mail-Clientprogramm des Absenders oder dem E-Mail-Hostsystem generiert, das die Nachricht sendet. Wenn jemand eine Nachricht an mehrere Empfänger sendet, ist der Internetnachrichtenbezeichner (InternetMessageID) für jedes Vorkommen der Nachricht gleich. Für nachfolgende Versionen der ursprünglichen Nachricht wird ein anderer Nachrichtenbezeichner vergeben.

  • ConversationTopic    Diese Eigenschaft gibt das Thema des Unterhaltungsthreads einer Nachricht an. Den Wert der ConversationTopic-Eigenschaft ist die Zeichenfolge, die das allgemeine Thema der Unterhaltung beschreibt. Eine Unterhaltung besteht aus einer ersten Nachricht und allen Nachrichten, die als Antwort auf die ursprüngliche Nachricht gesendet werden. Nachrichten derselben Unterhaltung weisen denselben Wert für die ConversationTopic-Eigenschaft auf. Der Wert dieser Eigenschaft ist in der Regel die Zeile "Betreff" aus der ursprünglichen Nachricht, welche die Unterhaltung eröffnet hat.

  • BodyTagInfo    Dies ist eine interne Speichereigenschaft von Exchange. Der Wert dieser Eigenschaft wird durch Überprüfen verschiedener Attribute im Textkörper der Nachricht berechnet. Diese Eigenschaft wird zum Identifizieren von Unterschieden im Textkörper von Nachrichten verwendet.

Während des eDiscovery-Exportvorgangs werden diese drei Eigenschaften bei jeder Nachricht, die den Suchkriterien entspricht, verglichen. Wenn diese Eigenschaften bei zwei (oder mehr) Nachrichten identisch sind, werden diese Nachrichten als Duplikate definiert. Im Ergebnis wird nur eine Kopie der Nachricht exportiert, wenn die Deduplizierung aktiviert ist. Die exportierte Nachricht wird als "Quellelement" bezeichnet. Informationen zu den doppelten Nachrichten finden Sie in den Berichten Results.csv und Manifest.xml, die in den exportierten Suchergebnissen enthalten sind. In der Datei Results.csv wird eine doppelte Nachricht durch einen Wert in der Spalte In Element duplizieren identifiziert. Der Wert in dieser Spalte entspricht dem Wert in der Spalte Elementidentität für die exportierte Nachricht.

Die folgenden Abbildungen zeigen, wie doppelte Nachrichten in den Berichten Results.csv und Manifest.xml, die mit den Suchergebnissen exportiert werden, angezeigt werden. Diese Berichte enthalten nicht die zuvor beschriebenen E-Mail-Eigenschaften, die vom Deduplizierungsalgorithmus verwendet werden. Die Berichte enthalten vielmehr die Eigenschaft Elementidentität, die den Elementen im Exchange-Speicher zugewiesen wird. 

Bericht "Results.csv" (angezeigt in Excel)

Anzeige von Informationen zu doppelten Elementen im Bericht "Results.csv"

Bericht "Manifest.xml" (angezeigt in Excel)

Anzeige von Informationen zu doppelten Elementen im Bericht "Manifest.xml"

Außerdem enthalten die Exportberichte weitere Eigenschaften von doppelten Nachrichten. Dazu gehört das Postfach, in dem sich die doppelte Nachricht befindet. Dabei spielt es keine Rolle, ob die Nachricht an eine Verteilergruppe oder per "Cc" oder "Bcc" an einen anderen Benutzer gesendet wurde.

Seitenanfang

Einschränkungen beim Deduplizierungsalgorithmus

Beim Deduplizierungsalgorithmus gibt es einige bekannte Einschränkungen, durch die eindeutige Elemente als Duplikate gekennzeichnet werden können. Es ist wichtig, diese Einschränkungen zu verstehen, damit Sie entscheiden können, ob die optionale Deduplizierungsfunktion verwendet werden soll.

Es gibt eine Situation, in der die Deduplizierungsfunktion u. U. eine Nachricht versehentlich als Duplikat identifiziert und sie nicht exportiert (sie aber immer noch in den Exportberichten als Duplikat aufführt). Dabei handelt es sich um Nachrichten, die ein Benutzer bearbeitet, aber nicht sendet. Angenommen, ein Benutzer wählt eine Nachricht in Outlook aus, kopiert den Inhalt der Nachricht und fügt diesen dann in eine neue Nachricht ein. Dann ändert der Benutzer eine der Kopien, indem er eine Anlage hinzufügt oder entfernt bzw. den Betreff oder den Nachrichtentext ändert. Wenn diese beiden Nachrichten der Abfrage einer eDiscovery-Suche entsprechen, wird beim Exportieren der Suchergebnisse und bei aktivierter Deduplizierungsfunktion nur eine der Nachrichten exportiert. Obwohl die ursprüngliche Nachricht oder die kopierte Nachricht geändert wurde, wurde keine der überarbeiteten Nachrichten gesendet. Daher wurden die Werte der Eigenschaften InternetMessageId, ConversationTopic und BodyTagInfo nicht aktualisiert. Dennoch werden, wie zuvor erläutert, beide Nachrichten in den Exportberichten aufgeführt.

Beachten Sie, dass eindeutige Nachrichten auch dann als Duplikate gekennzeichnet werden können, wenn die Funktion "Schutz durch Kopie beim Schreibvorgang" aktiviert ist, wie dies bei einem Postfach, für das "Beweissicherungsverfahren" oder "In-Situ-Speicher" eingestellt ist, der Fall ist. Die Funktion "Schutz durch Kopie beim Schreibvorgang" kopiert die ursprüngliche Nachricht (und speichert sie im Ordner "Versionen", der sich im Ordner "Wiederherstellbare Elemente" des Benutzers befindet), bevor die Überarbeitung am ursprünglichen Element gespeichert wird. In diesem Fall werden die überarbeitete Kopie und die ursprüngliche Nachricht (im Ordner "Wiederherstellbare Elemente") als doppelte Nachrichten betrachtet. Daher wird nur eine dieser Nachrichten exportiert.

Wichtig : Falls sich die Einschränkungen beim Deduplizierungsalgorithmus auf die Qualität der Suchergebnisse auswirken, sollten Sie beim Exportieren von Elementen die Deduplizierung deaktivieren. Wenn die in diesem Abschnitt beschriebenen Situationen bei Ihren Suchergebnissen keine Rolle spielen und Sie die Anzahl der Elemente reduzieren möchten, die höchstwahrscheinlich Duplikate sind, dann sollten Sie die Deduplizierung aktivieren.

Seitenanfang

Weitere Informationen

Seitenanfang

Ihre Fähigkeiten erweitern
Schulung erkunden
Neue Funktionen als Erster erhalten
An Office Insider teilnehmen

War diese Information hilfreich?

Vielen Dank für Ihr Feedback!

Vielen Dank für Ihr Feedback. Es klingt, als ob es hilfreich sein könnte, Sie mit einem unserer Office-Supportmitarbeiter zu verbinden.

×