De-duplicazione nei risultati della ricerca di eDiscovery

Questo articolo descrive come funziona la deduplicazione dei risultati di ricerca di eDiscovery e spiega le limitazioni dell'algoritmo di deduplicazione.

Quando si usano gli strumenti di Office 365 eDiscovery per esportare i risultati di una ricerca di eDiscovery, è possibile scegliere di deduplicare i risultati esportati. Quali sono le implicazioni? Quando si abilita la deduplicazione, che non è abilitata per impostazione predefinita, viene esportata una sola copia di un messaggio di posta elettronica anche se vengono trovate più istanze dello stesso messaggio nelle cassette postali incluse nella ricerca. La deduplicazione consente di risparmiare tempo perché riduce il numero di elementi da rivedere e analizzare dopo l'esportazione dei risultati della ricerca. Tuttavia, è importante comprendere come funziona la deduplicazione e sapere che esistono alcune limitazioni all'algoritmo che potrebbero portare a contrassegnare un elemento univoco come duplicato durante il processo di esportazione.

Contenuto

Come vengono identificati i messaggi duplicati

Limitazioni dell'algoritmo di deduplicazione

Altre informazioni

Come vengono identificati i messaggi duplicati

Gli strumenti di Office 365 eDiscovery usano una combinazione delle proprietà seguenti di posta elettronica per determinare se un messaggio è un duplicato:

  • InternetMessageId    Questa proprietà specifica l'identificatore messaggio Internet di un messaggio di posta elettronica, che corrisponde a un identificatore univoco globale che fa riferimento a una specifica versione di un determinato messaggio. Questo ID viene generato dal programma client di posta elettronica o dal sistema di posta elettronica host del mittente che invia il messaggio. Se un utente invia un messaggio a più destinatari, l'ID messaggio Internet sarà lo stesso per ogni istanza del messaggio. Le revisioni successive del messaggio originale riceveranno un identificatore diverso.

  • ConversationTopic    Questa proprietà specifica l'oggetto del thread della conversazione di un messaggio. Il valore della proprietà ConversationTopic corrisponde alla stringa che descrive l'argomento generale della conversazione. Una conversazione è costituita da un messaggio iniziale e da tutti i messaggi inviati in risposta. I messaggi all'interno della stessa conversazione hanno lo stesso valore per la proprietà ConversationTopic. Il valore di questa proprietà è in genere la riga dell'oggetto del primo messaggio che ha dato inizio alla conversazione.

  • BodyTagInfo    Si tratta di una proprietà dell'archivio di Exchange interno. Il valore di questa proprietà viene calcolato selezionando diversi attributi nel corpo del messaggio. Questa proprietà viene usata per individuare le differenze nel corpo dei messaggi.

Durante il processo di esportazione di eDiscovery, queste tre proprietà vengono confrontate per ogni messaggio che soddisfa i criteri di ricerca. Se queste proprietà risultano identiche per due o più messaggi, questi vengono considerati duplicati e ne viene esportata una sola copia, se la deduplicazione è abilitata. Il messaggio esportato è noto come "elemento di origine". Le informazioni sui messaggi duplicati sono incluse nei report Results.csv e Manifest.xml, contenuti nei risultati della ricerca esportati. Nel file Results.csv un messaggio duplicato si riconosce dalla presenza di un valore nella colonna Duplicato dell'elemento. Il valore in questa colonna corrisponde al valore nella colonna Identità elemento del messaggio esportato.

Le immagini seguenti mostrano come vengono visualizzati i messaggi duplicati nei report Results.csv e Manifest.xml esportati con i risultati della ricerca. Questi report non includono le proprietà di posta elettronica descritte in precedenza, che vengono usate nell'algoritmo di deduplicazione. Includono invece la proprietà Identità elemento assegnata agli elementi dall'archivio di Exchange. 

Report Results.csv (visualizzato in Excel)

Visualizzazione delle informazioni sugli elementi duplicati nel report Results.csv

Report Manifest.xml (visualizzato in Excel)

Visualizzazione delle informazioni sugli elementi duplicati nel report Manifest.xml

Inoltre, nei report di esportazione sono incluse altre proprietà dei messaggi duplicati, ad esempio la cassetta postale in cui si trova il messaggio duplicato, se il messaggio è stato inviato a un gruppo di distribuzione e se il messaggio è stato inviato in Cc o Ccn a un altro utente.

Inizio pagina

Limitazioni dell'algoritmo di deduplicazione

Esistono alcune limitazioni note dell'algoritmo di deduplicazione che potrebbero portare a contrassegnare un elemento univoco come duplicato. È importante comprendere queste limitazioni per poter decidere se usare la caratteristica facoltativa di deduplicazione.

In un caso, la deduplicazione può identificare erroneamente un messaggio come duplicato e non esportarlo, ma citarlo comunque come duplicato nei report di esportazione. Si tratta dei messaggi modificati da un utente ma non inviati. Questa situazione si verifica, ad esempio, quando un utente seleziona un messaggio in Outlook, ne copia il contenuto e lo incolla in un nuovo messaggio. L'utente poi modifica una delle copie rimuovendo o aggiungendo un allegato o modificando la riga dell'oggetto o il corpo stesso. Se questi due messaggi corrispondono alla query di una ricerca di eDiscovery, ne verrà esportato solo uno se è abilitata la deduplicazione al momento dell'esportazione dei risultati della ricerca. Quindi, anche se il messaggio originale o il messaggio copiato è stato modificato, nessuno dei messaggi rivisti è stato inviato e di conseguenza i valori delle proprietà InternetMessageId, ConversationTopic e BodyTagInfo non sono stati aggiornati. Come spiegato in precedenza, tuttavia, entrambi i messaggi verranno elencati nei report di esportazione

I messaggi univoci possono essere contrassegnati come duplicati anche quando è abilitata la caratteristica di protezione copy-on-write delle pagine, come nel caso di una cassetta postale con un blocco per controversia legale o un blocco sul posto. La caratteristica copy-on-write copia il messaggio originale prima di salvare la revisione dell'elemento originale e lo salva nella cartella Elementi ripristinabili dell'utente. In questo caso, la copia rivista e il messaggio originale nella cartella Elementi ripristinabili possono essere considerati come messaggi duplicati, di conseguenza ne viene esportato solo uno.

Importante : Se le limitazioni dell'algoritmo di deduplicazione possono influire sulla qualità dei risultati della ricerca, è consigliabile non abilitare la deduplicazione quando si esportano gli elementi. Se è improbabile che le situazioni descritte in questa sezione si verifichino nei propri risultati della ricerca e si vuole ridurre il numero di elementi verosimilmente duplicati, prendere in considerazione l'abilitazione della deduplicazione.

Inizio pagina

Altre informazioni

Inizio pagina

Amplia le tue competenze
Esplora i corsi di formazione
Ottieni in anticipo le nuove caratteristiche
Partecipa al programma Office Insider

Queste informazioni sono risultate utili?

Grazie per i tuoi commenti e suggerimenti

Grazie per il tuo feedback! Potrebbe essere utile metterti in contatto con uno dei nostri operatori del supporto di Office.

×