Crear un diccionario de palabra clave

Importante:  Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.

Prevención de pérdida de datos (DLP) en Office 365 puede identificar, supervisar y proteger su información confidencial. Identificar la información confidencial a veces requiere buscando palabras clave, especialmente cuando la identificación de contenido genérico (por ejemplo, comunicaciones relacionadas con la salud) o idioma inapropiada o explícita. Aunque puede crear listas de palabras clave en los tipos de información confidencial, listas de palabras clave tienen un tamaño y requieren la modificación de XML para crear o editar. Diccionarios de palabra clave proporcionan administración más simple de palabras clave y en una escala mucho mayor, hasta 100000 términos por diccionario.

Pasos básicos para crear un diccionario de palabra clave

Las palabras clave para el diccionario de podrían provenir de una gran variedad de orígenes, normalmente desde un archivo (por ejemplo, una lista de archivo .csv o .txt), desde una lista que se especifica directamente en el cmdlet, o desde un diccionario existente. Cuando se crea un diccionario de palabras clave, siga los mismos pasos principales:

  1. Conectarse a la seguridad y cumplimiento centro PowerShell - vea este tema.

  2. Definir o cargar las palabras clave de su origen previsto -el cmdlet para crear un diccionario de palabra clave acepta una lista de valores separados por comas de palabras clave, por lo que este paso varía ligeramente dependiendo de dónde proceden sus palabras clave.

  3. Codificar las palabras clave : una vez cargado, que se convierten a una matriz de bytes antes de que se importan.

  4. Crear el diccionario : elija un nombre y una descripción y crear el diccionario.

Crear un diccionario de palabras clave de una lista de valores separados por comas

También puede definir la lista de palabras clave en línea en el cmdlet. Para ilustrar esto, este ejemplo crea un diccionario de palabras clave de términos médicos. En primer lugar, debe Conectar con seguridad y cumplimiento centro PowerShell.. A continuación, deberá definir la lista de palabras clave, ejecute este comando:

$keywords = "Aarskog's syndrome, Abandonment, Abasia, Abderhalden-Kaufmann-Lignac, Abdominalgia, Abduction contracture, Abetalipo proteinemia, Abiotrophy, Ablatio, ablation, Ablepharia, Abocclusion, Abolition, Aborter, Abortion, Abortus, Aboulomania, Abrami's disease, Abramo"

Antes de crear el diccionario, debe codificar las palabras clave como una matriz de bytes al ejecutar este comando:

$encodedKeywords = [system.Text.Encoding]::UTF8.GetBytes($keywords)

Ahora puede crear el diccionario de palabras clave, ejecute este comando:

New-DlpKeywordDictionary -Name "Diseases" -Description "Names of diseases and injuries from ICD-10-CM lexicon" -FileData $encodedKeywords 

El diccionario ahora está creado y está listo para su uso en nuestra directivas o tipos de información confidencial personalizada. Para ver el contenido, ejecute este comando:

Get-DlpKeywordDictionary -Name "Diseases"

El resultado del comando tiene este aspecto:

RunspaceId        : d9a79cc1-66d7-4735-978f-af212b80b2bc
Identity          : 84d97c1a-2d7a-4589-9092-940ac037cb15
Name              : Diseases
Description       : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture,
                    abetalipoproteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus,
                    aboulomania, abrami's disease
IsValid           : True
ObjectState       : Unchanged

Crear un diccionario de palabras clave desde un archivo

A menudo, cuando necesita crear un diccionario de gran tamaño, es usar palabras clave de un archivo o una lista exportada desde otro origen. En este caso, debe crear un diccionario de palabra clave que contiene una lista de lenguaje inapropiado a la pantalla de correo electrónico externo. Debe primero Conectar con la seguridad y cumplimiento centro PowerShell..

Ahora va a importar el archivo, mediante el cmdlet Get-Content (si usa Get-Content porque Import-CSV trata la primera fila como encabezados de columna)

$csv = get-Content "C:\my path\InappropriateTerms.csv"

Ahora podrá unirse a las palabras clave por comas y convertirla en una matriz de bytes al crear el diccionario de palabras clave, ejecute estos comandos:

$keywords = $csv -Join ","
$encodedKeywords = [system.Text.Encoding]::UTF8.GetBytes($keywords)
New-DlpKeywordDictionary -Name "Inappropriate Language" -Description "Unprofessional and inappropriate terminology" -FileData $encodedKeywords

Modificar un diccionario de palabra clave existente

Posible que necesite modificar palabras clave en uno de los diccionarios de palabra clave o modificar uno de los diccionarios integrados. En este ejemplo, se modificará algunos de los términos de PowerShell, guardar los términos localmente donde puede modificarlos en un editor y, a continuación, actualice los términos anteriores en su lugar. En primer lugar, recuperar el objeto de diccionario:

$dict = Get-DlpKeywordDictionary -Name "Diseases"

Impresión $dict mostrará las diversas variables. Las palabras clave a sí mismos se almacenan en un objeto en el servidor, pero $dict.KeywordDictionary contiene una representación de cadena de ellos, deberá usar para modificar el diccionario. Antes de modificar el diccionario, debe volver a activar la cadena de términos en una matriz con el método .split(‘,’) . A continuación, deberá limpiar los espacios entre las palabras clave con el método .trim() , salir de las palabras clave para que funcione con no deseados.

$terms = $dict.KeywordDictionary.split(',').trim()

Ahora va a quitar algunos de los términos del diccionario. Porque el diccionario de ejemplo tiene solo unas pocas palabras clave, podría omitir fácilmente a exportar el diccionario y edición en el Bloc de notas, pero los diccionarios generalmente contienen una gran cantidad de texto, así que primero aprenderá esta forma editarlos fácilmente en PowerShell.

En el último paso, se guardan las palabras clave en una matriz. Hay varias formas de quitar elementos de una matriz, pero como un enfoque sencillo, deberá crear una matriz de los términos que desea quitar del diccionario y copie sólo los términos del diccionario que no están en la lista de términos para quitar.

Ejecute el comando $terms para mostrar la lista actual de términos. El resultado del comando tiene el siguiente aspecto:

aarskog's syndrome
abandonment
abasia
abderhalden-kaufmann-lignac
abdominalgia
abduction contracture
abetalipoproteinemia
abiotrophy
ablatio
ablation
ablepharia
abocclusion
abolition
aborter
abortion
abortus
aboulomania
abrami's disease

Ejecute este comando para especificar las condiciones que desee quitar:

$termsToRemove = @('abandonment', 'ablatio')

Ejecute este comando para quitar los términos de la lista:

$updatedTerms = $terms | Where-Object{ $_ -notin $termsToRemove }

Ejecute el comando $updatedTerms para mostrar la lista actualizada de términos. El resultado del comando tiene el siguiente aspecto (se han quitado las condiciones especificadas):

aarskog's syndrome
abasia
abderhalden-kaufmann-lignac
abdominalgia
abduction contracture
abetalipo proteinemia
abiotrophy
ablation
ablepharia
abocclusion
abolition
aborter
abortion
abortus
aboulomania
abrami's disease

Ahora guardar localmente el diccionario y agregue más unos términos. Puede agregar los términos aquí en PowerShell, pero todavía tendrá que exportar el archivo localmente para asegurarse de que ha guardado con codificación Unicode y contiene la lista de materiales.

Guardar el diccionario localmente, ejecute lo siguiente:

Set-Content $updatedTerms -Path "C:\myPath\terms.txt"

Ahora simplemente abrir el archivo, agregar los términos adicionales y guardar con codificación (UTF-16) Unicode. Ahora podrá cargar los términos actualizados y actualizar el diccionario en su lugar.

PS> Set-DlpKeywordDictionary -Identity "Diseases" -FileData (Get-Content -Path "C:myPath\terms.txt" -Encoding Byte -ReadCount 0)

Ahora se ha actualizado el diccionario en su lugar. Tenga en cuenta que el campo Identity toma el nombre del diccionario. Si desea cambiar el nombre del diccionario mediante el cmdlet set- , simplemente necesarias para agregar el parámetro -Name a lo anteriormente con el nuevo nombre de diccionario.

Usar diccionarios de palabra clave en los tipos de información confidencial personalizado y directivas DLP

Diccionarios de palabra clave pueden usarse como parte de los requisitos de coincidencia para un tipo de información confidencial personalizado o como información confidencial, escriba sí mismos. Ambos requieren la creación de un tipo de información confidencial personalizada. Siga las instrucciones en el artículo vinculado para crear un tipo de información confidencial. Una vez que el archivo XML, tendrá el identificador GUID para el diccionario usarlo.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
	<Pattern confidenceLevel="75">
		<IdMatch idRef=". . ."/>
	</Pattern>
</Entity>

Para obtener la identidad del diccionario, ejecute este comando y copie el valor de propiedad Identity :

Get-DlpKeywordDictionary -Name "Diseases"

El resultado del comando tiene este aspecto:

RunspaceId        : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity          : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name              : Diseases
Description       : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo
                    proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania,
                    abrami's disease, abramo
IsValid           : True
ObjectState       : Unchanged

Pegue la identidad XML del tipo de información confidencial personalizado y cárguelo. Ahora el diccionario aparecerá en la lista de tipos de información confidencial y puede usar derecho en la directiva que especifica el número de palabras clave deben coincidir con.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Nota: Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.

Ampliar sus conocimientos
Explorar los cursos
Obtener nuevas características primero
Únase a los participantes de Office Insider

¿Le ha sido útil esta información?

¡Gracias por sus comentarios!

Gracias por sus comentarios. Quizá le interese ponerse en contacto con uno de nuestros agentes de soporte de Office.

×