建立關鍵字字典

重要:  本文係由機器翻譯而成,請參閱免責聲明。本文的英文版本請見這裡,以供參考。

防止資料遺失 (DLP) 在 Office 365 中的可以識別、 監控及保護機密資訊。識別機密資訊有時需要尋找關鍵字,尤其是識別一般的內容 (例如保健相關的通訊) 或不當或明確的語言。雖然您可以建立關鍵字清單中的機密資訊類型,關鍵字清單大小限制,及需要修改以建立或編輯這些 XML。關鍵字字典提供更容易管理的關鍵字,然後在較大,支援多達 100000 的字詞,每個字典。

若要建立關鍵字字典的基本步驟

字典關鍵字可能來自各種來源,最常從檔案 (例如.csv 或.txt 清單),從您直接在指令程式中,輸入的清單,或從現有的字典。當您建立的關鍵字字典時,您就會依照相同的核心步驟:

  1. 連線到安全性與規範中心 PowerShell -請參閱本主題

  2. 定義或您想要的來源載入您的關鍵字-cmdlet 來建立關鍵字字典接受逗點分隔的關鍵字清單,讓此步驟會稍有而定關鍵字來源位置。

  3. 編碼關鍵字-一次載入,它們會轉換成位元組陣列之前匯入。

  4. 建立字典-選擇的名稱與描述,並建立您的字典。

從 [逗點分隔的清單建立關鍵字字典

您也可以定義您關鍵字清單內嵌在指令程式。若要描繪出這種情況,此範例會建立醫療字詞的關鍵字字典。首先,您必須連線至安全性與規範中心 PowerShell。。接下來,您會定義關鍵字的清單,執行此命令:

$keywords = "Aarskog's syndrome, Abandonment, Abasia, Abderhalden-Kaufmann-Lignac, Abdominalgia, Abduction contracture, Abetalipo proteinemia, Abiotrophy, Ablatio, ablation, Ablepharia, Abocclusion, Abolition, Aborter, Abortion, Abortus, Aboulomania, Abrami's disease, Abramo"

您可以建立字典之前,您需要執行此命令,為位元組陣列編碼關鍵字:

$encodedKeywords = [system.Text.Encoding]::UTF8.GetBytes($keywords)

現在您可以建立關鍵字字典執行此命令:

New-DlpKeywordDictionary -Name "Diseases" -Description "Names of diseases and injuries from ICD-10-CM lexicon" -FileData $encodedKeywords 

字典現在建立並準備好使用我們的原則或自訂的機密資訊類型。若要查看內容,請執行此命令時:

Get-DlpKeywordDictionary -Name "Diseases"

此命令的輸出看起來像這樣:

RunspaceId        : d9a79cc1-66d7-4735-978f-af212b80b2bc
Identity          : 84d97c1a-2d7a-4589-9092-940ac037cb15
Name              : Diseases
Description       : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture,
                    abetalipoproteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus,
                    aboulomania, abrami's disease
IsValid           : True
ObjectState       : Unchanged

從檔案建立關鍵字字典

通常您需要建立大型的字典,時,使用 [從其他來源的 [從檔案的關鍵字或匯出的清單。在此情況下,您會建立包含清單不適當的語言,以螢幕畫面外部電子郵件中的關鍵字字典。您需要先連線至 [安全性與規範中心 PowerShell。

現在,您將匯入檔案],使用Get-Content cmdlet (因為Import-CSV視為欄標題中的第一列,您使用Get-Content

$csv = get-Content "C:\my path\InappropriateTerms.csv"

現在,您會以逗號分隔加入關鍵字,然後將其轉換位元組陣列,執行下列命令以建立關鍵字字典時要使用:

$keywords = $csv -Join ","
$encodedKeywords = [system.Text.Encoding]::UTF8.GetBytes($keywords)
New-DlpKeywordDictionary -Name "Inappropriate Language" -Description "Unprofessional and inappropriate terminology" -FileData $encodedKeywords

修改現有的關鍵字字典

您可能需要修改關鍵字的關鍵字的字典,其中一種或修改其中一個內建的字典。在此範例中,我們會修改條款本機您可以加以修改編輯器中,然後就地更新前一個字詞的位置儲存一些字詞 PowerShell 中。 首先,擷取字典物件:

$dict = Get-DlpKeywordDictionary -Name "Diseases"

列印$dict 會顯示各種不同的變數。 自己的關鍵字儲存在物件上後端,但是$dict.KeywordDictionary包含它們,您將會用來修改字典的字串表示。修改字典之前,必須先使用.split(‘,’)方法一個陣列回開啟字詞的字串。 然後您會清除與.trim()方法,讓使用關鍵字的關鍵字不想要的間距。

$terms = $dict.KeywordDictionary.split(',').trim()

現在您要移除部分條款從字典。 因為範例字典具有只幾個關鍵字,就可以輕鬆地跳過匯出字典,並在 [記事本] 中編輯該但字典通常包含大量的文字,因此您將第一次學習 PowerShell 中輕鬆地編輯的方式。

在最後一個步驟中,您可以儲存關鍵字至陣列。 有數種方式可移除陣列中的項目,但乾淨的簡單的方法,您會建立您想要移除的字典,字詞的陣列,並再將字典條款複製到該字詞,若要移除的清單中沒有。

執行命令$terms ,以顯示目前的字詞清單。輸出的命令看起來像這樣:

aarskog's syndrome
abandonment
abasia
abderhalden-kaufmann-lignac
abdominalgia
abduction contracture
abetalipoproteinemia
abiotrophy
ablatio
ablation
ablepharia
abocclusion
abolition
aborter
abortion
abortus
aboulomania
abrami's disease

執行此命令,指定您想要移除的各項:

$termsToRemove = @('abandonment', 'ablatio')

執行此命令以實際移除清單中的各項:

$updatedTerms = $terms | Where-Object{ $_ -notin $termsToRemove }

執行命令$updatedTerms ,以顯示 [更新] 清單的字詞。輸出的命令看起來像這樣 (已移除指定的字詞):

aarskog's syndrome
abasia
abderhalden-kaufmann-lignac
abdominalgia
abduction contracture
abetalipo proteinemia
abiotrophy
ablation
ablepharia
abocclusion
abolition
aborter
abortion
abortus
aboulomania
abrami's disease

現在儲存在本機的字典,並新增一些其他條款。 您可以新增字詞這裡 PowerShell 中,但您仍會需要匯出本機以確保其以 Unicode 編碼儲存了,並包含 BOM 檔案。

字典儲存在本機藉由執行下列動作:

Set-Content $updatedTerms -Path "C:\myPath\terms.txt"

現在只要開啟檔案,新增您的其他條款,並以 Unicode 編碼 (utf-16) 儲存。 現在,將上傳更新的合約和更新的字典中的位置。

PS> Set-DlpKeywordDictionary -Identity "Diseases" -FileData (Get-Content -Path "C:myPath\terms.txt" -Encoding Byte -ReadCount 0)

現在已更新字典中的位置。請注意 [ Identity ] 欄位會字典的名稱。 如果您想要也變更您使用set-指令程式的字典的名稱,您會只需將-Name參數新增至功能上方新字典名稱。

使用自訂的機密資訊類型和 DLP 原則的關鍵字字典

關鍵字字典可做為符合需求的一部分是自訂的機密資訊類型,或為機密的資訊輸入本身。這兩需要建立自訂的機密資訊類型。請依照下列指示連結的文件中建立的機密資訊類型。 XML 之後,您必須使用該字典的 GUID 識別碼。

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
	<Pattern confidenceLevel="75">
		<IdMatch idRef=". . ."/>
	</Pattern>
</Entity>

若要取得字典的身分識別,請執行此命令時,複製Identity屬性值:

Get-DlpKeywordDictionary -Name "Diseases"

此命令的輸出看起來像這樣:

RunspaceId        : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity          : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name              : Diseases
Description       : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo
                    proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania,
                    abrami's disease, abramo
IsValid           : True
ObjectState       : Unchanged

身分識別貼上您自訂的機密資訊的類型的 XML,然後上傳。現在您的字典會顯示機密資訊類型的清單中,您可以將其向在您的原則,指定以符合需要多少關鍵字。

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

附註: 機器翻譯免責聲明︰本文係以電腦系統翻譯而成,未經人為介入。Microsoft 提供此等機器翻譯旨在協助非英語系使用者輕鬆閱讀 Microsoft 產品、服務及技術相關內容。基於本文乃由機器翻譯而成,因此文中可能出現詞辭、語法、文法上之錯誤。

擴展您的技能
探索訓練
優先取得新功能
加入 Office 測試人員

這項資訊有幫助嗎?

感謝您的意見反應!

感謝您的意見反應! 我們將協助您與其中一位 Office 支援專員連絡以深入了解您的意見。

×