AI 代理環境下的資料外洩防護(DLP)
本文件說明 Gentrice 在 AI 代理系統中的多層次 DLP 架構設計——涵蓋偵測機制、規則分類、處置方式與法規對應。適合技術評估人員與採購合規人員參閱。
摘要
AI 代理系統的自主執行能力,使資料外洩的風險遠高於傳統問答式 AI。代理可在無人介入的情況下呼叫工具、讀寫資料庫、產生文件——任何一個步驟都可能成為敏感資料的洩漏節點。本文件描述 Gentrice 所開發的五層遞進式 DLP 系統,專為地端部署、隔離網路環境設計,已於政府與企業場域驗證,在延遲影響最小的前提下,實現對 PII、機密標記、Prompt Injection 及輸出敏感資料的全面偵測與處置。
問題背景:代理式 AI 的 DLP 挑戰
傳統 DLP 系統設計於靜態資料流——使用者上傳檔案、系統掃描、決定是否放行。代理式 AI 打破了這個假設:代理在執行任務時,可能在毫秒內進行數十次工具呼叫,每次呼叫都帶入、傳出不同類型的資料。
傳統 AI 的資料流
- 使用者 → 單一請求 → LLM → 單一輸出
- 資料流向可預測,邊界清楚
- 靜態規則可覆蓋大部分風險
代理式 AI 的資料流
- 目標 → 多步驟規劃 → 工具呼叫鏈 → 多源資料整合 → 輸出
- 每個工具呼叫都是潛在的資料輸入/輸出節點
- 攻擊者可透過 Prompt Injection 劫持代理行為
此外,AI 代理還面臨傳統系統從未有過的攻擊向量——Prompt Injection 可讓惡意使用者透過輸入內容控制代理行為,Context Exfiltration 可竊取系統提示詞與 API 金鑰,Tool Poisoning 可讓代理執行惡意工具回應。這些威脅要求 DLP 不能只在入口處設防,而必須貫穿整個代理執行流程。
五層遞進式偵測架構
我們採用「速度優先、精準度遞增」的設計原則——快速規則在毫秒內攔截明確威脅,慢速但精準的模型只在必要時啟動。此設計使系統在高吞吐量場景(如政府機關多使用者並發)下仍能維持正常服務。
系統層級的硬性限制,任何請求都無法繞過。包含完全禁止的關鍵字黑名單(如特定指令序列)與格式不符即阻斷的不可變規則。這一層的延遲幾乎為零,不影響使用者體驗。
以正規表達式比對已知的敏感資料格式,涵蓋台灣身分證字號([A-Z][12]\d{8})、統一編號(\d{8})、手機號碼、信用卡號等。此層對大量請求處理效率最高,是 PII 防護的核心層。
針對攻擊者刻意改寫、混淆或繞過 Regex 的請求,使用文字嵌入模型計算語意相似度。可偵測諸如「請忽略先前指令」的各種變體表達,即使拼寫或語序不同也能識別。
跨請求的行為模式分析:同一使用者在短時間內發送大量敏感資料查詢、請求模式偏離正常使用基準線、或系統性地探測 DLP 邊界,均視為異常行為並觸發告警或阻斷。
對前幾層標記為高風險但未確定的請求,使用本地 LLM(如 Gemma 4)作為裁判進行深度語意分析。此層彈性最高,可透過 KV 快取等技術提高反應速度,但仍僅在必要時觸發,避免影響整體吞吐量。
偵測類別與規則
DLP 規則按資料類型與威脅性質分為四大類。每條規則標記對應的偵測層(Tier)、比對模式,以及建議的處置方式。
個人識別資訊(PII)
| 規則說明 | 比對模式 | 偵測層 |
|---|---|---|
| 台灣身分證字號 | [A-Z][12]\d{8} | Tier 2 |
| 統一編號 | \d{8} | Tier 2 |
| 手機 / 市話號碼 | 09\d{8} / 0[2-8]\d{7,8} | Tier 2 |
| 信用卡號 | \d{4}[- ]?\d{4}[- ]?\d{4}[- ]?\d{4} | Tier 2 |
| 電子信箱 | [^\s@]+@[^\s@]+\.[^\s@]+ | Tier 2 |
機密與存取控制
| 規則說明 | 比對模式 | 偵測層 |
|---|---|---|
| 機密文件關鍵字 | 上下文語意 | Tier 2.5 |
| 外部單位機密限制 | 上下文語意 | Tier 2.5 |
| 內部系統帳號/密碼模式 | Regex + Tier 2.5 | Tier 2 / 2.5 |
Prompt Injection 攻擊
| 規則說明 | 比對模式 | 偵測層 |
|---|---|---|
| 指令覆蓋(忽略先前指令) | Regex + Embedding | Tier 2 / 2.5 |
| 越獄指令(DAN / JAILBREAK) | 黑名單 + Embedding | Tier 0–1 / 2.5 |
| Base64 / ROT / Unicode 編碼攻擊 | 解碼後比對 | Tier 2 |
| 角色扮演繞過(假裝為其他角色) | LLM-as-Judge | Tier 4 |
輸出過濾
| 規則說明 | 比對模式 | 偵測層 |
|---|---|---|
| LLM 輸出含 PII 自動遮罩 | Regex post-output | Tier 2 |
| 輸出含機密標記內容攔截 | 上下文語意 | Tier 2.5 |
| 程式碼輸出含憑證偵測 | Regex + Tier 2.5 | Tier 2 / 2.5 |
偵測方向與處置方式
DLP 在兩個方向上運作:輸入偵測(pre-input)在請求進入 LLM 前掃描;輸出偵測(post-output)在 LLM 回應後過濾。每條規則可分別設定輸入/輸出方向,以及觸發時的處置方式。
完全拒絕請求,不轉發至 LLM。適用於確定性高、風險嚴重的事件,如明確的身分證號外洩或越獄攻擊。
允許請求繼續,但記錄事件並即時通知管理者。適用於需要人工複核的邊界案例,例如語意模糊的機密相關查詢。
保留請求或輸出的結構,但將敏感欄位以佔位符取代(如 [MASKED-ID])。使用者仍能獲得部分回應,同時確保原始敏感值不進入 LLM 上下文或外部系統。
將請求路由至地端部署的模型,而非雲端模型。適用於包含機敏內容但仍需處理的請求——資料不離開組織邊界,同時維持服務可用性。
系統管理介面
以下為 DLP 管理介面的實際截圖,展示事件收件匣(含追蹤 ID、偵測層、處置結果)、事件趨勢圖表,以及防護規則設定。管理者可即時查看所有 DLP 事件,並透過介面調整規則設定。

每筆事件有唯一 TRC-YYYYMMDD-XXXXXXXX 格式追蹤碼,供稽核查詢
事件標示觸發的偵測層(pre_input / post_output / semantic),方便分析
事件趨勢圖以色彩區分攔截(紅)、警告(橙)、遮罩(藍),一眼辨識風險態勢
法規對應
本 DLP 架構覆蓋台灣主要資安法規與國際 AI 安全標準,以下列出各法規的對應條文與系統覆蓋範圍。
| 法規 / 標準 | 適用範圍 | 相關條文 / 要求 | 系統對應 |
|---|---|---|---|
| 個人資料保護法(個資法) | 台灣 | 第 27 條:採取適當安全維護措施防止個資外洩 | Tier 2 PII 偵測、遮罩處置、稽核日誌 |
| 資通安全管理法(資安法) | 台灣政府機關 | 第 16 條:資通系統應具備存取控制與稽核機制 | RBAC、完整稽核日誌、事件追蹤 ID |
| OWASP Agentic AI Top 10 | 國際標準 | 10/10 類別對應:Prompt Injection、Context Exfiltration、Tool Poisoning 等 | Tier 0–4 全層對應,含 Agent Threat Rules 規則庫 |
| 醫療機構電腦處理個人資料安全規範 | 醫療院所 | 病歷、診斷資訊不得外傳至未授權系統 | 輸入/輸出雙向偵測、導向地端處置 |
部署模型
DLP 引擎以微服務方式部署,嵌入於 LLM 請求路由的中間層。所有元件均在客戶的物理環境中運行,不需要任何外部網路連線。
LDAP / AD 整合
DLP 事件記錄與使用者身份綁定,稽核日誌可追溯至具體操作人員。
DLP 規則助手
內建 AI 輔助規則撰寫工具,管理者可以自然語言描述需求,系統自動生成 Regex 或語意規則。
