為什么談SAP數據脫敏?
SAP進入中國市場超過30年,作為一個典型的德國思維的產品,我們很難找到另一個市值這么大的軟件,在過去的幾十年中,一直活的這么滋潤,沒有太多的挑戰,而且軟件本身的變化肉眼可見的不大。
但近年來,這個固有的套路不斷的被挑戰,背后的推手有很多,我個人理解較大有兩個。一個是AI的技術,使得傳統SAP顧問不敢去想的一些功能,例如預測性分析,自然語言處理(NLP),圖像識別,RPA,Machine Learning,AI驅動的業務流程優化等等,變成了可能,另一個是數據治理和隱私保護的日益重視。不管是法律法規還是大家的意識,都需要實現更先進的數據治理和隱私保護功能,以確保數據的質量、安全和合規性。
本篇是個知識分享篇,更多的是想借助團隊剛剛完成的SAP數據脫敏的項目,聊聊相關的業務需求,系統架構和技術實現的關鍵點。
SAP數據脫敏的需求有哪些
這里不去談什么高大上的定義和論述。更多的引述我們實際項目的需求。
第一個項目,一個體量龐大的德國S記跨國集團,需要把一塊業務板塊整體切割出去,屬于Carve Out 項目。切出去的系統除了SAP,還有若干個其他系統,SAP是這些系統的骨干系統(Backbone system)。項目的公司代碼拆分部分,和第三方系統與SAP集成部分,都需要有大量的業務數據來支撐測試。因此,項目組同事以生產機為源系統(Source System),刷新(System Refresh)了一個新的系統,其中只包含待切出業務板塊的數據。以這個新系統為測試系統,提供給各路人馬進行集成及測試工作。但這個德國企業嚴格遵循GDPR的要求,這個測試系統的數據必須對敏感數據進行脫敏操作。待處理的數據主要是員工的個人信息(包含姓名,生日,住址,銀行信息,聯系方式,個人薪資,個人合同等等)。
第二個項目,是日本的一家生產辦公用品的A記公司。該公司需要升級SAP系統,并集成更多的外圍系統。與S記公司類似,A記公司也準備了包含生產機數據的測試系統。A記公司希望,除了員工數據,也希望對BP數據進行脫敏工作。
SAP數據脫敏的工具
市場上有幾款能完成SAP數據脫敏的工具產品。下面主要是介紹是SNP公司的TDO工具技術路徑講解和截圖。
SAP數據脫敏的關鍵要點 – 系統架構
考慮到方案的嚴謹性和運作的持續性,用源系統-控制機-目標系統的三位一體的架構更好。 架構可以參照一下圖例:
中間的Cockpit 控制機可以裝在SOLMAN上,如果SOLMAN條件不具備,也可以裝在源系統上。上述的功能點可以通過在安裝過程中引入TR的方式來實現。在此過程中,也需要注意權限的管控。
SAP數據脫敏的關鍵要點 – 敏感數據的池化數據(Pool Data)
舉個例子說明這個要點。某員工的家庭住址信息需要脫敏,他的住址是上海市浦東新區金海路x弄x號,郵編201209。我們怎樣做一個masking,用一個新的地址去替換呢?
我們不能用同一個地址強行付給所有的員工(或者BP),例如,北京市東長安街天安門廣場。 這個不太嚴謹,而且后續的一些業務流程也需要要到地址信息。
我們也不能用太虛假或自相矛盾的一個masking 數據,例如,我們不能有一個地址是類似是天津市凱達格蘭大道這樣的。還例如,我們在脫敏員工姓名及性別數據時,不能太多的出現,姓名王金剛,性別女這樣的數據。
脫敏的目標是,以假亂真。數據本身要合理嚴謹完整。
SNP TDO中提供了Pool table的模板及部分數據。模板參見下圖列表
我們以第一個pool table,address data?。ǖ刂沸畔ⅲ槔?。我們可以運行程序上載SAP中的PA0006表,或者BUT***表中的地址信息,可以在SE16中直接維護這張表(/SNP/CM05ADRPOOL)內容。我們維護的結果如下(僅供示例之用)。
有了這張表,我們做data masking就有準星了。我們可以從這張表中,由程序隨機挑選一條數據去替換員工的正式地址數據。當然在實際項目中,我們可以選擇國家是否要替換,城市是否要替換。Masking程序會帶入這些選擇條件在Pool Table中隨機找到滿足條件的記錄來完成替換。
另外多說一句,這個隨機替換,有Random的實現,也有Hash實現。這個是底層技術,不清楚這個算法的同學直接跳過。但結果是確定的,就是SAP用戶們不可能根據新的地址去猜到這個員工(或者BP)是誰,或者他的真實地址是哪一個。
審核編輯 黃宇
-
SAP
+關注
關注
1文章
385瀏覽量
21715
發布評論請先 登錄
相關推薦
評論