大數(shù)據(jù)技術內(nèi)涵持續(xù)進行延伸,經(jīng)過十三五的發(fā)展,已從面向海量數(shù)據(jù)的存儲、處理、分析等基礎技術,延展到面向海量數(shù)據(jù)的管理治理、流通交易等新興關鍵技術。大數(shù)據(jù)管理治理類技術實現(xiàn)數(shù)據(jù)整合、集成,實現(xiàn)數(shù)據(jù)資產(chǎn)的管理,助力提升數(shù)據(jù)質(zhì)量與可用性。大數(shù)據(jù)流通交易類技術實現(xiàn)安全合規(guī)下的數(shù)據(jù)共享及交易,助力提升數(shù)據(jù)流通性。
一
大數(shù)據(jù)管理治理技術
數(shù)據(jù)管理相關的概念和方法論近年來備受關注,在大數(shù)據(jù)浪潮下越來越多的政府、企業(yè)等組織開始關注如何管理好、使用好數(shù)據(jù),從而使數(shù)據(jù)能夠藉由應用和服務轉化為額外價值。大數(shù)據(jù)管理技術包括元數(shù)據(jù)管理、數(shù)據(jù)集成、數(shù)據(jù)建模等,通過匯聚盤點數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量,增強數(shù)據(jù)的可用性和易用性,進一步釋放數(shù)據(jù)資產(chǎn)的價值。
1 .元數(shù)據(jù)管理:****
** 幫助用戶理解數(shù)據(jù)關系和相關屬性**
元數(shù)據(jù)管理是對數(shù)據(jù)采集、存儲、加工和展現(xiàn)等數(shù)據(jù)全生命周期的描述信息,幫助用戶理解數(shù)據(jù)關系和相關屬性。 元數(shù)據(jù)管理工具可以了解數(shù)據(jù)資產(chǎn)分布及產(chǎn)生過程。實現(xiàn)元數(shù)據(jù)的模型定義并存儲,在功能層包裝成各類元數(shù)據(jù)功能,最終對外提供應用及展現(xiàn);提供元數(shù)據(jù)分類和建模、血緣關系和影響分析,方便數(shù)據(jù)的跟蹤和回溯。
元數(shù)據(jù)管理方面比較有代表性的開源軟件和數(shù)據(jù)管理平臺主要有Apache Atlas,Data Hub。 Apache Atlas是Hadoop社區(qū)為解決Hadoop生態(tài)系統(tǒng)的元數(shù)據(jù)治理問題而產(chǎn)生的開源項目,它為Hadoop集群提供了包括數(shù)據(jù)分類、集中策略引擎、數(shù)據(jù)血緣、安全和生命周期管理在內(nèi)的元數(shù)據(jù)管理核心能力。Apache Atlas與Hadoop關系緊密,深度集成了Hadoop大數(shù)據(jù)組件。Data Hub是由LinkedIn的數(shù)據(jù)團隊開源的一款提供元數(shù)據(jù)搜索與發(fā)現(xiàn)的工具,2.0版本支持的數(shù)據(jù)源包括LDAP,Hive,Kafka,MySQL,DB2,F(xiàn)irebird,SQL Server,Oracle,Postgres,SQLite,ODBC等,實現(xiàn)的功能主要包括元數(shù)據(jù)、數(shù)據(jù)血緣、權限描述、生命周期等。
2.數(shù)據(jù)集成:
** 實現(xiàn)異構數(shù)據(jù)源的一致性**
數(shù)據(jù)集成是要將互相關聯(lián)的分布式異構數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問這些數(shù)據(jù)源。 集成是指維護數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率;透明的方式是指用戶無需關心如何實現(xiàn)對異構數(shù)據(jù)源數(shù)據(jù)的訪問,只需關心以何種方式訪問何種數(shù)據(jù)。
數(shù)據(jù)集成方面比較有代表性的開源軟件和數(shù)據(jù)管理平臺主要有的DATAX,Kettle。 DATAX是阿里開源的異構數(shù)據(jù)源離線同步工具,致力于實現(xiàn)包括關系型數(shù)據(jù)庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能,實現(xiàn)了高效的標簽識別以及數(shù)據(jù)去冗余。Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數(shù)據(jù)抽取高效穩(wěn)定。
3.數(shù)據(jù)建模:
** 基于數(shù)據(jù)構建科學模型解決實際問題**
數(shù)據(jù)建模指對現(xiàn)實世界各類數(shù)據(jù)的抽象組織,確定數(shù)據(jù)庫需管轄的范圍、數(shù)據(jù)的組織形式等直至轉化成現(xiàn)實的數(shù)據(jù)庫。 將經(jīng)過系統(tǒng)分析后抽象出來的概念模型轉化為物理模型后,在數(shù)據(jù)建模工具中建立數(shù)據(jù)庫實體以及各實體之間關系的過程(實體一般是表)。
數(shù)據(jù)建模方面比較有代表性的開源軟件和數(shù)據(jù)管理平臺主要有Erwin、PowerDesigner。 ERwin全程ERwin Data Modeler,是CA公司(Computer Associates) 的一款優(yōu)秀建模工具,歷經(jīng)數(shù)年的開發(fā)和維護,享有很高的市場占有率。用戶使用ERwin可以可視化的設計維護數(shù)據(jù)庫、數(shù)據(jù)倉庫,并對企業(yè)內(nèi)部各種數(shù)據(jù)源模型進行統(tǒng)一規(guī)劃管理。PowerDesigner是Sybase公司的CASE工具集,使用它可以方便地對管理信息系統(tǒng)進行分析設計,幾乎包括了數(shù)據(jù)庫模型設計的全過程。利用Power Designer可以制作數(shù)據(jù)流程圖、概念數(shù)據(jù)模型、物理數(shù)據(jù)模型,還可以為數(shù)據(jù)倉庫制作結構模型,也能對團隊設計模型進行控制。
4.數(shù)據(jù)管理平臺
目前以上三類技術多集成于數(shù)據(jù)管理平臺,作為開展數(shù)據(jù)管理的統(tǒng)一工具。 但是數(shù)據(jù)管理平臺仍存在自動化、智能化程度低的問題,實際使用中需要人工進行數(shù)據(jù)建模、數(shù)據(jù)標準應用、數(shù)據(jù)剖析等操作,帶來居高不下的人力成本。 更加自動化智能化的數(shù)據(jù)管理平臺需求迫切,可助力數(shù)據(jù)管理工作高效進行。 在基于機器學習的人工智能技術不斷進步的情況下,將有關技術應用于數(shù)據(jù)管理平臺的各項職能,以減少人力成本提高治理效率成為當下數(shù)據(jù)管理平臺研發(fā)者關注的重點。
數(shù)據(jù)建模、數(shù)據(jù)標簽、主數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)標準應用成為幾個主要的數(shù)據(jù)管理+AI應用方向。 數(shù)據(jù)建模方面,機器學習技術通過識別數(shù)據(jù)特征,推薦數(shù)據(jù)主題分類,進一步實現(xiàn)自動化建立概念數(shù)據(jù)模型,同時,對表間關系的識別將大大降低逆向數(shù)據(jù)建模的人力成本,便于對數(shù)據(jù)模型的持續(xù)更新。數(shù)據(jù)標準應用方面,基于業(yè)務含義、數(shù)據(jù)特征、數(shù)據(jù)關系等維度的相似度判別,在數(shù)據(jù)建模時匹配數(shù)據(jù)標準,不僅提升了數(shù)據(jù)標準的應用覆蓋面,也減少了數(shù)據(jù)標準體系的維護成本。數(shù)據(jù)剖析方面,基于機器學習的人工智能技術可通過分析問題數(shù)據(jù)和學習數(shù)據(jù)質(zhì)量知識庫,提取數(shù)據(jù)質(zhì)量評估維度和數(shù)據(jù)質(zhì)量稽核規(guī)則,并識別關聯(lián)數(shù)據(jù)標準,實現(xiàn)自動化的數(shù)據(jù)質(zhì)量事前、事中、事后管理。華為、浪潮、數(shù)夢工場、數(shù)瀾科技、Datablau等數(shù)據(jù)管理平臺供應商也在各自的產(chǎn)品中不斷更新自動化智能化的數(shù)據(jù)管理功能。
二
大數(shù)據(jù)流通交易技術
數(shù)據(jù)確權、數(shù)據(jù)定價和數(shù)據(jù)安全是數(shù)據(jù)流通交易領域的三大核心內(nèi)容。其中數(shù)據(jù)確權需要明確數(shù)據(jù)資產(chǎn)的產(chǎn)權劃分,數(shù)據(jù)定價在數(shù)據(jù)確權的基礎上評估數(shù)據(jù)價值及收益分配,兩者更側重于法律和經(jīng)濟層面,目前依然處于持續(xù)探索階段。從技術角度看,最主要的是要保障流通交易過程中的數(shù)據(jù)安全,保證共享數(shù)據(jù)不被第三方獲取、隱私數(shù)據(jù)不被共享方獲取、原始數(shù)據(jù)不被共享方獲取。
1.身份認證:
** 保證共享數(shù)據(jù)不被第三方獲取**
數(shù)據(jù)流通過程中涉及到的網(wǎng)絡數(shù)據(jù)傳輸安全需求與其他場景類似, 目前網(wǎng)絡身份認證技術發(fā)展比較成熟,可以確保網(wǎng)絡用戶身份的真實、合法和唯一性,防止非法人員進入系統(tǒng), 通過各種違法操作獲取不正當利益、非法訪問受控信息、惡意破壞系統(tǒng)數(shù)據(jù)的完整性等情況的發(fā)生。常用網(wǎng)絡身份認證方式如下:
a)靜態(tài)密碼認證。 靜態(tài)密碼方式是指以用戶名及密碼認證的方式,用戶名/密碼方式是最簡單、最常用的身份認證方法。
b)動態(tài)口令認證。 動態(tài)口令是應用最廣的一種身份識別方式,基于動態(tài)口令認證的方式主要有動態(tài)短信密碼和動態(tài)口令牌(卡)兩種方式,口令一次一密。
c)USBKey認證。 采用軟硬件相結合、一次一密的強雙因子認證模式。每一個USBKey都具有硬件PIN碼保護,用戶只有同時取得了USBKey和用戶PIN碼,才可以登錄系統(tǒng)。
d)生物識別認證。 通過可測量的身體或行為等生物特征信息進行身份認證,包括指紋識別、視網(wǎng)膜識別、聲音識別等。
e)CA認證。 證書頒發(fā)機構(CA,CertificateAuthority)負責發(fā)放和管理數(shù)字證書的權威機構,并作為電子商務交易中受信任的第三方,承擔公鑰體系中公鑰的合法性檢驗的責任。CA機構的數(shù)字簽名使得攻擊者不能偽造和篡改證書。
2.數(shù)據(jù)脫敏、差分隱私:
** 保證隱私數(shù)據(jù)不被共享方獲取**
全球隱私保護合規(guī)監(jiān)管日趨嚴格,一方面促進了數(shù)據(jù)權利主體和數(shù)據(jù)處理行為組織者的隱私保護意識的覺醒,但同時也加重了企業(yè)對數(shù)據(jù)流通與協(xié)作合法合規(guī)的擔憂。目前在數(shù)據(jù)流通中保護隱私數(shù)據(jù)方面應用較多的技術主要有數(shù)據(jù)脫敏和差分隱私。
數(shù)據(jù)脫敏(Data Masking)是利用脫敏規(guī)則將一些敏感的信息(比如身份證號碼、客戶的賬號、密碼、地址、電話等信息)進行數(shù)據(jù)的變形,通過對這些敏感信息的變形,最終對這些敏感信息實現(xiàn)有效、可靠的保護。 利用數(shù)據(jù)脫敏技術,可有針對性地保護與當前分析無關的信息,并保證分析挖掘的有效進行。通常的脫敏手段包括泛化、抑制和擾亂三種。泛化是指使用一般值來替代生產(chǎn)數(shù)據(jù),使生產(chǎn)數(shù)據(jù)的局部特征得到保留,因此泛化后的數(shù)據(jù)是具有不可逆性的,具體方法包括數(shù)據(jù)截斷、偏移取整、規(guī)整等。抑制是指對生產(chǎn)數(shù)據(jù)的部分信息進行隱藏,從而實現(xiàn)對生產(chǎn)數(shù)據(jù)值的轉換,既隱藏技術,具體方法包括掩碼等。擾亂是指對生產(chǎn)數(shù)據(jù)加入噪聲來進行干擾,使生產(chǎn)數(shù)據(jù)發(fā)生扭曲及改變,生產(chǎn)數(shù)據(jù)被擾亂后,其分布特征仍保留不變,具體方法包括加密、重排等。
差分隱私(Differential Privacy,DP)是針對統(tǒng)計數(shù)據(jù)庫的隱私泄露問題提出的一種新的隱私定義,旨在提供一種當從統(tǒng)計數(shù)據(jù)庫查詢時,最大化數(shù)據(jù)查詢的準確性,同時最大限度減少識別其記錄的機會。
傳統(tǒng)的差分隱私方案大多為中心化的差分隱私方案,即數(shù)據(jù)通常都是由可信第三方添加噪聲。但在實際應用中為了減少對可信第三方的需求,近年來也提出了一些去中心化的隱私保護方案,如本地差分隱私等。本地差分隱私(Local Differential Privacy,LDP)是在基于不可信第三方的前提下,客戶端在數(shù)據(jù)被收集和聚合前,在本地對數(shù)據(jù)進行差分隱私保護。本地差分隱私已經(jīng)被谷歌、蘋果和微軟等公司用于保護用戶隱私。但是相較于傳統(tǒng)中心化差分隱私,本地差分隱私方案對數(shù)據(jù)添加的噪聲更大,在面向數(shù)據(jù)統(tǒng)計時數(shù)據(jù)的可用性更低。
3.多方安全計算、聯(lián)邦學習、可信執(zhí)行環(huán)境:
** 保證原始數(shù)據(jù)不被共享方獲取**
與土地、設備、資金等其他資產(chǎn)不同,數(shù)據(jù)作為一種新型資產(chǎn)要素具有很強的可復制性。為了保障自身的商業(yè)利益,在數(shù)據(jù)流通交易過程中,數(shù)據(jù)方往往不希望原始數(shù)據(jù)流出到他人手中而失去對數(shù)據(jù)的唯一控制權。針對多方數(shù)據(jù)協(xié)同計算的場景,保障數(shù)據(jù)不流出或少流出的技術主要包括多方安全計算、聯(lián)邦學習、可信計算環(huán)境。
多方安全計算(Secure Multi-Party Computation,MPC)由姚期智在1982年提出,指參與者在不泄露各自隱私數(shù)據(jù)情況下,利用隱私數(shù)據(jù)參與保密計算,共同完成某項計算任務。 當前,多方安全計算技術已成為現(xiàn)代密碼學的重要分支。該技術可以使多個非互信主體在數(shù)據(jù)相互保密的前提下進行高效數(shù)據(jù)融合計算,最終實現(xiàn)數(shù)據(jù)的所有權和數(shù)據(jù)使用權相互分離,使數(shù)據(jù)“可用而不可見”,并控制數(shù)據(jù)的用途和用量。多方安全計算涉及的隱私保護技術和算法非常多,可分為秘密分享、混淆電路、不經(jīng)意傳輸、同態(tài)加密等四大類及其他技術,其中每類又可細分出很多不同的算法。
聯(lián)邦學習(Federated Learning)由谷歌于2016年提出,旨在保障大數(shù)據(jù)交換時的信息安全、保護終端數(shù)據(jù)和個人數(shù)據(jù)隱私、保證合法合規(guī)的前提下,在多參與方或多計算結點之間開展高效率的機器學習。
根據(jù)聯(lián)合建模的數(shù)據(jù)提供者提供的樣本和特征的重疊情況,可將聯(lián)邦學習分為橫向聯(lián)邦學習、縱向聯(lián)邦學習和遷移聯(lián)邦學習三大類。橫向聯(lián)邦學習也稱“特征對齊的聯(lián)邦學習”,適用于數(shù)據(jù)提供方的數(shù)據(jù)特征重疊很多但樣本重疊較少的場景。
縱向聯(lián)邦學習也稱“樣本對齊的聯(lián)邦學習”,適用于數(shù)據(jù)提供方的樣本重疊很多,但數(shù)據(jù)特征重疊較少的場景。遷移聯(lián)邦學習適用于數(shù)據(jù)提供方的樣本和特征重疊都較少的場景。與多方安全計算相似,聯(lián)邦學習能夠保障計算過程中多個數(shù)據(jù)方的隱私數(shù)據(jù)不泄露。區(qū)別在于,聯(lián)邦學習僅適應于機器學習建模場景,此外,聯(lián)邦學習可能使用多方安全計算的中數(shù)據(jù)保護算法,也可能使用了其他算法。
可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)通過硬件技術來對數(shù)據(jù)進行隔離保護,將數(shù)據(jù)分類處理。 支持TEE的CPU中,會有一個特定的區(qū)域,該區(qū)域的作用是給數(shù)據(jù)和代碼的執(zhí)行提供一個更安全的空間,并保證他們的機密性和完整性。因為TEE提供了一個與外部環(huán)境隔離的特征環(huán)境(有時也稱為“安全飛地”)保存用戶的敏感數(shù)據(jù),TEE可以直接獲取外部環(huán)境的信息,而外部環(huán)境獲取TEE的信息。目前引入可信執(zhí)行環(huán)境較為成熟的技術有ARM的TrustZone和Intel的SGX等。
本文部分原載于《中國金融科技運行報告》
-
存儲
+關注
關注
13文章
4411瀏覽量
86467 -
MySQL
+關注
關注
1文章
836瀏覽量
26948 -
大數(shù)據(jù)
+關注
關注
64文章
8929瀏覽量
138324
發(fā)布評論請先 登錄
相關推薦
大數(shù)據(jù)技術經(jīng)驗交流 場景化數(shù)據(jù)算法
常用大數(shù)據(jù)處理技術歸類
常見大數(shù)據(jù)應用有哪些?
大數(shù)據(jù)運用的技術
大數(shù)據(jù)開發(fā)核心技術詳解
DKHadoop大數(shù)據(jù)平臺架構詳解
大數(shù)據(jù)的定義及其應用
什么是大數(shù)據(jù)?大數(shù)據(jù)的特點有哪些
大數(shù)據(jù)技術與應用是學什么的?
大數(shù)據(jù)技術原理與應用

評論