前言
著眼未來,芯華章成立研究院,持續探索下一代EDA 2.0的技術路徑和發展方向,也因此與許多前沿技術領域的頂尖專家、學者有交流和協作,為創造積蓄更多知識與能量。
本期基于翼方健數首席科學家張霖濤在芯華章生態及產品發布會上的精彩分享進行整理,以期透過分享,讓數據創造更多的價值。
嘉賓介紹
張霖濤目前擔任翼方健數首席科學家,負責公司技術戰略和產品研發。翼方健數是一家深耕隱私計算技術和應用的高科技創業公司。張霖濤博士在加入翼方健數之前曾任微軟亞洲研究院 (MSRA)首席研究員和全球合伙人,在人工智能、云計算、形式驗證等很多研究領域做出過重要貢獻。他的研究工作獲得過包括IEEE A. Richard Newton Technical Impact Award in Electronic Design Automation在內的多個最佳論文及研究成就獎。張霖濤本科畢業于北京大學,在普林斯頓大學獲計算機工程博士,他是電子工程師學會會士(IEEE Fellow),國際計算機學會杰出會員(ACM Distinguished Member)。
在智能時代,數據是社會和經濟發展最重要的驅動力。但數據本身作為一種特殊的生產要素,有很多與傳統生產要素不同的屬性。如何在安全,合規,保護隱私的前提下讓數據流通并最大化創造價值,是一個重要問題。近期被統稱為隱私計算的一系列技術手段得到了快速的發展,是促進數據流通的一個最有希望的技術方案。
分享要點
過去的EDA和隱私計算實際上是沒有太多交集,但是最近隨著EDA慢慢地趨向更多的需要結構化,需要更多的數據驅動,以及更多的采用AI的技術,我相信隱私計算和EDA可能也會產生更多的交集,也能夠產生出一些有趣的火花。
數據是智能時代最活躍的一個生產要素,但在經濟學上有特殊的非競爭性的特點。過去像其他的生產要素,比如土地,我擁有這塊的話,別人不可能再用了。但是數據不一樣,數據非常容易拷貝,我用了一塊數據,別人可以很容易擁有同樣的一塊數據。這導致數據有很多細節需要重新考慮。
通過一些技術的手段,不流通數據本身,而是流通數據產生的價值。隱私計算就是這樣一種技術實現手段。也就是我們在特定的信任架構下,在保護數據所隱含的隱私和機密,避免數據資產的流失轉移和失控的前提下,能夠實現分享數據價值的技術產品和方法。
分享內容
各位尊敬的來賓,大家好。非常感謝芯華章的邀請,讓我有機會和大家分享隱私計算與數據價值流通共享這個話題。大家都知道芯華章是一家EDA公司,做得非常出色。巧合的是,我在研究生階段,做的很多工作也是在EDA和驗證領域。工作之后,我的工作轉向了計算機系統、人工智能等一些方面的研究。
今天有機會和大家來分享一下這個話題。過去的EDA和隱私計算實際上是沒有太多交集,但是最近隨著EDA慢慢地趨向更多的需要結構化,需要更多的數據驅動,以及更多的采用AI的技術,我相信隱私計算和EDA可能也會產生更多的交集,也能夠產生出一些有趣的火花。
首先,大家知道最近的人工智能獲得了非常大的進展,我們覺得智能時代已經開始來到了。智能時代,是人類有史以來第一次找到了能夠從數據獲得知識的途徑,這是一個非常有意思的方向,為什么?因為過去我們一直只有人類才有智能,現在我們可以從數據中建立模型,能夠從模型中產生產品,并且能夠服務社會,所以我們產生了機器認知。機器認知和人類認知的途徑不完全重合,所以它從數據服務社會的路徑有可能更加更高效,數據的流通就會變得非常重要。
最近大家都認識到,數據是智能時代最活躍的一個生產要素,過去我們其實有很多的生產要素,包括有土地,資本等等。最近大家提出,在智能時代最活躍的要素是數據,數據是一種人造的虛擬資源,它和過去的一些生產要素有很大的區別。
社會數據作為一個新的生產要素有一些特殊的特點,過去數據往往是信息時代的遺留物,而它質量參差不齊,來收集的目的不同,并且往往是非標準化非結構化,所以要用好這個數據實際上是有很多挑戰。其中,數據有一些特殊的經濟學的特征,就是在經濟學上數據有特殊的非競爭性的特點。
過去像其他的生產要素,比如土地,我擁有這塊別人不可能再用了,或者資本,我擁有了這塊資本,這些錢別人都沒有了。但是數據不一樣,數據非常容易拷貝,我用了一塊數據,別人可以很容易擁有同樣的一塊數據。這導致數據有很多細節需要重新考慮。
在分析學的維度上,數據有很多隱私、合規、經濟安全等等的這些方面的要求,所以會跟過去的其他的這種生產資料、生產要素,有很多的不同。大家都認識到數據是國家競爭力的一種表現的戰略,包括我們從中共中央國務院都提出,比如說數據要素化。數據要素的市場化是一種非常重要的方向,中國也是人口大國,產生數據的速度也會非常的快。
從這個角度上來講,我們作為數據資源的大國,數據本質上是非常需要保護的。
因為剛才說到數據的一些經濟學特征,使得數據作為一種資產非常有優勢。數據本質上是不能安全流通的,考慮到這些對自己的隱私安全,它具有很多外部的依賴性,導致我們不能安全的流通數據,但是作為一種生產要素,數據對這種生產要素一定需要可控,才能夠產生最大的價值。
現在我們會通過一些技術的手段,不流通數據本身而流通數據產生的價值。什么叫數據價值?可能是一些模型,可能是一些洞見,可能是一些知識圖譜等等的這些知識,會在網絡中流通起來。我們通過一些技術的手段,包括隱私計算,這是我們今天講的一個話題。
什么叫做隱私計算?隱私計算技術實際上在過去二三十年間得到了飛速的發展,它實際上不是一項單一的技術,它包括一系列的技術手段,使得能夠在不接入原始數據的情況下,能夠從數據中獲得一些計算的結果。
過去在全世界很多的研究,有很多的技術手段,包括多方安全計算、包括平臺加密等等一些手段,用密碼學的手段來不需要一個可信的第三方完成數據的共同計算。
大概最近10年,也有另外一個技術手段,通過所謂的數據不斷能行動這樣的一個方法,能夠讓己方的數據通過模型深度學習或者是機器學習模型的建構,還有一些技術手段,通過一些硬件或者通過一些操作系統方面的手段,做安全沙箱和進行新環境等等這些技術,也能夠實現保護數據上做一些計算技術。
當然除了這些主流的技術以外,還有很多的其他技術,包括區塊鏈、零知識證明等等一系列的技術手段被提出來。但是過去在傳統意義上的計算技術,往往大家關心的是計算事情本身,現在僅僅考慮計算信息的安全,往往沒有考慮數據全周期的安全可以保護,所以我們覺得這種狹義上的一個計算機會非常重要,但是它不能夠完全體現出我們現在談的這個技術。
所以,我們想更廣泛地定義一下隱私的安全計算。也就是我們在特定的信任架構下,在保護數據所隱含的隱私和機密,避免數據資產的流失轉移和失控的前提下,能夠實現分享數據價值的技術產品和方法。
下面來具體談下什么叫做隱私計算。
我們可以看看像這樣子兩個圖,在左邊是一個傳統意義上的數據計算,過去如果我們有些數據想要分享出來,想要分享數據價值,以前的做法是這樣,我們通過把數據放在一個平臺上,數據的使用方在左圖中,大家可以看到是醫學統計公司,他希望比如說做一些統計或者做一些模型評估,它會從一個原始數據中去做一些查詢,這種方法是非常危險的,因為原始數據就流出了傳統的醫療數據的平臺,這時候數據會被復用,數據存在被泄露、給別人去把控的風險。
我們想談的隱私計算,實際上是右圖所顯示的這樣一個模式。我們希望大家把數據把計算的模式,都放在中間這樣一個三層計算平臺上。這個平臺可能是一個單臺機器,也可能是一個區塊鏈上的很多的機器,有可能是一個云服務等等,我們不限制這樣一個平臺。就是說所有參與方參與這樣一個系統的抽象的平臺,這個平臺就可以接收數據和計算。
最后從平臺的輸出只有最后的結果,比如說從醫療公司的角度上來說,他能夠從平臺中獲取的只有他所需要的結果,當然看不到原始的數據,你這個平臺內部所有的操作都是可控的,可監測和管理。當然這是非常抽象的一個事件,抽象的一個概念。為了實現這樣一個概念,其實還有很多的概念,一方面當然有自己計算的技術。
但是技術之外,還有很多的問題,比如說首先最簡單一個問題,應用方是如何發現的數據,在這個平臺里面如何發現數據,如何獲得數據的使用權,如何看待這些數據是不是能夠符合我的要求?
因為有可能,比如說醫院有很多的病人,但是滿足我需要做評估的病人,到底多少病人會有這種要求,你還沒有得到數據授權的工作;各個機構數據可能有不同的格式和字段面,如何可能有效的使用這些數據;為什么大家相信這樣這個平臺,為什么大家愿意把數據放在這個平臺上?模型方為什么愿意相信這個品牌?為什么相信數據方不會把它的模型給偷走。最后,還有如何實現數據價值的分配,讓數據產生的價值模型有一些收入以后,如何能夠保證數據上也能夠獲得其中的一些收益等等,這一系列的挑戰需要解決。
所以就談到我們翼方健數這家公司了。我們是成立于2016年,是數據和計算互聯網的先行者,專注于隱私安全計算工程,人工智能和大數據,在醫療、政務、金融、營銷、科學等領域,都在做自己的開放生態和數據共享協作的一個環境。
我們認為數據,考慮到剛才說的那些因素,他必須要對原始數據進行處理,不能夠給大家看到原始的數據,在這個準則下,需要把數據連接起來,形成一個數據算法算例,一起形成一個數據計算互聯網。可以想象這個數據和算力,算法也可以進行流通,這就是我們稱之為數據原生時代的新型IT infra。
數據是一個最重要的資產,所以一定要數據先行而不是應用。基于這樣的考慮,我們在建這樣子的網絡,目前來進行推動數據驅動的商業和產業,實現數據的價值,滿足很多的挑戰和機遇。
當然剛才已經提到數據的治理和發現。如何能夠發現我需要的,如何能從網絡中找到滿足我需要的數據,在數據不可見的前提下評估數據的價值。當我發現了數據以后,我當然是要做一個隱私安全計算,如何保證在數據中合法的得到授權的使用,能夠保護它的全周期的隱私和資產的安全,這是隱私安全計算。
當然為了要做這樣的計算,需要很多資源的調度、算力的調度,可能還需要會選擇內存和存儲,如何有效的利用不同平臺異構的存儲和計算資源這樣的問題,以及最后我們還要實現計算的價值。由于數據它的價值很多情況下是能夠長期的獲取,如何能夠將行業的動產和應用和資產化的數據算法結合起來,能夠得到合理的分配,這也是需要解決的一個問題。
我們實際上在這方面做了很多年的耕耘,建立了一系列的技術。從原始的數據采集,到最后我們產生數據的價值,中間實際上有非常長的鏈條。
一方面是在這方面做了非常多的工作,其中在數據發現方面的一些產品,比如說我們這個產品,可以應用在不同的行業中,在醫療、營銷、保險等等的方面。另一方面,我們打造的一個安全計算平臺-XDP。在這個平臺上,大家一起協作管理,并且提供了很多的數據的發現能力,以及可以讓大家觀察數據,能夠做計算資源的調配和調度,能夠適應多種底層的基礎設施,能夠支持辦學模式訓練、統籌管理等等。
很多這里面的技術,我們已經開源了,所以這樣使得很多技術也會容易得到大家的信任。
目前有超過90個XDP實際上已經廣泛被部署在中國的各行各業中,包括醫療、工程、生物信息、政務,以及一些在數據分享平臺,包括公共服務等等一系列的平臺之中。
案例分享
最后,我給大家快速介紹成功落地的一些案例,隱私計算是怎么被用在這個行業中的。
其中一個案例,就是多點觸發的疾控方案。大家知道最近的疾控是一個非常關心的話題,我們希望能夠預測一個傳染病會不會爆發,為了要做這樣的一個判斷,我們可能還需要從很多地方獲取數據來做這樣一個判斷。
比如我們和某個城市一起合作,要判斷疾病是不是要發生了,除了健康的數據,除了醫院的數據以外,還有很多其他的數據,比如說藥品銷售的數據,因為很多人在看病之前會去買一些藥。這塊通過保險的醫保,都會獲得這方面的數據。
另外還有一些外界數據,比如說天氣和搜索引擎等等一系列,都可以用來做這個,可以用來判斷這個是否會發生。但是你要把這些數據打通,實際上也是很大的困難。
為此我們部署了這樣一個聯合幾個協會的平臺,通過聯邦學習的方法,通過安全的方法,把不同的數據進行打通,并且和醫療的一些知識相結合,因此會產生一個非常好的效果。
另外一個案例,實際上是我們通過隱私安全計算的這種模式賦能科研。我們和長三角的生物醫學產業大數據聯盟,通過智數坊這樣的平臺,把長三角、西南、大灣區三個節點聯通,支持了國家生物信息中心的一個數據使用。在這種情況下,數據能夠在節點之間打通。每個節點上,大家可以利用數據做一些工作,但是更可以和其他的節點,相互交互,利用其他節點的數據做一些工作。
剛才講的都是一些多平臺的情況,這里還有一個案例是在香港科技園AI驗證平臺的案例。這里實際上是一個單獨的情況。我們知道很多情況下,一個AI需求方,需要一個很好的AI解決方案,但是需求方往往自己有這個數據,他不愿意分享給供應商,不愿意分享給模型的提供方,反過來AI模型的提供方又不愿意把自己的模型免費的送給AI的信息方。
在這種情況下,我們建立了一個XDP的平臺。這樣一個解決方案,就是平臺上用戶就可以安全的做這種模型和算法的評估,大家都不用擔心數據失去控制。
最后我們還開發了一個平臺,它通過以安全計算的方法,建立一個開放的平臺支持,在這個情況下能夠保護隱私、保護數據和模型的共享,提供一個高性價比的算力,進行完整的AI供應鏈。通過一系列的技術,通過隱私安全的技術,建立底層的平臺來支持人工智能,特別是中小企業對公司的需求。
希望能夠在未來與大家一起合作,通過數據協作,能夠讓數據創造更多的價值。
審核編輯:湯梓紅
-
eda
+關注
關注
71文章
2904瀏覽量
176771 -
計算
+關注
關注
2文章
453瀏覽量
39258 -
芯華章
+關注
關注
0文章
180瀏覽量
11587
原文標題:前沿探索 | 隱私計算與數據價值的流通共享
文章出處:【微信號:X-EPIC,微信公眾號:芯華章科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
通過標準化數據通路來實現數據共享
邊緣計算網關:定義與核心價值
優刻得安全屋+DeepSeek:解鎖數據安全流通與AI賦能的創新場景

hyper-v共享,Hyper-V 共享:Hyper-V的資源共享設置

意大利監管機構警告Gedi勿與OpenAI共享數據
康謀分享 | 數據隱私和匿名化:PIPL與GDPR下,如何確保數據合規?(二)

HPC云計算前景
康謀分享 | 數據隱私和匿名化:PIPL與GDPR下,如何確保數據合規?(一)

隱私保護與網絡加速并行:深度剖析國外獨享專線IP的價值
工業邊緣計算網關在生產設備數據采集中的應用及價值
平衡創新與倫理:AI時代的隱私保護和算法公平
16 口多模反射內存交換機:高速數據共享的核心樞紐

評論