在新智元AI WORLD 2018世界人工智能峰會上,中國萬向控股有限公司副董事長兼執行董事肖風分享了他對AI、數據隱私保護和區塊鏈的獨到看法。 肖風認為,區塊鏈加上加密算法是一對絕配。未來三到五年內,一個去中心化的分布式AI平臺或將出現,數據帶來的問題將能夠解決。
9月20日,在新智元AI WORLD 2018世界人工智能峰會上,中國萬向控股有限公司副董事長兼執行董事肖風分享了他對AI、數據隱私保護和區塊鏈的獨到看法。
肖風認為,隨著AI迎來第三次高潮,技術對數據愈發依賴,帶來了人們對數據估值的重新發現。
區塊鏈加上加密算法是一對絕配。互聯網是“信息機器”,區塊鏈是“事實機器”。區塊鏈加上加密算法將會給AI帶來一片新的天地,它們的結合將滿足AI對數據的需求,數據隱私會得到保護,數據資產會得到確權,數據共享會得到激勵,數據計算會得以開放,數據治理會得以有序。
未來三到五年內,一個去中心化的分布式AI平臺或將出現。
以下是肖風在新智元AI WORLD 2018世界人工智能峰會上的演講實錄:《AI、數據隱私保護與區塊鏈》。
分布式的AI平臺將解決數據帶來的問題
肖風:很榮幸有這樣一個機會在人工智能大會上進行分享。我自己過去五年在區塊鏈這個領域當中做研究、投資和應用推廣,既然來到這里,我還是想談一談和區塊鏈有關系的一些話題,當然,首先它也是和人工智能有關系。
人工智能和區塊鏈兩個話題碰在一起,數據的產權意識、價值以及數據隱私保護意識的覺醒和AI的發展是密不可分的,或者可以說是AI帶來的。
隨著2016年人工智能第三次浪潮起來,人們突然發現原來數據有這么大的作用,數據能夠創造這么大的價值,人們自然要問:我的數據在哪里?我的數據得到妥善的保護了嗎?商業機構用我們的數據創造了價值,這些價值難道和我一點關系都沒有嗎?
有關數據的隱私保護、數據的價值分享和數據的共享,我總結了一下,最熱門的有這樣幾個方向:
首先是數據的產權確認。在座的各位可能都有很多數據遺留在互聯網上,這些數據是屬于我們的,還是屬于互聯網平臺的?或者是屬于我們和互聯網平臺共同擁有的?怎樣確認我們遺留在互聯網和其它平臺產生的數據?比如醫療平臺上你的基因數據、病歷數據,怎么確定數據的主權是屬于你還是屬于誰?
第二個方向是數據的隱私保護。大家可能不想把某些數據這么直白地、這么公開地在互聯網上被傳播甚至被買賣,所以我們要討論數據的隱私保護。
再就是數據的協同計算。數據如果不被使用根本就不會有價值,但現在我們可能沒有任何一個單一的平臺能夠擁有多維的、多元的數據滿足人工智能算法的需求。電商平臺可能有電商的數據,社交平臺可能有社交關系的數據,但如果這些數據能夠協同計算,那么對AI來說一定是功莫大焉。
但沒有人愿意在現在的互聯網的環境下把自己的數據交出去,因為交出去就等于斷送,別人不可能拍著胸脯保證說這些數據我絕對不會偷看,絕對不會傳播出去。即使有這種主觀的善良的意愿,技術上也不一定能夠做到,無法保證數據得到妥善的保管。那么怎樣在既打消這種不信任的念頭,同時又能夠讓這么多維、多元、多層次的數據在一起協同計算,共同共享,得出具有更大社會福利的AI成果呢?這確實也是一個話題。
第四是數據的價值分享。既然這些數據創造了很大的商業價值,我是不是應該從中得到我應該得到的那一份?現有的互聯網架構下沒有人給你。當然,互聯網平臺也用另外一種方式稍微返還了一部分利益,比如免費使用,這是因為要收集你的數據,你可以得到一些免費的使用,也許這是一種價值間接的體現。但有沒有什么更直接的體現,能夠激發大家愿意貢獻更多的數據來幫助AI達到更好的結果?激勵機制是數據共享或協同計算必須要建立的,沒有很好的激勵機制我們就很難相信,或者很難想像別人會平白無故地把隱私數據貢獻出去,讓某個科學家或讓某個商業機構依據這些數據來訓練機器、優化算法,得到一些結果。
今天很多人工智能學家都在談怎么用數據。這些問題是AI的發展帶來的,但AI本身不能解決這些問題。如果這些問題不得到解決,那么對AI來說是一個巨大的缺陷,尤其是如果我們不能用一個很好的激勵機制去激勵那些數據的持有人把自己的數據貢獻出來,這對人工智能的發展來說也是一個巨大的缺陷。
舉個例子,科學家如何征求1萬個特殊病的案例?可以去找醫院,這也是很困難的事情。但如果用區塊鏈技術,用一個分布式的AI平臺,并不需要找中間商,可以用你的智能合約加上隱私保護的算法,加上基于數字貨幣的激勵機制,那些互不認識的1萬個陌生人就會愿意把自己的病歷資料貢獻給這個平臺,讓某個科學家計算出來結果,然后智能合約會保證你能得到事先承諾給你的回報,并且你的所有數據能夠得到很好的隱私保護。
如果能夠做到這樣一個分布式的AI平臺,可以想像AI技術、AI行業會和今天討論的不一樣了。今天所有人工智能學家討論的都是基于中心化的機制、中心化的數據平臺去訓練AI算法,得到一些結果。其實這是一方面,另一方面就是能不能用分布式、去中心化的AI平臺把中心化平臺無法提供,或者不能提供的數據都搜羅出來,然后達成我們想要達到的研究目的?
有很多密碼學家在這方面做了很多努力,并且有了很好的成果。
首先,哈希函數。哈希函數能夠證明一串數字或者一本書是不是被篡改過,不管是一段話還是一本書,這么多的內容哈希以后,得到的哈希值是一樣大小的;但如果一本書當中改變了其中的一個標點符號,最后得到新的哈希值和原來就會有巨大的不同,所以能夠證明后來的東西是不是被篡改過。哈希函數可以得到很好的保證,不需要寫保證書,也不需要簽合同,只要檢查兩個信息的哈希值是不是一樣,就知道數據是不是被篡改過。
非對稱加密。所謂的公鑰、私鑰的非對稱加密算法,能夠保證數據的安全、完整和匿名,某種程度上也能夠對數據的產權進行確認,因為區塊鏈上面唯一的產權確認的依據就是擁有這個數字或者密碼學帳戶的私鑰,擁有了私鑰,就擁有了帳戶里面的所有價值物和數據。
零知識證明。這種加密算法能夠在把數據加密之后,在密文的狀態下讓第三方驗證者驗證數據的真實,或者狀態是否真的存在。
同態加密也是一樣,數據加密之后,在密文的狀態下,第三方仍然可以就這些數據進行某種程度上的分析和處理,最后由擁有密鑰的人從這里得到想要得到的結果。也許這個密鑰持有者并不是數據的所有者,因此也不會碰到原始的數據,或者說不會碰到明文的數據。
最后是安全多方計算。就是有一組互不信任的陌生人,比如前面講到的某種特殊病的患者。這樣一組互不信任的參與方,數據擁有者可以把自己的數據在加密以后貢獻出來,讓別人來做協同計算,最后大家可以共享計算的結果。數據永遠都不會離開本地,永遠無法推導出所有的原始數據。
其實密碼學算法已經存在很長時間了,但是被用來做數據的隱私保護和隱私保護之后的數據協同計算是最近兩年蓬勃發展的一個事實。
但是光有加密算法并不能夠完整地達到幫助AI更好地利用這些數據的目的。比如數據確權方面需要借助其它的技術,數據的真實性方面哈希函數可以證明是否被篡改過,但只有哈希函數并不能夠使得數據真的不可撤銷、不可篡改和可追溯。
第三,數據真正要有價值就必須把數據資產化,數據沒有被資產化就無法就數據進行交易,無法給數據確定價值,也無法收到貢獻數據以后應該得到的回報。數據資產化是數據交易的基礎,但是數據資產化的基礎是數據的確權。
數據存儲。尤其是去中心化計算,或者所謂的點對點、分布式、邊緣以及多方協同計算這樣的情形,如何建立一套激勵機制,讓那些無關但擁有某方面的數據的人交出這些數據。這時需要建立一套價值分配和激勵機制,讓他們愿意把數據貢獻出來,這種價值分配機制和激勵機制密碼學算法也不能解決。
什么新的系統加上密碼學算法才能解決呢?有人說互聯網能夠解決,但互聯網不能解決前面的幾個熱點問題。
首先技術上,我們不能相信一個互聯網平臺確實能夠確保數據的安全和數據的隱私。前段時間我們有看到新聞,一家著名的連鎖酒店,幾億的住客數據被盜取。今天的新聞好像是泄露數據的人被抓到了,公安部門說他沒有能夠完成交易,數據沒有被賣出去。所以技術上并不能夠證明互聯網平臺能夠做到保證這些數據的安全和隱私。
第二,在利益上,大家都在用這些數據賺錢,沒有人在意數據的隱私保護或者產權歸誰。
第三,意愿方面,互聯網平臺希望掌握數據的主權,而數據的擁有者希望數據的主動權掌握在自己手里,使用數據就應該得到許可,分配使用數據獲得利益的一部分。
最后,在管理上。這幾天也有新聞報道,一家非常著名的物流公司的一個工程師無意當中把一個數據庫刪掉了,導致這家很大的物流公司整個停擺了590分鐘,整個系統才得以恢復。
因此,密碼學算法不能解決這些問題,互聯網技術也一樣不能解決。
誰能解決呢?區塊鏈是可以解決的,因為區塊鏈和互聯網有很大的不同。有人說區塊鏈是第二代互聯網,我覺得不是,區塊鏈和互聯網有巨大的區別,主要是這幾個方面:
互聯網剛出來的時候,美國的媒體把互聯網叫做“信息機器”。確實,互聯網使得信息的產生、交流、傳遞成本極低,低到邊際成本是零,傳遞速度極快,信息的獲取也極端方便。區塊鏈被人們叫做事實機器,因為它的分布式數據庫的特點,區塊鏈的數據庫上面任何數據只能添加,不能撤除,不能篡改。因此數據一旦登記到區塊鏈上面,我們完全不需要擔心是不是被改過,所以叫做事實機器。一個事實機器顯然更有利于AI。
第二,互聯網是一種中心化的信任機制,你必須相信互聯網平臺,說你的數據在我這里是得到妥善保護的,我是不會隨便碰你的數據的。但是到現在為止幾乎沒有人敢徹底相信任何一個互聯網平臺不偷看你的數據,或者你的數據能夠在那里得到妥善的保護。區塊鏈是一個去中心化的信任機制,不需要信任任何人、任何機構、任何組織,只需要信任這套數學算法,這套數學算法不會偷窺你的數據,也不會擅自利用你的數據。靠著一條共識算法來建立的分布式信任機制,顯然要比一個中心化的互聯網機制好得多。
第三就是激勵相容。數據的擁有方、算法的提供方、算力的提供方和AI的需求方在區塊鏈上面完全能夠做到激勵相容,每個人各得其所,不會有激勵不相容的現象發生。所以在激勵機制上區塊鏈和互聯網有巨大的不同,互聯網平臺是多方參與的,但是我們無法在互聯網平臺建立很好的激勵相容機制,區塊鏈上面可以建立這樣的激勵機制。
第四,互聯網上的應用叫做App,區塊鏈上的應用叫做Dapp,D就是“去中心化”(Decentralized)。App和Dapp的最大區別是什么?比如說,如果你用出版社加上新華社的渠道來出版一本書,那么你可能得到這本書售價的10%,那是你的版稅。但如果通過互聯網平臺,比如騰訊的閱文平臺,出版任何的讀物,收入的25%要歸平臺。這意味著作者本人可以得到這本著作所有收入的75%。但在區塊鏈上面的Dapp上出版這樣的讀物和著作,所有的收入100%歸你,沒有任何人會在中間抽取你的費用。這是一個去中心化的商業模式,我們把它叫做分布式商業。
第五,互聯網在利益上希望數據獨享,所以在現有的技術狀況下很難看到不同的互聯網平臺會把數據共享出來,這實際上妨礙了AI的進一步發展。但是在區塊鏈上面是數據共享的,因為所謂分布式數據庫之上的分布式記帳系統本來就是一個共享記帳系統,帳本系統本來就是相關參與方在一個數據庫當中記錄大家相關的所有數據,可以同步給所有的參與方。
最后,區塊鏈上面跑的是數字貨幣,數據要達成交易交換,或者用來激勵數據的所有者或者提供者,算法的提供者或者算力的提供者。互聯網的環境中可以用微信和支付寶,但這是另外一套系統,把數據提供之后仍然可以懷疑是不是能夠得到事先承諾的價值和利益。但是區塊鏈上面不需要擔心這個,任何一個需求的發起方建立智能合約,數字貨幣寫在智能合約里面,也把數據交給這個智能合約,運算結束以后智能化合約會自動觸發一個支付流程,所有人會依據事先約定好的計算機程序分配所得利益,所以它是可編程的智能貨幣。數字貨幣本身就是一段計算機程序,而不是一串數字。
這些是互聯網和區塊鏈很大的區別,可以看到區塊鏈加上加密算法可能是一對絕配。區塊鏈的鏈式數據庫可以保證數據的真實性。區塊鏈作為事實機器,它和互聯網這種信息機器最大的不同是,任何數據在區塊鏈上面不可能被“雙花”,所謂“雙花”就是數據可以不經許可,沒有成本,隨便復制。
我們把區塊鏈叫做價值互聯網。我們在區塊鏈上面發送比特幣,如果像發送郵件一樣,一個比特幣可以發給一萬個人,本地還保存這樣的郵件,這個世界就亂了。區塊鏈技術有一套機制防止雙花,當你宣稱你要利用區塊鏈寄送一個比特幣給別人,這個系統會保證你的比特幣一定會被減掉,而且你的比特幣只能給你指定的那個人得到,不可能像郵件那樣一千個人、一萬個人都能得到。防止雙花,數據才能成為資產。如果像互聯網上面信息可以這樣無成本、不經許可、隨便擴散,這種時候數據不可能成為資產。
再就是點對點的交易系統。區塊鏈就是一個點對點的交易系統。這種機制可以防止數據壟斷,每個人擁有自己的數據,可以參與交易。
去中心化的信任機制保障了數據的安全,前面我們已經講過了。
智能可編程貨幣帶來數據協作新的激勵機制,加上前面講的加密算法是一對絕配。
最后,簡單總結一下區塊鏈和加密算法的發展趨勢。
現在有越來越多大學的密碼學家開始加入到區塊鏈的創業團隊當中,我在今年上半年就已經碰到過好幾個斯坦福、MIT、馬里蘭大學和伯克利大學的密碼學家,大家紛紛加入到了區塊鏈行業,投身到數據的隱私保護和數據的協同計算。
通過這些密碼學家我們了解到,密碼學界研究方向正在發生巨大的轉變,明年的美國密碼學年會和歐洲密碼學年會目前為止接到的論文和議題有一半是安全多方計算MPC。數據隱私保護成為了最熱門、最重要的話題,我所發起的PlatON區塊鏈項目就是致力于用加密算法加上區塊鏈技術解決數據多方安全計算的問題。我們已經在工程上實現了兩方安全計算,明年中會實現三方的安全計算,之后多方安全計算就不遠了。
區塊鏈加上加密算法將會給AI帶來一片新的天地,滿足AI對數據的需求,數據隱私會得到保護,數據資產會得到確權,數據共享會得到激勵,數據計算會得以開放,數據治理會得以有序。可以期待三到五年之后,一個去中心化的分布式AI平臺會出現,不再需要依靠中心化的機構,也不再需要中心化機構的數據。一個科學家可以在這樣的平臺上面發布自己的需求征集數據所有者,征集算法所有者,征集算力所有者,完成自己的一項科學研究。三到五年以內分布式的AI平臺應該會出現。
-
數據
+關注
關注
8文章
7255瀏覽量
91816 -
AI
+關注
關注
88文章
35093瀏覽量
279506 -
區塊鏈
+關注
關注
112文章
15565瀏覽量
108336
原文標題:肖風:為什么說區塊鏈將給AI帶來新天地
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
平衡創新與倫理:AI時代的隱私保護和算法公平
區塊鏈如何改變AI
什么是區塊鏈 區塊鏈有什么用
區塊鏈軟件開發公司談未來區塊鏈的主要應用方向
區塊鏈對我們的生活有什么影響
區塊鏈落地智慧城市應用領域
區塊鏈在非金融行業的應用
基于區塊鏈的物聯網
區塊鏈隱私保護平臺Sero超零協議介紹

評論