1.大模型時(shí)代,數(shù)據(jù)安全的新挑戰(zhàn)
數(shù)據(jù),是AI發(fā)展的養(yǎng)料。人們?cè)谳p而易舉獲取數(shù)據(jù)的同時(shí),對(duì)數(shù)據(jù)安全的討論也此起彼伏。
2013年,線上辭典Dictionary.com將“Privacy(隱私)”選為當(dāng)年的年度詞匯。彼時(shí)美國(guó)政府棱鏡計(jì)劃被曝光、谷歌修改隱私協(xié)議以整合旗下各服務(wù)用戶數(shù)據(jù),個(gè)人隱私成為數(shù)據(jù)安全中關(guān)注度最高、涉及人群最廣的方面。
相較于互聯(lián)網(wǎng)對(duì)用戶上網(wǎng)習(xí)慣、消費(fèi)記錄等信息的覆蓋,人臉識(shí)別、智能設(shè)備、AI換臉等AI應(yīng)用的出現(xiàn),對(duì)用戶個(gè)人信息的采集范圍大幅擴(kuò)大,包括人臉、指紋、聲紋、虹膜、心跳、基因等強(qiáng)個(gè)人屬性的生物特征信息。
2017年,中國(guó)第一例利用AI侵犯公民個(gè)人信息案犯罪在浙江紹興破獲,其中超10億條公民個(gè)人信息被非法獲取。
360集團(tuán)首席安全官杜躍進(jìn)此前接受「甲子光年」采訪時(shí)就曾表示:“人工智能和大數(shù)據(jù)的安全必須放在一起看。”
生成式AI、大模型的出現(xiàn),對(duì)數(shù)據(jù)提出了前所未有的要求,也隨之帶來(lái)了更加突出的數(shù)據(jù)安全問(wèn)題。
在大模型的訓(xùn)練數(shù)據(jù)量上,以O(shè)penAI的GPT模型為例:GPT-1預(yù)訓(xùn)練數(shù)據(jù)量?jī)H為5GB;到了GPT-2,數(shù)據(jù)量已經(jīng)增加至40GB;而GPT-3的數(shù)據(jù)量已經(jīng)直接飛升至45TB(相當(dāng)于GPT-2數(shù)據(jù)量的1152倍)。
市場(chǎng)逐漸凝成這樣的共識(shí):得數(shù)據(jù)者得天下,數(shù)據(jù)是大模型競(jìng)爭(zhēng)的關(guān)鍵。
頂象安全專家告訴「甲子光年」:“模型需要數(shù)據(jù)來(lái)訓(xùn)練。數(shù)據(jù)除了自己采集,就是爬蟲爬取。爬取的數(shù)據(jù)大部分沒有經(jīng)過(guò)數(shù)據(jù)所有者允許,可以說(shuō)大部分是非授權(quán)的盜用。”
2022年11月,OpenAI和GitHub一起推出的代碼助手Copilot就曾被程序員們告上法庭。原告?zhèn)冋J(rèn)為,Copilot在未獲得GitHub用戶授權(quán)的情況下,使用了公共存儲(chǔ)庫(kù)進(jìn)行訓(xùn)練。
在今年6月,OpenAI同樣因?yàn)槲唇?jīng)允許使用個(gè)人隱私數(shù)據(jù)收到了一份長(zhǎng)達(dá)157頁(yè)的訴訟書。
除了模型的訓(xùn)練階段,在模型的實(shí)際應(yīng)用階段中,個(gè)人隱私泄露的風(fēng)險(xiǎn)持續(xù)存在。
頂象安全專家告訴「甲子光年」,生成式AI不僅僅泄露人的隱私和秘密,甚至?xí)屓俗兊猛该鳌!熬透度w》中的智子一樣,提問(wèn)者說(shuō)的話會(huì)被記錄下來(lái),生產(chǎn)生活產(chǎn)生的數(shù)據(jù)信息會(huì)成為AIGC訓(xùn)練的素材。”
早在2020年,人們就發(fā)現(xiàn)OpenAI的GPT-2會(huì)透露訓(xùn)練數(shù)據(jù)中的個(gè)人信息。隨后的調(diào)查發(fā)現(xiàn),語(yǔ)言模型越大,隱私信息泄露的概率也越高。
今年3月,多名ChatGPT用戶在自己的歷史對(duì)話中看到了他人的對(duì)話記錄,包括用戶姓名、電子郵件地址、付款地址、信用卡號(hào)后四位以及信用卡有效期。
不到一個(gè)月之后,三星電子就因員工使用ChatGPT,被迫面臨三起數(shù)據(jù)泄露事故:其半導(dǎo)體設(shè)備測(cè)量、良品/缺陷率、內(nèi)部會(huì)議內(nèi)容等相關(guān)信息被上傳到了ChatGPT的服務(wù)器中。隨后,三星立即禁止員工在公司設(shè)備及內(nèi)網(wǎng)上使用類ChatGPT的聊天機(jī)器人,同樣禁用的公司還包括蘋果、亞馬遜、高盛等世界500強(qiáng)公司。
觀韜中茂律師事務(wù)所發(fā)布的《生成式AI發(fā)展與監(jiān)管白皮書(三)》解釋了大模型在應(yīng)用上的特殊性。大模型與人之間的交互,不同于一般應(yīng)用程序中填入式的收集個(gè)人信息方式,所以對(duì)于個(gè)人信息的披露也不同于往常意義上的“公開披露”,更類似于一種“被動(dòng)公開”,即當(dāng)某個(gè)用戶的真實(shí)個(gè)人信息被摘錄在語(yǔ)料庫(kù)后,之后任意用戶通過(guò)詢問(wèn)等方式均可以得知相關(guān)個(gè)人信息。
這意味著,在大模型時(shí)代,不僅個(gè)人信息泄露的范圍擴(kuò)大了,個(gè)人信息的采集過(guò)程也變得更為隱秘,難以辨認(rèn),而且一旦侵權(quán),就是對(duì)大量用戶造成的侵權(quán)。那么,泄露之后的個(gè)人信息去向了哪里?究竟會(huì)對(duì)用戶造成什么影響?
北京植德律師事務(wù)所合伙人王藝告訴了「甲子光年」答案。他表示,生成式AI造成的個(gè)人信息泄露,輕則可能侵害他人的肖像權(quán),為造謠者實(shí)施便利,重則可能被犯罪分子利用,實(shí)施犯罪。
頂象的安全專家也表示,在所有互聯(lián)網(wǎng)產(chǎn)品或軟件都有可能被植入AI元素的當(dāng)下,AI濫用帶來(lái)的社會(huì)問(wèn)題會(huì)越來(lái)越多。“造假會(huì)更簡(jiǎn)單,眼見不一定為實(shí),電信詐騙、網(wǎng)絡(luò)詐騙越來(lái)越復(fù)雜。”
2023年5月,安全技術(shù)公司邁克菲對(duì)來(lái)自七個(gè)國(guó)家的7054人進(jìn)行了調(diào)查,發(fā)現(xiàn)有四分之一的成年人經(jīng)歷過(guò)某種形式的AI語(yǔ)音詐騙(10%發(fā)生在自己身上,15%發(fā)生在他們認(rèn)識(shí)的人身上),10%的受害者因此造成經(jīng)濟(jì)損失。
「甲子光年」從慧科數(shù)據(jù)庫(kù)、公開報(bào)道中發(fā)現(xiàn),今年以來(lái)全國(guó)各地發(fā)現(xiàn)利用AI技術(shù)竊取個(gè)人隱私進(jìn)行詐騙的案例至少有14例。
其中,大多數(shù)案例通過(guò)視頻聊天與受害者進(jìn)行聯(lián)系,逼真的人臉和聲音容易讓人們放下警惕,冒充朋友、親人也迅速讓受害者交與信任。詐騙金額多在萬(wàn)元以上,最高被詐騙金額甚至高達(dá)430萬(wàn)元。
數(shù)據(jù)來(lái)源:慧科新聞數(shù)據(jù)庫(kù),綜合媒體報(bào)道
除此之外,通過(guò)“AI換臉”造成肖像權(quán)被侵犯的案件也屢見不鮮。王藝表示,雖然此類案件的數(shù)量在逐步上升,但由于隱蔽性強(qiáng),且是微型侵權(quán),很多案例都沒有走上法庭,即使進(jìn)行了法院審判,得到的賠償金額也并不高。
可以說(shuō),普通人在面對(duì)利用AI技術(shù)進(jìn)行的個(gè)人隱私侵權(quán)面前,其實(shí)并沒有太多的辦法。
2.嚴(yán)苛的立法態(tài)度不是監(jiān)管的唯一解法
技術(shù)發(fā)展與法律監(jiān)管總是并駕齊驅(qū)的。如果說(shuō)數(shù)據(jù)安全已經(jīng)成為人工智能時(shí)代的必答題,法律與監(jiān)管便是解答的關(guān)鍵。
今年4月,斯坦福大學(xué)以人為本人工智能研究所(Stanford HAI)發(fā)布了《2023年人工智能指數(shù)報(bào)告》(Artificial Intelligence Index Report 2023)報(bào)告。通過(guò)對(duì)127個(gè)國(guó)家的立法記錄調(diào)研,報(bào)告顯示,包含“人工智能”法案通過(guò)的數(shù)量,從2016年的1個(gè)增長(zhǎng)到2022年的37個(gè)。在對(duì)81個(gè)國(guó)家涉及人工智能的議會(huì)記錄進(jìn)行分析后,研究人員發(fā)現(xiàn)全球立法程序中提及人工智能的次數(shù)自2016年以來(lái)增加了近6.5倍。
區(qū)別于信息剽竊、隱私侵犯等“老生常談”的數(shù)據(jù)安全問(wèn)題,由于涉及到人與AI的交互,大模型時(shí)代數(shù)據(jù)安全面臨著更為迫切的難題——個(gè)人信息權(quán)利響應(yīng)難以落實(shí)。
如何精準(zhǔn)識(shí)別交互過(guò)程中收集的個(gè)人信息?如何劃清用戶服務(wù)與模型訓(xùn)練的使用界限?面對(duì)全新的數(shù)據(jù)安全、個(gè)人信息安全、網(wǎng)絡(luò)安全難題,大模型時(shí)代亟須新的監(jiān)管辦法出臺(tái)。
在監(jiān)管和發(fā)展平衡中,此次條例的修改不無(wú)道理。因?yàn)榱⒎ūO(jiān)管并非是一蹴而就的,過(guò)于嚴(yán)苛的立法態(tài)度可能會(huì)成為技術(shù)發(fā)展的掣肘。在歐洲,部分技術(shù)從業(yè)者就該問(wèn)題表達(dá)了擔(dān)憂。
ChatGPT推出后,歐洲國(guó)家對(duì)OpenAI的監(jiān)管逐步加緊。意大利宣布禁用ChatGPT后,出于數(shù)據(jù)保護(hù)的考慮,德國(guó)、法國(guó)、西班牙等國(guó)家也表示正在考慮對(duì)AI聊天機(jī)器人采取更嚴(yán)格的監(jiān)管。
6月14日,歐盟通過(guò)的《人工智能法案》最新草案,也貫徹了以往嚴(yán)苛的立法態(tài)度。法案對(duì)于“基礎(chǔ)模型”或經(jīng)過(guò)大量數(shù)據(jù)訓(xùn)練的強(qiáng)大AI系統(tǒng),明確規(guī)定了透明度和風(fēng)險(xiǎn)評(píng)估要求,包括在AI技術(shù)投入日常使用之前進(jìn)行風(fēng)險(xiǎn)評(píng)估等。
對(duì)風(fēng)險(xiǎn)的猜想是否高于實(shí)際?歐盟嚴(yán)苛的立法態(tài)度招致了歐洲風(fēng)投公司和科技公司的許多不滿。
6月30日,歐洲各地的主要科技公司創(chuàng)始人、首席執(zhí)行官、風(fēng)險(xiǎn)投資家等150家企業(yè)高管共同簽署了一封致歐盟委員會(huì)的公開信,警告歐盟法律草案中對(duì)人工智能的過(guò)度監(jiān)管。
“想要將生成式人工智能的監(jiān)管納入法律并以嚴(yán)格的合規(guī)邏輯進(jìn)行,這種方法是官僚主義的,因?yàn)樗鼰o(wú)法有效地實(shí)現(xiàn)其目的。在我們對(duì)真正的風(fēng)險(xiǎn)、商業(yè)模式或生成人工智能的應(yīng)用知之甚少的情況下,歐洲法律應(yīng)該僅限于以基于風(fēng)險(xiǎn)的方法闡述廣泛的原則。”公開信中指出,該立法草案將危及歐洲的競(jìng)爭(zhēng)力和技術(shù)主權(quán),而無(wú)法有效解決我們現(xiàn)在和未來(lái)可能要面臨的挑戰(zhàn)。
無(wú)獨(dú)有偶,日本一名官員此前也表示,日本更傾向于采用比歐盟更寬松的規(guī)則來(lái)管理AI,因?yàn)槿毡鞠M迷摷夹g(shù)促進(jìn)經(jīng)濟(jì)增長(zhǎng),并使其成為先進(jìn)芯片的領(lǐng)導(dǎo)者。
“一項(xiàng)新技術(shù)從研發(fā)到進(jìn)入市場(chǎng),再到融入社會(huì)生產(chǎn)、生活,產(chǎn)生風(fēng)險(xiǎn)是難以避免的,不能因?yàn)轱L(fēng)險(xiǎn)而放棄新技術(shù)的研發(fā)和應(yīng)用。理想目標(biāo)應(yīng)是把風(fēng)險(xiǎn)最小化,把技術(shù)獲利最大化。”頂象的安全專家告訴「甲子光年」。
上述受訪者繼續(xù)說(shuō)道,歐盟在規(guī)范AI問(wèn)題上下手早,但其過(guò)度監(jiān)管也限制了相關(guān)市場(chǎng)的發(fā)展,造成歐盟數(shù)字產(chǎn)業(yè)的發(fā)展速度落后于全球。在全球技術(shù)主權(quán)激烈競(jìng)爭(zhēng)的背景下,立法與監(jiān)管政策需要保持謹(jǐn)慎思考,在治理與發(fā)展之間做好平衡,在方便企業(yè)抵御AI倫理風(fēng)險(xiǎn)的同時(shí),為企業(yè)、行業(yè)以及相關(guān)產(chǎn)業(yè)提供充分的發(fā)展空間。
“不發(fā)展是最大的不安全。”嚴(yán)苛的立法態(tài)度不是監(jiān)管政策的唯一解法,企業(yè)和立法者也不應(yīng)該是矛盾雙方,而是謀求數(shù)據(jù)安全與技術(shù)發(fā)展的同路人。
以美國(guó)為例,谷歌、微軟、OpenAI等科技巨頭也在主動(dòng)構(gòu)建安全屏障。7月21日,谷歌、微軟、OpenAI、Meta在內(nèi)的7家AI公司參與白宮峰會(huì),并就AI技術(shù)和研發(fā)的安全、透明、風(fēng)險(xiǎn)等問(wèn)題作出“八大承諾”。7月26日,微軟、谷歌、OpenAI、Anthropic四家AI科技巨頭宣布成立行業(yè)組織——“前沿模型論壇”(Frontier Model Forum),來(lái)確保前沿AI開發(fā)的安全和負(fù)責(zé)。
面對(duì)尚未確定的技術(shù)生態(tài),技術(shù)開發(fā)者、服務(wù)提供者都面臨著潛在的合規(guī)風(fēng)險(xiǎn)。只有明確了合法獲取的路徑和規(guī)章底線,大模型訓(xùn)練者、服務(wù)提供者才能放下戒備,在更大的空間施展拳腳。
站在技術(shù)變革的十字路口,如何平衡好數(shù)據(jù)安全與技術(shù)發(fā)展的需求,制定出更為系統(tǒng)、更具針對(duì)性的監(jiān)管細(xì)則,也是對(duì)各國(guó)立法者的新考驗(yàn)。
3.在創(chuàng)新與安全之間,如何平衡?
“監(jiān)管,如果不向前邁進(jìn),就會(huì)面臨人工智能被濫用的風(fēng)險(xiǎn);如果倉(cāng)促行事,就有導(dǎo)致行業(yè)陷入困境的危機(jī)。”
7月25日,Anthropic聯(lián)合創(chuàng)始人兼CEO Dario Amodei、加州大學(xué)伯克利分校教授Stuart Russell和蒙特利爾大學(xué)教授Yoshua Bengio出席美國(guó)參議院司法委員會(huì)舉行的人工智能聽證會(huì)。在會(huì)議上,他們一致達(dá)成這樣的觀點(diǎn):AI需要監(jiān)管,但過(guò)猶不及。
面對(duì)大模型對(duì)隱私數(shù)據(jù)的挑戰(zhàn),在創(chuàng)新與安全的博弈之間,我們還有哪些解法?
加強(qiáng)數(shù)據(jù)安全保護(hù)可能是最容易想到的答案。360集團(tuán)首席安全官杜躍進(jìn)此前接受「甲子光年」采訪時(shí)曾表示:“數(shù)據(jù)安全不應(yīng)該關(guān)注采集了什么,而應(yīng)該關(guān)注采集的數(shù)據(jù)是怎么用的,怎么保護(hù)的。”
隱私計(jì)算成為近些年數(shù)據(jù)隱私保護(hù)的技術(shù)最優(yōu)解。與傳統(tǒng)的加密技術(shù)相比,隱私計(jì)算可以在不泄露原始數(shù)據(jù)的前提下對(duì)數(shù)據(jù)進(jìn)行分析計(jì)算,實(shí)現(xiàn)數(shù)據(jù)的共享、互通、計(jì)算和建模。
讓數(shù)據(jù)變得“可用不可見”,也就規(guī)避了個(gè)人數(shù)據(jù)泄露或不當(dāng)使用的風(fēng)險(xiǎn)。這項(xiàng)技術(shù)目前已經(jīng)在醫(yī)療、金融、政府等對(duì)數(shù)據(jù)高度敏感的領(lǐng)域內(nèi)相繼落地。
在大模型時(shí)代,隱私計(jì)算也同樣適用。中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所副主任閆樹在7月的兩次活動(dòng)上都表達(dá)了這樣的觀點(diǎn),隱私計(jì)算可以滿足大模型預(yù)測(cè)階段的隱私保護(hù)需求。
具體來(lái)說(shuō),隱私計(jì)算的不同路線,包括可信執(zhí)行環(huán)境(TEE) 、多方安全計(jì)算(MPC)等都可以與大模型進(jìn)行結(jié)合,“比如在云端部署TEE ,用戶在推理時(shí)將輸入數(shù)據(jù)加密傳輸至云端,在其內(nèi)部解密然后進(jìn)行推理;還有在模型推理階段使用多方安全計(jì)算來(lái)提升隱私保護(hù)能力”。但值得注意的是,隱私計(jì)算也不可避免會(huì)對(duì)模型訓(xùn)練和推理的性能造成影響。
除了加強(qiáng)數(shù)據(jù)安全保護(hù)之外,還有一種可以從數(shù)據(jù)源頭上解決隱私安全問(wèn)題的方法——合成數(shù)據(jù)。
合成數(shù)據(jù)指通過(guò)AI技術(shù)和算法模型,基于真實(shí)數(shù)據(jù)樣本生成虛擬數(shù)據(jù),因此也不存在用戶的個(gè)人隱私信息。
隨著大模型的火熱,合成數(shù)據(jù)也越來(lái)越受到關(guān)注,保護(hù)隱私就是合成數(shù)據(jù)研究背后強(qiáng)有力的驅(qū)動(dòng)力之一。
“合成數(shù)據(jù)解決了三個(gè)挑戰(zhàn)——質(zhì)量、數(shù)量和隱私。”合成數(shù)據(jù)平臺(tái)Synthesis AI的創(chuàng)始人兼CEO Yashar Behzadi接受科技媒體《VentureBeat》采訪時(shí)表示:“通過(guò)使用合成數(shù)據(jù),公司可以明確定義所需要的訓(xùn)練數(shù)據(jù)集,可以在最大程度上減少數(shù)據(jù)偏差并確保包容性,不會(huì)侵犯用戶的隱私。”
OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman同樣也看好合成數(shù)據(jù)。
根據(jù)英國(guó)《金融時(shí)報(bào)》報(bào)道,5月在倫敦舉行的一次活動(dòng)上,Sam Altman被問(wèn)及是否擔(dān)心監(jiān)管部門對(duì)ChatGPT潛在隱私侵犯的調(diào)查,他并沒有特別在意,而是認(rèn)為“非常有信心所有的數(shù)據(jù)很快會(huì)成為合成數(shù)據(jù)”。
在合成數(shù)據(jù)方面,微軟在今年更是動(dòng)作頻頻。5月,微軟在論文《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》中描述了一個(gè)由GPT-4生成的短篇小說(shuō)合成數(shù)據(jù)集TinyStories,其中只包含了四歲兒童可以理解的單詞,用它來(lái)訓(xùn)練簡(jiǎn)單的大語(yǔ)言模型,也能夠生成出流暢且語(yǔ)法正確的故事。
6月,微軟在發(fā)布的論文《Textbooks Are All You Need》中論證,AI可以使用合成的Python代碼進(jìn)行訓(xùn)練,并且這些代碼在編程任務(wù)上表現(xiàn)得相當(dāng)不錯(cuò)。
在AI的圈子內(nèi),通過(guò)合成數(shù)據(jù)進(jìn)行大模型的訓(xùn)練早已見怪不怪。全球IT研究與咨詢機(jī)構(gòu)Gartner預(yù)測(cè),2030年,合成數(shù)據(jù)的體量將遠(yuǎn)超真實(shí)數(shù)據(jù),成為AI研究的主要數(shù)據(jù)來(lái)源。
在技術(shù)之外,數(shù)據(jù)市場(chǎng)也在漸漸明朗。北京植德律師事務(wù)所合伙人王藝向「甲子光年」介紹,目前已經(jīng)有數(shù)據(jù)交易所建立了語(yǔ)料庫(kù)專區(qū),并為相關(guān)語(yǔ)料數(shù)據(jù)產(chǎn)品掛牌(包括文本、音頻、圖像等多模態(tài),覆蓋金融、交通運(yùn)輸和醫(yī)療等領(lǐng)域),方便技術(shù)提供者和服務(wù)提供者合作采購(gòu)。
在王藝看來(lái),大模型數(shù)據(jù)的合法合規(guī),需要生成式AI服務(wù)提供者首先做好數(shù)據(jù)分類分級(jí),區(qū)分不同數(shù)據(jù)類型,如個(gè)人數(shù)據(jù)、商業(yè)數(shù)據(jù)、重要數(shù)據(jù)等,并根據(jù)這些不同數(shù)據(jù)的使用方式,找到對(duì)應(yīng)的法律,分別開展數(shù)據(jù)來(lái)源合法性的審查工作。
而在監(jiān)管方面,為了平衡好數(shù)據(jù)安全和AI的發(fā)展,王藝表示,對(duì)AI的監(jiān)管需要有主次之分:重點(diǎn)在應(yīng)用層的監(jiān)管,尤其是內(nèi)容監(jiān)管和個(gè)人信息安全;其次是基礎(chǔ)層和模型層的監(jiān)管,對(duì)于相關(guān)深度合成算法要督促其及時(shí)完成備案;再次是要關(guān)注技術(shù)本身的主體是否涉及境外,可能會(huì)存在數(shù)據(jù)出境、出口管制等問(wèn)題。
每一次技術(shù)產(chǎn)生變革的時(shí)期,期待和恐懼總是如影隨形,發(fā)展和監(jiān)管的呼聲向來(lái)不相上下。
目前大模型的發(fā)展還在早期,應(yīng)用層的爆發(fā)尚未實(shí)現(xiàn),但AI不會(huì)停下腳步,如何把控前行的方向,如何平衡安全與創(chuàng)新,或許是AI發(fā)展歷程中持續(xù)伴隨的命題。
審核編輯:劉清
評(píng)論