隨著類ChatGPT人工智能技術的快速發展,大模型作為重要的技術方向已經在許多領域取得了顯著的進展,如自然語言處理、搜索引擎、圖像識別和智能辦公軟件等。然而,由此帶來的數據安全問題也越來越受到關注,包括隱私保護、數據合規和模型評估等,這些問題已成為大模型進一步發展的關鍵問題之一。為了解決這些問題,各國正在積極研究和探索適用于人工智能大模型的數據安全保護技術和政策。
一、類ChatGPT人工智能數據安全背景
隨著人工智能的快速發展,大模型作為人工智能技術的重要發展方向,已經在許多領域取得了顯著的進展,如自然語言處理、搜索引擎、圖像識別和智能辦公軟件等。其中,由深度學習驅動的大型語言模型(Large Language Model,LLM),如ChatGPT、PaLM等,正憑借其強大的自然語言處理能力和廣泛的應用前景成為人工智能領域的研究熱點和產業焦點。
然而,隨著人工智能大模型(如ChatGPT)的廣泛應用,社會各界正面臨諸多與數據安全治理相關的挑戰。首先,大模型的訓練通常需要大量的數據,包括來自互聯網的海量文本數據,這將會涉及到對數據的搜集、存儲、傳輸和處理,這個過程會面臨隱私、安全和產權等方面的風險。其次,大模型本身具有巨大的參數規模和復雜的計算邏輯,可能會導致對模型的訪問、使用和控制變得困難,從而增加數據安全治理的難度。此外,大模型在應用中還會面臨潛在的模型濫用、黑客攻擊和數據泄露等安全威脅,對數據安全形成了新的挑戰。
二、類ChatGPT人工智能數據安全問題
當下,類ChatGPT人工智能大模型在各領域融合發展方興未艾,這些大模型具有高度的復雜性和跨領域的知識儲備,能夠幫助我們從海量的數據中挖掘出更加深層的信息和知識,但同時也帶來了數據安全問題。
(一)隱私數據保護問題。隨著人工智能大模型的出現和應用,隱私數據保護問題正變得更加復雜和緊迫。大模型使用的海量訓練數據通常來自于維基百科(Wikipedia)、書籍、期刊和社交媒體等互聯網公開數據。若某些訓練數據未取得授權,則會產生數據隱私保護和數據合規方面的問題,如Twitter首席執行官馬斯克就曾指責微軟非法使用Twitter數據進行人工智能訓練,并稱會起訴微軟。此外,目前用戶與基于人工智能大模型的對話機器人(如ChatGPT、Bard等)交互的私密數據也會被人工智能公司用于訓練,比如對話式人工智能大模型在訓練過程中使用的基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)算法,就會將用戶的反饋用于優化模型參數,以增強模型和人類的對齊,提高對話機器人的性能,而且在訓練后的模型中很難刪除相關信息。如果這些數據沒有得到充分的保護,就可能被不法分子獲取,導致隱私數據泄露的風險增加。
(二)數據跨境合規問題。以ChatGPT為代表的人工智能大模型正顯現出與各行業融合發展的趨勢,其中涉及的數據類型和來源也在不斷增加,這些數據的處理和傳輸將涉及到跨境數據流動,從而引發了數據跨境合規問題。根據ChatGPT的運作原理,用戶在對話框進行交互,相關問答數據將會傳輸到位于美國的OpenAI公司,在這樣一個過程中,數據的跨境流動都會引發數據跨境合規問題。另外,美國OpenAI公司還推出ChatGPT應用程序編程接口(API),可供第三方開發者將ChatGPT模型集成到他們的應用程序和產品中。目前已有多家公司表示計劃用ChatGPT技術全面改革其整個產品陣容,比如美國微軟公司已將ChatGPT技術擴展到Bing搜索和Power Platform以改善相關產品的性能,而這將會導致用戶數據的跨境流動更加頻繁,并增加數據合規監管的難度。
(三)黑箱模型的可解釋性問題。人工智能大模型通常采用深度學習和其他機器學習技術進行訓練和推理,內部存儲了千萬億的模型參數,因此,大模型內部的工作方式和決策過程非常復雜,缺乏可解釋性和透明度,具有這類特征的模型被稱為黑箱模型(Black Box),同時,這類模型也給數據安全治理帶來了挑戰。監管機構往往難以理解和評估這類模型的內部運作機制,從而難以制定合適的監管政策和標準。例如,歐盟《通用數據保護條例》(GDPR)中規定數據所有人有權要求數據持有人和處理人刪除與其相關的個人數據,但針對人工智能大模型存儲信息的形式,企業很難像檢索數據庫一樣定位相關信息,簡單進行個人信息的刪除是很難實現的。另外,黑箱模型還會增加識別其內部潛在數據安全漏洞的難度,如果黑箱模型出現錯誤或被惡意攻擊,很難被發現和處理,從而影響數據安全。
(四)模型數據安全評估問題。人工智能大模型算法具有復雜的結構設計,在運作機制上容易存在缺陷和漏洞,因此,如何科學合理對模型數據安全進行評估是當前的一項嚴峻挑戰。模型數據安全風險主要表現在以下方面:1.模型數據安全:在人工智能模型的開發過程中,需要對模型進行模型數據安全機制評估,以確保模型的數據安全性,如數據隱私保護、數據完整性保護、數據可用性保護等;2.模型數據攻擊:人工智能大模型可能存在被用于攻擊的漏洞,例如對抗性攻擊,黑客或者惡意用戶可以通過篡改模型輸入數據來欺騙模型輸出其他人或者機構的隱私信息;3.模型生成數據不可控:生成式人工智能大模型的復雜性和不確定性,可能會使其生成意想不到的結果,如虛假信息等。
三、類ChatGPT人工智能數據安全對策
類ChatGPT人工智能大模型在各行各業正加速滲透,逐漸演變為當今社會中不可或缺的一部分,大模型的數據安全問題也日益凸顯。因此,為確保人工智能大模型數據的安全性,需要采取多層次、多維度的技術手段和法律監管措施。
(一)政策層面
1.設立人工智能專門戰略機構
人工智能技術本身具有特殊性和復雜性,影響范圍廣,監管難度大,其應用和發展也面臨著諸多挑戰和風險。因此,設立專門的人工智能戰略機構是必要的。例如,日本政府計劃設立新的“戰略會議”,負責討論與人工智能相關的國家戰略。對于正在迅速普及的聊天機器人ChatGPT等整個人工智能領域,該戰略會議將發揮指揮塔作用,指明政策的基本方向。針對人工智能方面課題,該會議將從促進應用、研究開發和強化規則兩方面進行討論。該戰略會議除了包含精通人工智能技術的學者和研究人員外,還有法律相關領域的專家和政府相關人士加入。
2.明確人工智能大模型應用中責任權利的法律歸屬
在人工智能大模型應用中,責任權利歸屬是一個復雜的問題。該問題涉及多個方面,包括數據提供者、算法設計者、模型訓練者和模型使用者等。目前,國內外學者主要探討兩個方面:一是如何確定人工智能大模型應用中的責任歸屬;二是如何建立人工智能大模型應用中的責任分配機制。歐盟在該領域進行了部分探索,例如,歐洲議會成員已經就《人工智能法》(The AI Act)提案達成臨時政治協議,要求部署ChatGPT等生成式人工智能工具的公司披露用于開發其系統的受版權保護的材料。
3.完善人工智能大模型產品的相關立法
為應對人工智能技術所帶來的一系列倫理、法律和社會問題,如數據安全、隱私保護、算法透明、責任歸屬、公平公正等,我國有必要制定一套符合人工智能技術特點的監管法律法規,以確保我國人工智能技術在競爭性和安全性上保持平衡。
(二)技術層面
1.數據加密和脫敏
數據加密技術可以將數據轉換為一種難以被未經授權者讀取的形式,從而保障人工智能大模型數據交互的安全性。這種技術在數據傳輸和存儲過程中,能夠對數據進行加密,有效防止隱私和敏感數據被未經授權的人員訪問和竊取,從而保護個人隱私和商業機密信息。此外,數據脫敏技術也是保護數據隱私的重要手段,它可以通過加密、替換、刪除等處理來保護敏感數據的隱私。對于人工智能大模型來說,數據脫敏技術可以在數據預處理過程中對數據進行脫敏處理,如匿名化處理、數據屏蔽處理和數據差分隱私等,以保證數據的隱私性。
2.訪問控制
訪問控制是一種常見的數據安全保護技術,其通過限制對數據的訪問,以確保數據的機密性和完整性。在人工智能大模型中,訪問控制技術的應用可以有效防止數據的非法訪問、篡改和泄露,從而保障人工智能大模型的數據安全。例如,OpenAI采用了多種訪問控制技術來保護其人工智能大模型GPT-3的安全,其中包括身份驗證、授權和審計等措施。這些措施可以確保只有經過授權的用戶才能夠訪問和使用GPT-3數據,有效地保護了用戶的隱私信息。
3.模型物理隔離
模型物理隔離是一種有效的數據安全保護措施,可以有效地防止黑客攻擊和數據泄露。例如,美國微軟公司計劃推出一款私有ChatGPT版本,該版本ChatGPT將在專用云服務器上運行,以保護用戶隱私安全。私有ChatGPT數據將與主系統隔離,可確保隱私安全,這將適用于醫療、保險和銀行等行業。
審核編輯:劉清
-
人工智能
+關注
關注
1796文章
47785瀏覽量
240542 -
數據安全
+關注
關注
2文章
686瀏覽量
30022 -
ChatGPT
+關注
關注
29文章
1570瀏覽量
8107 -
大模型
+關注
關注
2文章
2598瀏覽量
3211 -
LLM
+關注
關注
0文章
301瀏覽量
411
原文標題:淺析類ChatGPT人工智能引發的數據安全問題
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論