海量數(shù)據(jù)的收集使得新舊企業(yè)能夠利用機(jī)器學(xué)習(xí)技術(shù)開(kāi)發(fā)新產(chǎn)品并革新舊產(chǎn)品。近年來(lái),數(shù)據(jù)質(zhì)量因直接影響了人工智能系統(tǒng)的性能和魯棒性而備受關(guān)注。然而,這對(duì)通常通過(guò)破壞像素信息(如模糊化、馬賽克等)來(lái)實(shí)現(xiàn)匿名化的方法提出了挑戰(zhàn),這些方法導(dǎo)致合規(guī)性與數(shù)據(jù)質(zhì)量之間難以兼得。
我們探索了一種不是簡(jiǎn)單移除像素信息,而是對(duì)其進(jìn)行自然替換的深度自然匿名化(Deep Natural Anonymization,DNAT)方法,致力于提高匿名化數(shù)據(jù)價(jià)值,助力企業(yè)開(kāi)發(fā)創(chuàng)新。
一、匿名化數(shù)據(jù)的傳統(tǒng)矛盾
DNAT能夠檢測(cè)人臉、車(chē)牌等可識(shí)別信息,并為每個(gè)對(duì)象生成人工替換。每個(gè)替換都盡可能匹配源對(duì)象的屬性,但這種匹配是有選擇性的,我們可以靈活控制保留哪些屬性。
例如,對(duì)于人臉,保留性別和年齡等屬性可能對(duì)后續(xù)分析至關(guān)重要。對(duì)于可識(shí)別信息以外的內(nèi)容,不包含敏感個(gè)人數(shù)據(jù)的信息則保留不做修改。通過(guò)這種方式,DNAT成功打破了數(shù)據(jù)消除與匿名化之間的傳統(tǒng)矛盾。

為了衡量匿名化方法對(duì)數(shù)據(jù)質(zhì)量的影響,我們從Labeled Face in the Wild(LFW)數(shù)據(jù)集中采樣了圖像。所有圖像均取自測(cè)試集。我們比較了代表匿名化技術(shù)的四種不同的匿名化工具,圖1顯示了這些示例的一部分。
二、匿名化的結(jié)構(gòu)一致性
首先,我們分析了圖像在匿名化處理后的整體結(jié)構(gòu)變化。為此,我們仔細(xì)研究了圖像分割結(jié)果。圖像分割是將圖像的像素劃分為多個(gè)片段的過(guò)程,每個(gè)片段代表一個(gè)對(duì)象類(lèi)別。在我們的示例中,最重要的對(duì)象是個(gè)人資料圖片中的人物和背景。
圖2和圖3展示了LFW數(shù)據(jù)集中兩位名人的分割圖。這些分割圖是由語(yǔ)義分割模型DeepLabv3+生成的,采用了官方TensorFlow存儲(chǔ)庫(kù)中的實(shí)現(xiàn)和模型權(quán)重。


從圖2和圖3中可以看出,傳統(tǒng)匿名化方法的分割圖明顯退化,其中一些甚至完全錯(cuò)誤。然而,深度自然匿名化(DNAT)保留了語(yǔ)義分割。分割圖與原始圖像幾乎完全相同。從圖3中可以看出,經(jīng)過(guò)傳統(tǒng)匿名化方法處理的人臉圖像不僅產(chǎn)生了較差的分割邊界,還使分割模型推斷出原始圖像中從未出現(xiàn)的新對(duì)象類(lèi)別,如貓、狗或瓶子。
為了量化每種匿名化技術(shù)的影響,我們計(jì)算了整個(gè)測(cè)試集的平均交并比(mIOU)。計(jì)算是在不同方法生成的圖像分割圖與原始圖像分割圖之間進(jìn)行的。結(jié)果如表1所示。

三、匿名化的內(nèi)容一致性
為了評(píng)估匿名化圖像與原始圖像之間的整體內(nèi)容一致性,我們使用了Clarifai的獨(dú)立圖像標(biāo)注模型。“通用圖像標(biāo)注模型能夠識(shí)別超過(guò)11,000種不同的概念,包括對(duì)象、主題、情緒等。”這些標(biāo)簽描述了模型從輸入圖像中推斷出的內(nèi)容。
此外,模型還為每個(gè)標(biāo)簽提供了置信度。圖4展示了Clarifai公共圖像標(biāo)注模型對(duì)原始圖像及其DNAT版本預(yù)測(cè)的前5個(gè)概念。

理想情況下,通用圖像標(biāo)注模型應(yīng)該為原始圖像和匿名化圖像預(yù)測(cè)完全相同的概念。為了衡量一致性,我們使用Clarifai為每種匿名化技術(shù)的所有測(cè)試樣本預(yù)測(cè)概念。然后,我們計(jì)算了匿名化圖像與原始圖像之間前N個(gè)預(yù)測(cè)概念的平均精度(mAP)(其中N代表不同概念的數(shù)量)。
通過(guò)mAP,我們?cè)u(píng)估了兩點(diǎn):預(yù)測(cè)概念的一致性及其相關(guān)分?jǐn)?shù)。例如,考慮一個(gè)匿名化圖像及其原始圖像對(duì),經(jīng)過(guò)圖像標(biāo)注模型處理后,如果某個(gè)概念在匿名化圖像中的置信度值低于其在原始圖像中的置信度值,則對(duì)最終mAP分?jǐn)?shù)的影響較小;而如果某個(gè)概念僅出現(xiàn)在匿名化圖像中,而未出現(xiàn)在其原始圖像中,則影響較大。
前5和前50個(gè)概念的結(jié)果如表2所示。

四、總結(jié)
本文探討了如何通過(guò)深度自然匿名化(DNAT)技術(shù)提升匿名化數(shù)據(jù)的價(jià)值,打破了傳統(tǒng)匿名化方法在合規(guī)性與數(shù)據(jù)質(zhì)量之間的固有權(quán)衡。DNAT通過(guò)生成自然替換而非破壞像素信息,不僅有效保護(hù)了個(gè)人隱私,還最大限度地保留了數(shù)據(jù)的分析價(jià)值。
實(shí)驗(yàn)表明,DNAT在圖像分割和內(nèi)容一致性方面顯著優(yōu)于傳統(tǒng)匿名化方法,能夠更好地支持后續(xù)的AI分析和應(yīng)用。
-
汽車(chē)電子
+關(guān)注
關(guān)注
3035文章
8266瀏覽量
169653 -
圖像處理
+關(guān)注
關(guān)注
27文章
1325瀏覽量
57764 -
圖像識(shí)別
+關(guān)注
關(guān)注
9文章
526瀏覽量
38929 -
人工智能
+關(guān)注
關(guān)注
1804文章
48788瀏覽量
246917 -
數(shù)據(jù)處理
+關(guān)注
關(guān)注
0文章
626瀏覽量
29056
發(fā)布評(píng)論請(qǐng)先 登錄
云翎智能全國(guó)產(chǎn)化執(zhí)法記錄儀核心技術(shù)突破:自主可控新標(biāo)桿

CodeForge編碼熔爐:重塑數(shù)據(jù)DNA,解鎖信息宇宙新維度
康謀分享 | 3DGS:革新自動(dòng)駕駛仿真場(chǎng)景重建的關(guān)鍵技術(shù)

康謀方案 | 基于AI自適應(yīng)迭代的邊緣場(chǎng)景探索方案

康謀與C2A Security達(dá)成戰(zhàn)略合作

康謀方案 | 本地匿名化解決方案:隱私保護(hù)、自主掌控和高效運(yùn)行!

解鎖Chiplet潛力:封裝技術(shù)是關(guān)鍵

康謀與Anyverse建立合作伙伴關(guān)系
直流變頻焊接控制器:先進(jìn)技術(shù)在焊接領(lǐng)域的革新應(yīng)用探索
康謀分享 | 數(shù)據(jù)隱私和匿名化:PIPL與GDPR下,如何確保數(shù)據(jù)合規(guī)?(二)

康謀技術(shù) | 毫米波雷達(dá)技術(shù)解析

康謀分享 | 數(shù)據(jù)隱私和匿名化:PIPL與GDPR下,如何確保數(shù)據(jù)合規(guī)?(一)

康謀分享 | 直面AD/ADAS快速開(kāi)發(fā)挑戰(zhàn):IVEX自動(dòng)駕駛場(chǎng)景管理及分析平臺(tái)!

康謀分享 | 汽車(chē)仿真與AI的結(jié)合應(yīng)用

康謀新聞 | 康謀與IVEX正式建立合作伙伴關(guān)系

評(píng)論