互聯網的內容繁雜,一不小心就會看到一些“辣眼睛”的內容,比如裸女,這也是為什么我們需要審核人員的存在。當然,受益于 AI 技術的發展,現在很多審核工作已經自動化了。不過,僅僅識別出來還不夠,要是能為她們穿上衣服就更好了。
南大河州天主教大學(Pontifícia Universidade Católica do Rio Grande do Sul)是巴西南大河州的一所天主教私立大學,這里的研究人員為了不讓那些裸露的圖片污染大眾的眼睛煞費苦心,特意開發了一種技術,為裸女們自動“穿”上比基尼。當然,這也是為了她們好,畢竟裸照在網上流傳并不是一件好事。
下面,我們就為大家簡單介紹下這項工作。
▌摘要
我們可以將裸體和色情信息的審查工作視為二分類任務,分類的結果用于決定是否能夠完全忽略所訪問的內容。這樣的方法可能會損害用戶的體驗,因為無論是圖像還是視頻,最終都必須被移除或者阻斷。在本文中,我們提出了一種范式轉換來過濾掉圖像中的一些敏感區域,而不是檢測并移除識別的內容,并將其用于成人審查任務。為此,我們基于對抗訓練的方法開發了一種圖像翻譯技術,它能夠隱式地定位出圖像中的敏感區域,并在保留語義信息的同時覆蓋該區域。我們在裸體女性圖像上測試這種新穎的方法,我們的方法能夠為裸體自動進行生成比基尼并覆蓋敏感部位,而不需要額外標注身體部位的工作。
▌方法
我們將敏感內容區域 X 的圖像 x (包含女性裸體圖像) 翻譯到非敏感內容域 Y 的圖像 y (包含比基尼女性的圖像),這個過程我們在保留敏感區域語義信息的同時,用比基尼覆蓋了圖像中的敏感區域。此任務所需的數據很容易獲得,分別來自圖像 X 和 Y 域,且不需要特殊數據標注。我們使用的兩個域數據是從網上爬取的,包括裸體女性和穿比基尼女性的照片。我們對結果進行過濾,僅保留單個人出現的圖像并將該數據集進一步分為訓練和測試集。對于穿比基尼女性 (X),最終有 1044 張訓練圖像和 117 張測試圖像;而對于裸體女性 (Y),最終有 921 張訓練圖像和 103 張測試圖像。
我們提出的方法在圖像轉換過程無需數據配對,其模型結構如下圖 1 所示。該模型的關鍵思想在于利用對抗性訓練的方式來學習域之間的現實映射。具體來說,框架由兩個映射生成器組成,G:X → Y 和 F:Y → X 和兩個判別器 DX和DY 構成。其中 DX 用于區分真實圖像 {x} 和翻譯圖像 {F (y)} = {^x},而 DY 用于區分真實圖像 {y} 和翻譯的圖像 {G(x)} = {^y}。我們采用了 LSGANs 中的損失函數,它能夠更穩定的訓練以產生不錯的結果表現。為了很好地衡量跨領域圖像的相似度,我們還探索了 cycle-consistent 的性質并用于衡量圖像翻譯結果的質量。
我們的判別器采用標準的多層次卷積濾波結構。除了第一層和最后一層外,我們采用 Leaky ReLU 作為每層卷積的激活函數并進行實例正則化 (instance normalization, IN)。
對于生成器,我們測試了兩種流行的結構。首先我們測試了 9-Blocks ResNet 結構的生成器,這種結構由帶殘余連接的自編碼器構成,我們在每層的卷積后采用 ReLU 激活函數和 IN 正則化。此外,我們還采用了 U-Net 256 結構的生成器。U-Net 由一個帶殘余連接的自動編碼器構成,它能夠在相同的空間維度上進行殘余操作。同樣地,我們也采用 IN 正則化,并對編碼器采用 Leaky ReLU 激活函數,而解碼器采用 ReLU 激活函數。
▌實驗結果
我們模型的訓練分辨率為 256×256 像素。生成器和判別器都同時采用梯度下降法進行訓練,每個訓練步驟分別更新 DY,DX,以及 G 和 F 的權重。我們使用 Adam 優化器,學習率為0.0002,β1 = 0.5,β2 = 0.99,并將 cycle consistent 項的權重值設為10。我們的網絡以批次 1 重復訓練 400 步,學習率隨著訓練的進行而線性衰減。此外,每 100 秒我們將翻譯的圖像進行可視化以查看實驗結果。
原始數據集的結果
下圖 2 展示了我們的方法在原始數據集中的結果。可以看到,與 U-Net 方法 (第三排) 相比,采用 ResNet 作為生成器結構 (第二排) 時始終能夠產生更好的結果。
圖2:在原始數據集上的訓練結果。頂行:真實圖像 (手動刪除以保護讀者)。中間行:使用 9-Blocks esNet 結構的生成器結果。底行:使用 U-Net 256 結構的生成器結果 (產生模糊、令人不滿意的結果)。
移除背景后的結果
下圖3顯示了我們的方法在無背景數據集上的結果。可以看到,這些結果比圖2原始數據集中的結果更加一致。基于 ResNet 結構的模型表現更優于 U-Net 結構,它能夠通過生成敏感性的圖像組件來正確覆蓋真實的比基尼區域。 此外,ResNet 結構模型生成的圖像失真度更低。
圖3:在無背景數據集上的結果。頂行:真實圖像 (手動刪除以保護讀者)。間行:使用9-Blocks esNet 結構的生成器結果。底行:使用 U-Net 256 結構的生成器結果 (產生模糊、令人不滿意的結果)。
▌魯棒性結果分析
圖5:魯棒性分析。左:真實圖像;右:由生成器 F 創建的最小修改圖。
▌結論
本文我們提出了一種基于對抗訓練的圖像翻譯技術,用于隱式地定位裸體圖像中的敏感區域并在保留其語義信息的同時覆蓋該區域。我們的方法不需要訓練樣本的配對工作,在實驗驗證過程中產生令人印象深刻而又高度逼真的結果,為解決裸體圖像審查任務提供了一種新方法。對于未來的工作,我們打算分析影響生成圖像質量的不同模型架構和損失函數,并將我們的方法嵌入到瀏覽器應用程序中以保護公眾,避免看到那些不受歡迎的內容。
-
編碼器
+關注
關注
45文章
3775瀏覽量
137186 -
圖像
+關注
關注
2文章
1092瀏覽量
41034 -
ai技術
+關注
關注
1文章
1307瀏覽量
25006
原文標題:用AI給裸女自動“穿”上比基尼,媽媽再也不擔心我“辣眼睛”了
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
一種基于機器學習的建筑物分割掩模自動正則化和多邊形化方法
探索一種降低ViT模型訓練成本的方法
Python和Keras在訓練期間如何將高斯噪聲添加到輸入數據中呢?
網絡對抗訓練模擬系統的設計與實現
讓AI為裸照“穿上”比基尼泳裝
一種基于改進的DCGAN生成SAR圖像的方法

評論