盡管人工智能(AI)技術(shù)領(lǐng)域在最近取得了進(jìn)步,但它依然在大多數(shù)基本應(yīng)用上暴露出很多問(wèn)題。
在一項(xiàng)新的研究中,科學(xué)家們對(duì)四個(gè)頂級(jí)人工智能系統(tǒng)的仇恨言論檢測(cè)能力進(jìn)行了測(cè)試,他們發(fā)現(xiàn)所有系統(tǒng)在識(shí)別惡意、以及無(wú)害言論上都存在著不同程度的問(wèn)題。
這一結(jié)果并不令人吃驚,因?yàn)闃?gòu)建可以理解自然語(yǔ)言細(xì)微差異的人工智能是一件非常困難的工作。然而,研究人員們?cè)\斷問(wèn)題的方式卻是非常重要的。
為了更加精確地找出系統(tǒng)故障的原因,研究人們針對(duì)仇恨言論的方方面面制定了 29 種不同的測(cè)試,這會(huì)讓我們更容易地去了解克服系統(tǒng)缺陷的方法。同時(shí),這些測(cè)試也正在幫助一項(xiàng)商業(yè)服務(wù)提升其人工智能的性能。
由牛津大學(xué)以及阿蘭?圖靈研究所科學(xué)家所領(lǐng)銜的論文作者們,對(duì) 16 家監(jiān)管網(wǎng)絡(luò)仇恨言論的非營(yíng)利組織的雇員進(jìn)行了采訪。
研究團(tuán)隊(duì)利用這些采訪將仇恨言論劃分為了 18 個(gè)不同的種類,僅側(cè)重于英語(yǔ)以及基于文本的仇恨言論,其中包括貶損用語(yǔ)、詆毀性文字以及威脅性詞匯。
他們還發(fā)現(xiàn)了 11 種經(jīng)常讓人工智能監(jiān)管者產(chǎn)生誤判的不含仇恨情緒的情形,其中包括在不冒犯他人的情況下使用臟話、被目標(biāo)群體所接納的詆毀性詞語(yǔ),以及引用原始仇恨言論對(duì)仇恨言論進(jìn)行譴責(zé)的行為(也被稱為反面論證)。
研究人員針對(duì) 29 種不同情況中的每一種編寫(xiě)了數(shù)十個(gè)范例,并且使用了像 “我討厭【某人】” 以及 “對(duì)我來(lái)說(shuō),你就是個(gè)【詆毀性詞語(yǔ)】” 這樣的 “模板” 語(yǔ)句,從而為七個(gè)受保護(hù)的群體生成相同的范例集合 —— 這些人都受美國(guó)法律的保護(hù)而不會(huì)遭到歧視。研究人員對(duì)被稱作 HateCheck 的最終數(shù)據(jù)集進(jìn)行了開(kāi)源處理,該數(shù)據(jù)集中共含有近 4000 個(gè)范例。
之后,研究人員又對(duì)兩項(xiàng)受歡迎的商業(yè)服務(wù)進(jìn)行了測(cè)試:谷歌和 Jigsaw 的 Perspective AI、以及 Two Hat 的 SiftNinja。這兩個(gè)服務(wù)都允許客戶標(biāo)記出帖子以及評(píng)論中帶有仇恨色彩的內(nèi)容。
Perspective 的用戶包括 Reddit 以及像《紐約時(shí)報(bào)》、《華爾街日?qǐng)?bào)》這樣的新聞機(jī)構(gòu),根據(jù)其所處理的有害信息,人工智能服務(wù)會(huì)對(duì)帖子以及評(píng)論進(jìn)行標(biāo)記,以供人工審查使用。
SiftNinja 的檢測(cè)標(biāo)準(zhǔn)過(guò)于寬松,進(jìn)而沒(méi)有識(shí)別出幾乎所有的變化,而 Perspective 的標(biāo)準(zhǔn)則過(guò)于嚴(yán)格。它檢測(cè)出了 18 個(gè)仇恨種類中的大部分,但同時(shí)也標(biāo)記出了許多像被接納的詆毀性詞語(yǔ)以及反面論證這樣的不含仇恨情緒的情況。
研究人員在測(cè)試谷歌的兩個(gè)學(xué)術(shù)模型時(shí)也發(fā)現(xiàn)了相同的模式,這些模型代表了業(yè)界中頂級(jí)的語(yǔ)言人工智能技術(shù),它們同時(shí)也是其它商業(yè)性內(nèi)容審核系統(tǒng)的基礎(chǔ)。學(xué)術(shù)模型還顯示出,受保護(hù)群體之間的表現(xiàn)并不相同 —— 有些群體的仇恨程度比其它群體更容易被錯(cuò)誤歸類。
測(cè)試結(jié)果指明了當(dāng)今人工智能仇恨言論檢測(cè)方面最具挑戰(zhàn)性的一個(gè)方面:審核太少,沒(méi)法解決問(wèn)題;而審核太多,就會(huì)刪除掉邊緣化群體用來(lái)強(qiáng)調(diào)和保護(hù)自己的話語(yǔ)。
牛津大學(xué)互聯(lián)網(wǎng)研究院的博士候選人保羅·羅特格(Paul R?ttger)是本篇論文的共同作者。羅特格表示,“突然之間,你就會(huì)成為那些在仇恨言論中首當(dāng)其沖的群體的懲罰者。”
Jigsaw 的首席軟件工程師露西·瓦瑟曼(Lucy Vasserman)表示,Perspective 利用人工審查來(lái)進(jìn)行最終決策,進(jìn)而克服了這些局限性。但是,這種方法無(wú)法擴(kuò)展至更加龐大的平臺(tái)上。當(dāng)前,Jigsaw 正在開(kāi)發(fā)一種基于 Perspective 的不確定性的,同時(shí)可以對(duì)帖子及評(píng)論變更優(yōu)先順序的系統(tǒng)。該系統(tǒng)可以自動(dòng)移除帶有仇恨色彩的內(nèi)容,并將邊緣信息標(biāo)記出來(lái)。
瓦瑟曼說(shuō)道,新研究最令人激動(dòng)的地方在于,它為這種頂尖技術(shù)提供了一種細(xì)致的評(píng)估方式。她還表示,“論文中強(qiáng)調(diào)了的許多東西,例如對(duì)那些模型來(lái)說(shuō)是一個(gè)挑戰(zhàn)的被人們所接納的詆毀性詞語(yǔ)。我們?cè)缇驼J(rèn)識(shí)到了它們的存在,但卻一直很難對(duì)其進(jìn)行量化處理。” 目前,Jigsaw 正在使用 HateCheck 來(lái)更好地了解自身模型間的差異,以及需要繼續(xù)改進(jìn)的地方。
學(xué)術(shù)界也對(duì)此次研究的成果感到興奮。華盛頓大學(xué)語(yǔ)言人工智能研究員馬丁·薩普(Maarten Sap)表示,“這篇論文為我們?cè)u(píng)估行業(yè)中的系統(tǒng)提供了一個(gè)優(yōu)良且干凈的資源,它會(huì)讓企業(yè)和用戶不斷地去提升自己的系統(tǒng)。”
羅格斯大學(xué)社會(huì)學(xué)助理教授托馬斯?戴維森托馬斯·戴維森(Thomas Davidson)對(duì)此表示認(rèn)同。戴維森表示,語(yǔ)言模型的局限性以及雜亂無(wú)章的語(yǔ)言現(xiàn)象意味著,人們總會(huì)在識(shí)別仇恨言論的過(guò)程中對(duì)過(guò)松或過(guò)緊的問(wèn)題進(jìn)行取舍。他還說(shuō)道,“HateCheck 數(shù)據(jù)集讓這些取舍變得可視化了。”
-End-
原文:
https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/
編輯:jq
-
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
108096 -
人工智能
+關(guān)注
關(guān)注
1806文章
49000瀏覽量
249250
原文標(biāo)題:測(cè)試四個(gè)頂級(jí)系統(tǒng),科學(xué)家發(fā)現(xiàn)AI的仇恨言論審核能力依然很差
文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
開(kāi)售RK3576 高性能人工智能主板
2025年人工智能在工程領(lǐng)域的應(yīng)用趨勢(shì)
Banana Pi 攜手 ArmSoM 推出人工智能加速 RK3576 CM5 計(jì)算模塊
什么是嵌入式人工智能

評(píng)論