了解如何在訓練您的 AI 驅動系統時避免數據集、關聯、自動化和其他類型的偏見。
科技行業對人工智能的使用越來越興奮,因為它開辟了新的引人入勝的體驗,并為企業家和最終用戶帶來了前所未有的效率。但是,如果您決定加入 AI 的競爭,請準備好順其自然,因為除了帶來紅利之外,人工智能也往往會掀起波瀾——偏見是最煩人的失誤。
要成功構建公正的 AI 解決方案,您應該了解何時以及為何會出現偏見。在此功能中,我們將充實 AI 偏見的五個核心類別,對其進行分析將幫助您準備最佳數據集以訓練您的潛在系統。
數據集偏差
傳統觀念認為,用于訓練 AI 的數據越多,交付的解決方案就越公正。但實際上,重要的是多樣性,而不是數量。算法本身可能沒有偏差,如果您的數據過于同質,它可能會導致 AI 誤入歧途:您的系統將從有缺陷的示例集中學習并輸出有偏差的結果。
也就是說,沒有提供不同種族和膚色的多樣化數據的計算機視覺解決方案可能無法識別非裔美國人或亞洲人,從而導致無數客戶不滿意。
這正是尼康的 Coolpix S630 所發生的事情。每次數碼相機拍下微笑的亞洲用戶時,都會彈出一條屏幕消息,詢問“有人眨眼了嗎?” 只有當人們不自然地睜大眼睛擺姿勢時,通知才會停止出現。這種情況導致客戶以推特帖子的形式提出投訴,并進一步負面媒體報道。
如果您不想重復尼康的故事并被指責創建“種族主義”面部識別系統,請使用大規模、多樣化的數據集來訓練您的算法。
關聯偏差
您應該注意的另一種偏差是關聯偏差,當用于訓練算法的數據被關于性別、種族等的刻板印象強化時,可能會出現關聯偏差。
也就是說,用于預測犯罪的人工智能軟件可能會導致不公平地針對少數族裔高度集中的社區。問題在于該系統更多地考慮了警方以前的記錄,而不是該地區的實際犯罪率。考慮到警察傾向于在特定社區巡邏并專注于某些種族群體,他們的記錄可能會過度代表這些群體和社區。
數據輸入的偏差也可能是社區驅動的,因為警察數據庫中的許多犯罪都是由公民報告的。
關聯偏見的另一個例子是谷歌在 2015 年對“CEO”一詞的搜索結果。根據 The Verge的數據,結果中顯示的圖像中只有 11% 描繪了女性——相比之下,真正的 27% 的女性 CEO美國。
為避免您的 AI 被有偏見的關聯驅動,請為其提供非同質數據,并利用領域專家關于歷史不平等以及文化和社會關注領域的知識。
自動化偏差
人工智能的另一個問題是它可能會做出自動決策,推翻人類的社會、文化和其他考慮。這通常發生在自動輔助工具上,例如進行無關的自動更正的拼寫檢查程序、傾向于男性化的機器翻譯或“白色”表情符號自動提示。
自動化偏差 (AB) 的另一個例子是自動化電子處方的臨床決策支持 (CDS) 系統,即定義藥物-藥物相互作用并排除不良事件。當臨床醫生過度依賴 CDS,降低數據收集和分析的警惕性時,就會出現問題。
正如NCBI 進行的一項研究指出的那樣,“AB 遺漏錯誤,用戶沒有注意到問題,因為他們沒有收到 CDS 的警告,而傭金錯誤,用戶會遵守不正確的建議。”
AB 也經常出現在高科技駕駛艙的決策支持工具中,用于計算節油路線并診斷系統故障和異常。盡管這些自動輔助設備旨在提高飛行員的表現,但一些事后分析揭示了在航空中使用此類先進系統的問題,特別是模式誤解和錯誤、飛行員對輔助設備在做什么的困惑,以及難以跟蹤飛行表現。決策支持工具。
最重要的是,據報道,自動提示降低了飛行員以認知、復雜的方式尋求額外診斷信息和處理可用數據的可能性。
為避免可能出現的錯誤和伴隨的不良事件,人工智能專家應擴大用于其自動化解決方案的信息抽樣范圍,決策者應顯著減少此類工具的濫用。
交互偏差
一些 AI 系統通過與用戶的交互進行批量數據訓練。如果推動這種互動的用戶有偏見,那么請確保您的解決方案也會如此。
算法如何偏離軌道的一個生動例子是微軟的 Tay,這是一個 Twitter 聊天機器人,旨在通過“隨意和有趣的對話”與人們互動。當用戶開始發表帶有厭惡女性、種族主義和唐納德特朗普主義言論的攻擊性推文時,事情就出了問題,這讓機器人鸚鵡向他們學習并以類似的方式做出回應。
結果,在不到 24 小時內,Tay 從“人類超級酷”變成了徹頭徹尾的反猶太主義:
Facebook 是另一家定期未能保護其人工智能免受毒性影響的科技巨頭。今年春天,社交網絡對短語“video of”給出了明確的搜索預測。幾個月后,該公司允許用戶使用“猶太人仇恨者”和“希特勒沒有做錯什么”等搜索詞組阻礙其支持人工智能的廣告平臺,隨后為“學習”和“職位”類別提供有偏見的自動建議。
如果您的算法的構建方式與上述算法相同,那么您將無法幸免于慘敗。避免在您的臉上留下雞蛋并解決交互偏見的一種方法是及時測試您的系統。
確認偏差
與交互偏差一樣,確認偏差也與用戶活動交織在一起。問題在于,這種扭曲的 AI 算法會根據其他人的選擇(閱讀、喜歡、點擊、評論等)提供內容,并排除做出不太受歡迎的選擇的用戶的結果。這導致過于簡單的個性化,缺乏多樣化的想法或替代方案。
也就是說,Facebook 的新聞提要在此原則下工作,極大地考慮了您的社交朋友的喜歡和分享。反過來,雖然信息流是個性化的,但你會發現自己置身于可能與你自己的信念相沖突的“偏見泡沫”中,或者“隱藏”一系列對立的觀點。
LinkedIn 是另一個社交媒體平臺,它發現向其成員提供由他們的聯系人共享、喜歡或評論的更新更相關——而不是其他方式。
考慮到這一點,在構建您自己的 AI 系統時,請確保它能夠隨著您的用戶及其偏好隨時間的變化而動態發展。
結論
人工智能偏見已經成為一個經常被講述的故事。但正如我們發現的那樣,人工智能算法的本質可能并沒有偏見,而正是他們所學的數據導致了令人尷尬的、令人反感的結果。但是,當您從一開始就認識到并理解數據集中可能存在的偏見時,就可以更輕松地針對有偏見的刻板印象關聯測試系統并創造更具包容性的體驗,同時平等地為每個人服務。
審核編輯 黃昊宇
-
AI
+關注
關注
87文章
33554瀏覽量
274203 -
數據庫
+關注
關注
7文章
3884瀏覽量
65576 -
人工智能
+關注
關注
1804文章
48449瀏覽量
244965
發布評論請先 登錄
相關推薦
評論