隨著人工智能在企業(yè)和社會的應用變得越來越普遍,企業(yè)需要注意機器模型中不斷涌現(xiàn)的人類偏見。企業(yè)可以利用人類的智慧來獲取訓練算法所需的各種數(shù)據(jù)和輸入。
有一些方法可以避免數(shù)據(jù)集中的偏差。
在訓練人工智能(AI)算法時,取決于數(shù)據(jù)的輸入。在業(yè)務環(huán)境中尤其如此,在這種情況下,人工智能的目的可能是與客戶互動,管理自動化系統(tǒng)或模仿人工決策。成果與目標相符至關重要。但是,至關重要的是,企業(yè)必須能夠解決任何可能歪曲人工智能對指令或請求的響應方式的偏見。
任何新產(chǎn)品的設計和開發(fā)階段都是至關重要的,因為它使企業(yè)可以運行測試、識別并消除任何缺陷。如果由于某種原因而忽略了設計缺陷或產(chǎn)品出現(xiàn)故障,則可以快速解決。可以召回有故障的設備,同時可以發(fā)布更新和補丁來修復任何軟件問題。對于典型的軟件版本而言,這一切都很好,但是處理人工智能算法并不是那么簡單。
人工智能算法是高度復雜的系統(tǒng),旨在基于機器學習(ML)執(zhí)行非常具體的任務。試圖消除人工智能投入運行后所產(chǎn)生的任何數(shù)量的偏差可能既昂貴又費時;對于“學習”的技術而言,這也違反直覺。在設計和開發(fā)階段采用適當?shù)牧鞒虂頇z測并消除偏差會更加有效。
偏見對企業(yè)不利
人工智能的基本目的和功能被引入其基礎算法中。如果人工智能要發(fā)展出固有的偏差,它將對算法產(chǎn)生不利影響。這可能會嚴重影響人工智能預期提供的精度和效率,從而限制人工智能滿足其商業(yè)需求的能力,所有這些都對業(yè)務不利。
盡管有開發(fā)人員的最佳意圖,偏見總能找到一種滲透人工智能算法的方法。與任何學習過程一樣,學生也會受到其老師的影響。認可機構的教育范圍取決于其課程設置。毫不奇怪,課程越多樣化,學生越開明。同樣,更大、更多樣化的數(shù)據(jù)集有助于產(chǎn)生更精確、更高效的人工智能算法,從而能夠做出更明智的決策。
培訓數(shù)據(jù)和測試結果
每個成功的人工智能算法都建立在訓練數(shù)據(jù)的基礎上。但是,采購滿足業(yè)務要求的數(shù)據(jù)可能會給物流和間接費用帶來巨大挑戰(zhàn),尤其是如果這些要求包括滿足大眾市場的需求時。
內(nèi)部開發(fā)人員團隊,軟件工程師和質量保證專家通常來自相同的年齡范圍,性別和背景。偏差經(jīng)常發(fā)生在數(shù)據(jù)收集和數(shù)據(jù)標記過程中。因此,在構建人工智能算法時,最好不要依賴某一個人或一個小組來提供將用于訓練算法的數(shù)據(jù)。為了正確地訓練算法,需要不同類型的數(shù)據(jù)和輸入。
使用為人工智能算法提供與最終服務的客戶更接近的人員和體驗的暴露能力的模型,將會更有效率。企業(yè)可以使用這一模型來訓練他們的算法,以響應現(xiàn)實情況,檢測出偏差發(fā)生的地方并減少其潛在影響。
社區(qū)構建的算法
培訓數(shù)據(jù)的成功獲取和實施取決于數(shù)據(jù)本身的數(shù)量、質量和多樣性。企業(yè)獲取和處理此數(shù)據(jù)的唯一方法是利用多樣化的參與者。企業(yè)需要能夠從向其提供特定人口統(tǒng)計信息的社區(qū)中進行選擇,包括性別、種族、母語、位置、技能、地理位置以及其他適用的過濾條件。
實際上,開發(fā)有效的算法需要大量數(shù)據(jù)。大多數(shù)企業(yè)沒有能力大規(guī)模地獲取數(shù)據(jù)。他們需要專用資源的支持才能交付新的軟件和服務。最近的一個培訓用于媒體和廣播服務的智能語音助手的項目需要超過10萬種不同的語音。這些話語最終由972個人提供,這些人被遠程組裝以訓練算法。令人難以置信的壯舉是,盡管可以在實驗室中對語音進行某種程度的模擬,但人工智能仍然需要暴露于各種真實的聲音和口音中。
言語訓練只是教學大綱的一方面。眾包解決方案還可以幫助企業(yè)訓練人工智能算法以讀取手寫文檔。最近的另一個項目需要數(shù)千個手寫樣本。數(shù)量再次成為關鍵因素,因為該算法需要盡可能廣泛的唯一樣本。遠程聚集了1,000多名參與者,以提供手寫文檔并滿足對各種內(nèi)容的需求。
公正的結果
刪除可能會降低人工智能最終結果準確性的意外偏差很重要。它將永遠不會是完美的,但是人工智能會不斷學習,并且最好的機器模型是基于大量多樣數(shù)據(jù)集的模型。最好的策略是從提供數(shù)量、質量和多樣性的池中獲取培訓數(shù)據(jù)。如果訓練數(shù)據(jù)沒有多樣性,該算法將無法識別廣泛的可能性,從而使該算法無效。遠程社區(qū)使企業(yè)可以訪問此數(shù)據(jù),并補充內(nèi)部開發(fā)和測試功能。眾包測試可用于訓練人工智能算法以研究和識別語音、文本、圖像和生物識別,從而為企業(yè)提供強大的輸出,可滿足不同客戶群的需求。
責編AJX
-
AI
+關注
關注
87文章
33942瀏覽量
274842 -
模型
+關注
關注
1文章
3477瀏覽量
49922 -
機器學習
+關注
關注
66文章
8485瀏覽量
133973
發(fā)布評論請先 登錄
首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手
當我問DeepSeek:為什么傳感器技術越來越越重要
添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略
科大訊飛推出大模型極速超擬人交互軟硬件方案
企業(yè)AI模型托管怎么做的
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
新的人機交互入口?大模型加持、AI眼鏡賽道開啟百鏡大戰(zhàn)

AI大模型的倫理與社會影響
人民郵電報:“開源”到底是什么?為啥熱度越來越高?

《AI for Science:人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得
AI普及給嵌入式設計人員帶來新挑戰(zhàn)

我們的城市為什么越來越熱?

評論