在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中的幾種數(shù)據(jù)偏差

Dbwd_Imgtec ? 來(lái)源:Imagination Tech ? 作者:Hengtee Lim ? 2021-01-05 17:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機(jī)器學(xué)習(xí)中的數(shù)據(jù)偏差是一種錯(cuò)誤,其中數(shù)據(jù)集的某些元素比其他元素具有更大的權(quán)重和或表示。有偏見(jiàn)的數(shù)據(jù)集不能準(zhǔn)確地表示模型的用例,從而導(dǎo)致結(jié)果偏斜,準(zhǔn)確性水平低和分析錯(cuò)誤。

通常,用于機(jī)器學(xué)習(xí)項(xiàng)目的訓(xùn)練數(shù)據(jù)必須代表現(xiàn)實(shí)世界。這很重要,因?yàn)檫@些數(shù)據(jù)是機(jī)器學(xué)習(xí)如何完成其工作的方式。數(shù)據(jù)偏差可能會(huì)發(fā)生在從人類報(bào)告和選擇偏差到算法和解釋偏差的一系列區(qū)域中。

解決機(jī)器學(xué)習(xí)項(xiàng)目中的數(shù)據(jù)偏差意味著首先確定它在哪里。只有在知道存在偏見(jiàn)的地方之后,你才可以采取必要的措施來(lái)糾正它,無(wú)論是解決數(shù)據(jù)不足還是改善注釋過(guò)程的問(wèn)題??紤]到這一點(diǎn),請(qǐng)務(wù)必對(duì)數(shù)據(jù)的范圍,質(zhì)量和處理保持警惕,以免產(chǎn)生偏差。這不僅影響模型的準(zhǔn)確性,而且還會(huì)涉及道德,公平和包容性問(wèn)題。

下面,我列出了機(jī)器學(xué)習(xí)中最常見(jiàn)的7種數(shù)據(jù)偏見(jiàn)類型,以幫助你分析和了解其發(fā)生的位置以及你可以采取的措施。

數(shù)據(jù)偏差的類型

盡管并不詳盡,但此列表包含了該領(lǐng)域中數(shù)據(jù)偏見(jiàn)的常見(jiàn)示例,以及其發(fā)生位置的示例。

樣本偏差:當(dāng)數(shù)據(jù)集不能反映模型將在其中運(yùn)行的環(huán)境的實(shí)際情況時(shí),就會(huì)發(fā)生樣本偏差。這樣的一個(gè)例子是某些主要在白人圖像上訓(xùn)練的面部識(shí)別系統(tǒng)。這些模型對(duì)婦女和不同種族的人的準(zhǔn)確度要低得多。此偏差的另一個(gè)名稱是選擇偏差。

排除偏差:排除偏差在數(shù)據(jù)預(yù)處理階段最常見(jiàn)。通常,這是刪除不重要的有價(jià)值數(shù)據(jù)的情況。但是,由于某些信息的系統(tǒng)排除,它也可能發(fā)生。例如,假設(shè)你有一個(gè)在美國(guó)和加拿大的客戶銷售數(shù)據(jù)集。98%的客戶來(lái)自美國(guó),因此你選擇刪除不相關(guān)的位置數(shù)據(jù)。但是,這意味著你的模型將不會(huì)因?yàn)榧幽么罂蛻舻南M(fèi)增加兩倍多這一事實(shí)而受到影響。

測(cè)量偏差:當(dāng)為訓(xùn)練而收集的數(shù)據(jù)與現(xiàn)實(shí)世界中收集的數(shù)據(jù)不同時(shí),或者當(dāng)錯(cuò)誤的測(cè)量結(jié)果導(dǎo)致數(shù)據(jù)失真時(shí),就會(huì)發(fā)生這種偏差。這種偏差的一個(gè)很好的例子出現(xiàn)在圖像識(shí)別數(shù)據(jù)集中,其中訓(xùn)練數(shù)據(jù)是用一種類型的照相機(jī)收集的,而生產(chǎn)數(shù)據(jù)是用另一種照相機(jī)收集的。在項(xiàng)目的數(shù)據(jù)標(biāo)記階段,由于注釋不一致也會(huì)導(dǎo)致測(cè)量偏差。

召回偏差:這是一種測(cè)量偏差,在項(xiàng)目的數(shù)據(jù)標(biāo)記階段很常見(jiàn)。當(dāng)你不一致地標(biāo)記相似類型的數(shù)據(jù)時(shí),就會(huì)產(chǎn)生召回偏差。這導(dǎo)致較低的精度。例如,假設(shè)你有一個(gè)團(tuán)隊(duì)將電話的圖像標(biāo)記為損壞,部分損壞或未損壞。如果有人將一張圖像標(biāo)記為已損壞,但將相似的圖像標(biāo)記為部分已損壞,則你的數(shù)據(jù)將不一致。

觀察者偏差:也稱為確認(rèn)偏差,觀察者偏差是看到你期望在數(shù)據(jù)中看到或想要看到的結(jié)果的效果。當(dāng)研究人員在有意識(shí)或無(wú)意識(shí)的情況下對(duì)自己的研究有主觀想法進(jìn)入項(xiàng)目時(shí),可能會(huì)發(fā)生這種情況。當(dāng)標(biāo)簽制作者讓主觀思想控制他們的標(biāo)簽制作習(xí)慣,從而導(dǎo)致數(shù)據(jù)不準(zhǔn)確時(shí),你也可以看到這一點(diǎn)。

種族偏見(jiàn):盡管不是傳統(tǒng)意義上的數(shù)據(jù)偏見(jiàn),但由于其在AI技術(shù)中的盛行,因此仍然值得一提。當(dāng)數(shù)據(jù)偏向特定人群時(shí),就會(huì)發(fā)生種族偏見(jiàn)。在面部識(shí)別和自動(dòng)語(yǔ)音識(shí)別技術(shù)中可以看到這一點(diǎn),該技術(shù)無(wú)法像白種人那樣準(zhǔn)確地識(shí)別有色人種。Google的Inclusive Images競(jìng)賽提供了很好的例子說(shuō)明了這種情況的發(fā)生。

關(guān)聯(lián)偏差:當(dāng)機(jī)器學(xué)習(xí)模型的數(shù)據(jù)加強(qiáng)和/或乘以文化偏差時(shí),就會(huì)發(fā)生這種偏差。你的數(shù)據(jù)集可能包含一組工作,其中所有男性都是醫(yī)生,所有女性都是護(hù)士。這并不意味著女人不能當(dāng)醫(yī)生,男人不能當(dāng)護(hù)士。但是,就你的機(jī)器學(xué)習(xí)模型而言,不存在女醫(yī)生和男護(hù)士。社交偏見(jiàn)最出名的是造成性別偏見(jiàn),這在“挖掘人工智能”研究中可見(jiàn)。

如何避免機(jī)器學(xué)習(xí)項(xiàng)目中的數(shù)據(jù)偏差?

防止機(jī)器學(xué)習(xí)項(xiàng)目中的數(shù)據(jù)偏差是一個(gè)持續(xù)的過(guò)程。盡管有時(shí)很難知道數(shù)據(jù)或模型何時(shí)出現(xiàn)偏差,但是你可以采取許多步驟來(lái)幫助防止偏差或及早發(fā)現(xiàn)偏差。盡管遠(yuǎn)非詳盡的清單,但以下要點(diǎn)為思考機(jī)器學(xué)習(xí)項(xiàng)目的數(shù)據(jù)偏差提供了入門級(jí)指南。

盡你所能,事先研究用戶。請(qǐng)注意你的一般用例和潛在異常值。

確保你的數(shù)據(jù)科學(xué)家和數(shù)據(jù)標(biāo)簽團(tuán)隊(duì)是多元化的。

盡可能合并來(lái)自多個(gè)來(lái)源的輸入以確保數(shù)據(jù)多樣性。

為數(shù)據(jù)標(biāo)簽創(chuàng)建黃金標(biāo)準(zhǔn)。黃金標(biāo)準(zhǔn)是一組數(shù)據(jù),可以反映任務(wù)的理想標(biāo)記數(shù)據(jù)。它使你能夠測(cè)量團(tuán)隊(duì)的注釋的準(zhǔn)確性。

為數(shù)據(jù)標(biāo)簽期望制定明確的準(zhǔn)則,以便數(shù)據(jù)標(biāo)簽保持一致。

對(duì)于可能會(huì)出現(xiàn)數(shù)據(jù)準(zhǔn)確性偏差的任何項(xiàng)目,請(qǐng)使用多次通過(guò)注釋。例如,情感分析,內(nèi)容審核和意圖識(shí)別。

尋求具有領(lǐng)域?qū)I(yè)知識(shí)的人員的幫助,以查看你收集和/或注釋的數(shù)據(jù)。團(tuán)隊(duì)外部的人可能會(huì)看到團(tuán)隊(duì)忽略的偏見(jiàn)。

定期分析你的數(shù)據(jù)。跟蹤錯(cuò)誤和問(wèn)題區(qū)域,以便您快速響應(yīng)并解決它們。在決定刪除或保留它們之前,請(qǐng)仔細(xì)分析數(shù)據(jù)點(diǎn)。

使偏差測(cè)試成為開(kāi)發(fā)周期的一部分。Google,IBM和Microsoft都發(fā)布了工具和指南,以幫助分析許多不同數(shù)據(jù)類型的偏差。

如果你想更深入地了解偏見(jiàn)的產(chǎn)生方式,偏見(jiàn)對(duì)機(jī)器學(xué)習(xí)模型的影響以及過(guò)去在自動(dòng)化技術(shù)中的偏見(jiàn),我建議你參考瑪格麗特·米切爾(Margaret Mitchell)的“人工智能的視野和語(yǔ)言偏見(jiàn)”演示。

鏈接:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com

總結(jié)

請(qǐng)務(wù)必注意任何數(shù)據(jù)項(xiàng)目在機(jī)器學(xué)習(xí)中的潛在偏見(jiàn)。通過(guò)盡早安裝正確的系統(tǒng)并保持?jǐn)?shù)據(jù)收集,標(biāo)記和實(shí)施的最頂層,你可以在出現(xiàn)問(wèn)題之前就注意到它,或者在出現(xiàn)問(wèn)題時(shí)對(duì)其進(jìn)行響應(yīng)。

責(zé)任編輯:xj

原文標(biāo)題:機(jī)器學(xué)習(xí)中的7種數(shù)據(jù)偏見(jiàn)

文章出處:【微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)中的7種數(shù)據(jù)偏見(jiàn)

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    埃斯頓機(jī)器人數(shù)據(jù)臺(tái)可以實(shí)現(xiàn)什么功能

    1. 數(shù)據(jù)集成與采集 多源數(shù)據(jù)接入 :支持從多種數(shù)據(jù)源接入數(shù)據(jù),包括機(jī)器人控制系統(tǒng)、傳感器、MES系統(tǒng)等。
    的頭像 發(fā)表于 02-05 16:47 ?328次閱讀

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語(yǔ)。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?1120次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能的價(jià)值

    嵌入式人工智能(EAI)將人工智能集成到機(jī)器人等物理實(shí)體,使它們能夠感知、學(xué)習(xí)環(huán)境并與之動(dòng)態(tài)交互。這種能力使此類機(jī)器人能夠在人類社會(huì)中有效地提供商品及服務(wù)。
    發(fā)表于 12-24 00:33

    zeta在機(jī)器學(xué)習(xí)的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

    在探討ZETA在機(jī)器學(xué)習(xí)的應(yīng)用以及ZETA的優(yōu)缺點(diǎn)時(shí),需要明確的是,ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進(jìn)行的分析: 一、ZETA在機(jī)器
    的頭像 發(fā)表于 12-20 09:11 ?1087次閱讀

    cmp在機(jī)器學(xué)習(xí)的作用 如何使用cmp進(jìn)行數(shù)據(jù)對(duì)比

    機(jī)器學(xué)習(xí)領(lǐng)域,"cmp"這個(gè)術(shù)語(yǔ)可能并不是一個(gè)常見(jiàn)的術(shù)語(yǔ),它可能是指"比較"(comparison)的縮寫。 比較在機(jī)器學(xué)習(xí)的作用 模型
    的頭像 發(fā)表于 12-17 09:35 ?830次閱讀

    什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

    計(jì)算機(jī)系統(tǒng)自身的性能”。事實(shí)上,由于“經(jīng)驗(yàn)”在計(jì)算機(jī)系統(tǒng)主要以數(shù)據(jù)的形式存在,因此機(jī)器學(xué)習(xí)需要設(shè)法對(duì)數(shù)據(jù)進(jìn)行分析
    的頭像 發(fā)表于 11-16 01:07 ?937次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過(guò)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問(wèn)題?

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對(duì)計(jì)算資源的需求也在不斷增長(zhǎng)。NPU作為一種專門為深度學(xué)習(xí)機(jī)
    的頭像 發(fā)表于 11-15 09:19 ?1156次閱讀

    eda在機(jī)器學(xué)習(xí)的應(yīng)用

    機(jī)器學(xué)習(xí)項(xiàng)目中,數(shù)據(jù)預(yù)處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這一過(guò)程不可或缺的一部分。 1.
    的頭像 發(fā)表于 11-13 10:42 ?861次閱讀

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí),更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    機(jī)器學(xué)習(xí)數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器
    的頭像 發(fā)表于 07-10 16:10 ?3112次閱讀

    機(jī)器學(xué)習(xí)的交叉驗(yàn)證方法

    機(jī)器學(xué)習(xí),交叉驗(yàn)證(Cross-Validation)是一種重要的評(píng)估方法,它通過(guò)將數(shù)據(jù)集分割成多個(gè)部分來(lái)評(píng)估模型的性能,從而避免過(guò)擬合或欠擬合問(wèn)題,并幫助選擇最優(yōu)的超參數(shù)。本文將
    的頭像 發(fā)表于 07-10 16:08 ?2728次閱讀

    如何理解機(jī)器學(xué)習(xí)的訓(xùn)練集、驗(yàn)證集和測(cè)試集

    理解機(jī)器學(xué)習(xí)的訓(xùn)練集、驗(yàn)證集和測(cè)試集,是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了模型學(xué)習(xí)
    的頭像 發(fā)表于 07-10 15:45 ?6704次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)
    的頭像 發(fā)表于 07-09 15:57 ?1372次閱讀

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,其目標(biāo)是通過(guò)讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)學(xué)習(xí)并改進(jìn)其性能,而無(wú)需進(jìn)行明確的編程。本文將深入解讀幾種常見(jiàn)的
    的頭像 發(fā)表于 07-02 11:25 ?2271次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)分析的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過(guò)訓(xùn)練模型從
    的頭像 發(fā)表于 07-02 11:22 ?1371次閱讀
    主站蜘蛛池模板: 天天综合久久久网 | 久久xxx| 狠狠色丁香婷婷综合最新地址 | 免费永久视频 | 狠狠躁夜夜躁人人躁婷婷视频 | 成人免费无毒在线观看网站 | 久久综合五月婷婷 | 四虎在线观看一区二区 | 一级看片 | 人人狠狠综合88综合久久 | 操操干干 | 四虎4545www国产精品 | 人人玩人人添天天爽 | 日本高清视频色 | 午夜视频在线 | 巨乳色最新网址 | 国产福利vr专区精品 | 欧美特级生活片 | 亚洲电影在线 | 黄色视屏在线免费播放 | 日日夜夜爽 | 欧美午夜视频在线 | 国产激爽大片在线播放 | 中国一级特黄特级毛片 | 1024你懂的国产在线播放 | 新版天堂中文在线8官网 | 国产男女交性视频播放免费bd | 午夜小影院| 美女露出扒开尿口让男人桶 | 亚洲精品乱码久久久久久蜜桃图片 | 性做久久久久久久久 | 日本亚洲一区二区 | 伊人手机在线观看 | 中文字幕1区2区 | 免费一级特黄特色大片在线 | 丁香四月婷婷 | 亚洲 图片 小说 欧美 另类 | 婷婷色婷婷 | 老色批| 日本xxxxx69 | 欲色天天|