在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習如何應對失衡類別

zhKF_jqr_AI ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-05 11:53 ? 次閱讀

前言

實際應用中的分類問題往往不像教科書上人造的例子那樣齊整,類別往往存在某種程度上的失衡。Towards Data Science博主Devin Soni簡要介紹了應對失衡分類的常用方法。

介紹

大多數真實世界的分類問題都呈現出某種程度的類別失衡,即每個類別在數據集中的比例不同。恰當地調整指標和方法以適應目標非常重要。否則,你可能最終會為一個對你的用例無意義的度量指標進行優化。

例如,假設你有兩個類——A和B。A類占數據集的90%,B類占10%,但你最感興趣的是識別B類的實例。你可以每次都預測分類為A,這樣輕易就能達到90%的精確度,但對你的預期用例而言,這是一個無用的分類器。相反,經過恰當地校準的方法可能精確度較低,但會有較高的真陽率(或召回),這才是你應該優化的指標。在進行檢測時,這是常常發生的場景,例如檢測在線惡意內容或醫療數據中的疾病標記。

現在我將討論幾種可以用來緩解類別失衡的技術。一些技術適用于大多數分類問題,而其他技術可能更適合具備特定的失衡水平的問題。本文將從二元分類的角度來討論這些問題,但大多數情況下,這些技術同樣適用于多類分類問題。本文同時假設目標是識別少數類別,否則,這些技術并不是真的很有必要。

指標

一般來說,這個問題涉及召回率(recall,真陽性實例被分類為陽性實例的百分比)和準確率(precision,被分類為真陽性的實例中確實是陽性的百分比)之間的折衷。當我們想要檢測少數類別實例時,我們通常更關心召回率而不是準確率,因為在檢測的情境中,錯過正面實例的成本通常高于錯誤地標記負面實例為正面實例。例如,如果我們試圖檢測惡意內容,那么手動審核糾正被誤認為惡意內容的正常內容是微不足道的,但要識別甚至從未被標記為惡意內容的內容就要困難很多了。因此,比較適用于失衡分類問題的方法時,請考慮使用精確度之外的指標,例如召回率,準確率和AUROC。在選擇參數和模型時,切換優化指標可能就足以提供偵測少數類別所需的表現。

成本敏感學習

在通常的學習中,我們平等對待所有錯誤分類,這在失衡分類問題中會導致問題,因為相比識別出主要類別,識別出少數類別并不會有額外的獎勵。成本敏感學習改變了這一點,使用函數C(p, t)(通常表示為矩陣)指定將t類實例錯誤分類為p類實例的成本。這讓我們可以給錯誤分類少數類別更多的懲罰,以便增加真陽率。一個常用的方案是讓成本等于類別在數據集中所占比例的倒數。這樣,當類別尺寸縮小時,懲罰會增加。

采樣

解決失衡數據集的一個簡單方法就是平滑它們,過采樣少數類別,或者欠采樣主要類別。這讓我們創建一個平衡的數據集,理論上能使分類器不偏向其中一個類。然而,這些簡單的采樣方法實際上存在缺陷。過采樣少數類別會導致模型過擬合,因為它會引入從已經很小的實例池中抽取的重復實例。同樣,欠采樣主要類別可能最終導致遺漏體現了兩個類別之間的重要差別的重要實例。

還存在比簡單的過采樣或欠采樣更強大的采樣方法。最著名的例子是SMOTE,SMOTE通過構建相鄰實例的凸組合來創建少數類別的新實例。如下圖所示,它有效地繪制了特征空間中少數點之間的線條,并沿著這些線條采樣。這使我們能夠平衡我們的數據集,而不會過多地過擬合,因為我們創建了新的合成示例,而沒有使用重復樣本。不過這并不能防止所有過擬合,因為這些合成數據點仍然是基于現有數據點創建的。


可視化SMOTE。陰影方塊:主要類別樣本;黑點:少數類別樣本;紅點:生成樣本

異常偵測

在更極端的情況下,將分類問題考慮成異常檢測(anomaly detection)問題可能會更好。在異常檢測問題中,我們假設有一個或一組“正常”的數據點分布,而任何與該分布足夠偏離的東西都是異常值。將分類問題置于異常檢測的框架下以后,我們將主要類別視為點的“正常”分布,將少數類別視為異常。有許多用于異常檢測的算法,例如聚類(clustering)方法,單類SVM(One-class SVM)和孤立森林(Isolation Forests)。


可視化用于異常檢測的聚類方法

結論

希望這些方法的某些組合可以讓你創建一個更好的分類器。像我之前說的那樣,這些技術中的某些技術更適合不同程度的失衡。例如,簡單的采樣技術可以讓你克服輕微失衡,而極端失衡可能需要異常檢測方法。基本上,對于這個問題,沒有包治百病的靈丹妙藥,你需要嘗試每種方法,看看它們應用到你的特定用例和指標的效果如何。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8441

    瀏覽量

    133094

原文標題:機器學習如何應對失衡類別

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    嵌入式機器學習的應用特性與軟件開發環境

    作者:DigiKey Editor 在許多嵌入式系統中,必須采用嵌入式機器學習(Embedded Machine Learning)技術,這是指將機器學習模型部署在資源受限的設備(如微
    的頭像 發表于 01-25 17:05 ?174次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的應用特性與軟件開發環境

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統機器
    的頭像 發表于 12-30 09:16 ?398次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優勢,逐漸成為企業構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發表于 12-25 11:54 ?164次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發表于 11-16 01:07 ?512次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發表于 11-15 09:19 ?603次閱讀

    具身智能與機器學習的關系

    具身智能(Embodied Intelligence)和機器學習(Machine Learning)是人工智能領域的兩個重要概念,它們之間存在著密切的關系。 1. 具身智能的定義 具身智能是指智能體
    的頭像 發表于 10-27 10:33 ?504次閱讀

    人工智能、機器學習和深度學習存在什么區別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一個很大的子集是機器學習——讓算法從數據中學習
    發表于 10-24 17:22 ?2543次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區別

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了機器學習如何在這一領域發揮巨
    發表于 08-12 11:21

    深度學習在工業機器視覺檢測中的應用

    識別等任務。傳統的機器視覺檢測方法通常依賴于手工設計的特征和固定的算法,難以應對復雜多變的工業環境。而深度學習的引入,為工業機器視覺檢測帶來了新的突破和發展機遇。
    的頭像 發表于 07-08 10:40 ?1237次閱讀

    人工智能、機器學習和深度學習是什么

    在科技日新月異的今天,人工智能(Artificial Intelligence, AI)、機器學習(Machine Learning, ML)和深度學習(Deep Learning, DL)已成為
    的頭像 發表于 07-03 18:22 ?1436次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習
    的頭像 發表于 07-02 11:25 ?1371次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發表于 07-01 11:40 ?1541次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習機器學習領域都經常被
    的頭像 發表于 06-27 08:27 ?1729次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    請問PSoC? Creator IDE可以支持IMAGIMOB機器學習嗎?

    我的項目使用 POSC62 MCU 進行開發,由于 UDB 模塊是需求的重要組成部分,所以我選擇了PSoC? Creator IDE 來進行項目開發。 但現在,由于需要擴展,我不得不使用機器學習模塊
    發表于 05-20 08:06

    機器學習8大調參技巧

    今天給大家一篇關于機器學習調參技巧的文章。超參數調優是機器學習例程中的基本步驟之一。該方法也稱為超參數優化,需要搜索超參數的最佳配置以實現最佳性能。
    的頭像 發表于 03-23 08:26 ?706次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>8大調參技巧
    主站蜘蛛池模板: 五月婷婷婷 | 久久精品国产福利国产琪琪 | 九九热精品在线视频 | 国产国产人免费人成成免视频 | 日韩卡1卡2卡三卡四卡二卡免 | 天堂在线最新资源 | 啪视频免费 | 你懂的在线免费视频 | 黄色aa毛片 | 欧美精品人爱a欧美精品 | 末发育娇小性色xxxxx视频 | 国产一区在线播放 | 激五月| 小草影院亚洲私人影院 | jiucao视频在线观看 | 国产亚洲人成a在线v网站 | 偷偷操不一样的久久 | 日本久本草精品 | 男人资源 | 美女扒开尿口让男人桶 | 自拍偷拍欧美 | 永久免费在线观看视频 | 国产hs免费高清在线观看 | 国产一级做a爰片久久毛片男 | 亚洲成a人片在线观看www | 欧美.亚洲.日本一区二区三区 | 精品一区二区三区免费毛片爱 | 性欧美精品久久久久久久 | 鸥美三级 | 午夜免费观看福利片一区二区三区 | 草馏社区| 日韩三级观看 | 九色视频网站 | 国产一级特黄aa级特黄裸毛片 | 色天天综合色天天看 | 午夜影院美女 | 黄 色 录像成 人播放免费 | 天天操91 | 欧美.亚洲.日本一区二区三区 | 欧美国产在线一区 | 天天干夜夜玩 |