在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解決二分類問題的算法——AdaBoost算法

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-09-23 10:02 ? 次閱讀

1.集成學習

集成學習(ensemble learning)通過組合多個基分類器(base classifier)來完成學習任務,頗有點“三個臭皮匠頂個諸葛亮”的意味。基分類器一般采用的是弱可學習(weakly learnable)分類器,通過集成學習,組合成一個強可學習(strongly learnable)分類器。所謂弱可學習,是指學習的正確率僅略優于隨機猜測的多項式學習算法;強可學習指正確率較高的多項式學習算法。集成學習的泛化能力一般比單一的基分類器要好,這是因為大部分基分類器都分類錯誤的概率遠低于單一基分類器的。

偏差與方差

“偏差-方差分解”(bias variance decomposition)是用來解釋機器學習算法的泛化能力的一種重要工具。對于同一個算法,在不同訓練集上學得結果可能不同。對于訓練集,由于噪音,樣本的真實類別為(在訓練集中的類別為),則噪聲為

學習算法的期望預測為

使用樣本數相同的不同訓練集所產生的方法

期望輸入與真實類別的差別稱為bias,則

為便于討論,假定噪聲的期望為0,即,通過多項式展開,可對算法的期望泛化誤差進行分解(詳細的推導參看[2]):

也就是說,誤差可以分解為3個部分:bias、variance、noise。bias度量了算法本身的擬合能力,刻畫模型的準確性;variance度量了數據擾動所造成的影響,刻畫模型的穩定性。為了取得較好的泛化能力,則需要充分擬合數據(bias小),并受數據擾動的影響小(variance小)。但是,bias與variance往往是不可兼得的:

當訓練不足時,擬合能力不夠強,數據擾動不足以產生較大的影響,此時bias主導了泛化錯誤率;

隨著訓練加深時,擬合能力隨之加強,數據擾動漸漸被學習到,variance主導了泛化錯誤率。

Bagging與Boosting

集成學習需要解決兩個問題:

如何調整輸入訓練數據的概率分布及權值;

如何訓練與組合基分類器。

從上述問題的角度出發,集成學習分為兩類流派:Bagging與Boosting。Bagging(BootstrapAggregating)對訓練數據擦用自助采樣(boostrap sampling),即有放回地采樣數據;每一次的采樣數據集訓練出一個基分類器,經過MM次采樣得到MM個基分類器,然后根據最大表決(majority vote)原則組合基分類器的分類結果。

Boosting的思路則是采用重賦權(re-weighting)法迭代地訓練基分類器,即對每一輪的訓練數據樣本賦予一個權重,并且每一輪樣本的權值分布依賴上一輪的分類結果;基分類器之間采用序列式的線性加權方式進行組合。

從“偏差-方差分解”的角度看,Bagging關注于降低variance,而Boosting則是降低bias;Boosting的基分類器是強相關的,并不能顯著降低variance。Bagging與Boosting有分屬于自己流派的兩大殺器:Random Forests(RF)和Gradient Boosting Decision Tree(GBDT)。本文所要講的AdaBoost屬于Boosting流派。

2.AdaBoost算法

AdaBoost是由Freund與Schapire [1] 提出來解決二分類問題

根據加型模型(additive model),第m輪的分類函數

其中,為基分類器的組合系數。AdaBoost采用前向分布(forward stagewise)這種貪心算法最小化損失函數(1),求解子模型的

其中,的分類誤差率。第m+1輪的訓練數據集權值分布

其中,為規范化因子

則得到最終分類器

的單調遞減函數,特別地,當時,;當時,即基分類器不滿足弱可學習的條件(比隨機猜測好),則應該停止迭代。具體算法流程如下:

在算法第4步,學習過程有可能停止,導致學習不充分而泛化能力較差。因此,可采用“重采樣”(re-sampling)避免訓練過程過早停止;即拋棄當前不滿足條件的基分類器,基于重新采樣的數據訓練分類器,從而獲得學習“重啟動”機會。

AdaBoost能夠自適應(addaptive)地調整樣本的權值分布,將分錯的樣本的權重設高、分對的樣本的權重設低;所以被稱為“Adaptive Boosting”。sklearn的AdaBoostClassifier實現了AdaBoost,默認的基分類器是能fit()帶權值樣本的DecisionTreeClassifier。

老師木在微博上提出了關于AdaBoost的三個問題:

1,adaboost不易過擬合的神話。

2,adaboost人臉檢測器好用的本質原因,

3,真的要求每個弱分類器準確率不低于50%。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4631

    瀏覽量

    93425
  • 集成學習
    +關注

    關注

    0

    文章

    10

    瀏覽量

    7334
  • 分類器
    +關注

    關注

    0

    文章

    152

    瀏覽量

    13237

原文標題:【十大經典數據挖掘算法】AdaBoost

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于邏輯回歸算法的乳腺癌腫瘤二分類預測

    ML之LoR:基于LoR(邏輯回歸)算法對乳腺癌腫瘤進行二分類預測(良惡性)
    發表于 06-18 07:06

    實現AdaBoost算法的代碼

    AdaBoost算法實現
    發表于 11-07 09:19

    利用單詞超團的二分圖文本聚算法

    鑒于目前傳統文本聚方法中利用文檔間的相似度進行聚存在的問題,在傳統的文本挖掘基礎上提出了一種新的文本聚算法—— 利用單詞超團的二分圖文
    發表于 02-27 15:39 ?21次下載

    基于AdaBoost_Bayes算法的中文文本分類系統

    基于AdaBoost_Bayes算法的中文文本分類系統_徐凱
    發表于 01-07 18:56 ?2次下載

    基于主動學習不平衡多分類AdaBoost改進算法

    針對不平衡分類中小樣本識別率低問題,提出一種基于主動學習不平衡多分類AdaBoost改進算法。首先,利用主動學習方法通過多次迭代抽樣,選取
    發表于 11-30 17:12 ?3次下載

    一種多分類AdaBoost算法

    指數損失函數逐步添加模型( SAMME)是一種多分類AdaBoost算法,為進一步提升SAMME算法的性能,針對使用加權概率和偽損失對
    發表于 12-01 16:50 ?1次下載

    基于聚算法二分網絡社區挖掘算法

    針對二分網絡中社區挖掘的準確性不高、對額外參數的依賴較大的問題,基于譜聚算法的思想,從二分網絡的拓撲結構展開,提出了一種改進的社區挖掘算法
    發表于 12-27 10:06 ?0次下載
    基于聚<b class='flag-5'>類</b><b class='flag-5'>算法</b>的<b class='flag-5'>二分</b>網絡社區挖掘<b class='flag-5'>算法</b>

    非線性AdaBoost算法

    AdaBoost是數據挖掘領域最常見的提升算法之一。對傳統AdaBoost將各個基分類器線性相加所存在的不足進行分析,并針對AdaBoost
    發表于 01-04 16:58 ?0次下載

    基于可能性均值聚二分類支持向量機

    提出基于可能性均值聚(Possibilistic Two Means, P2M)的二分類支持向量機(Support Vector Machine,SVM)。該算法先用P2M對未知類
    發表于 01-09 10:45 ?0次下載

    閾值分類器組合的多標簽分類算法

    ,證明了該算法能克服固定分段閾值分類器對分類邊界附近點分類不穩定的缺點從而提高分類準確率;然后,采用二分
    發表于 01-22 17:01 ?1次下載

    Adaboost算法總結

    集成學習的Boosting算法通過結合多個弱學習器組成強學習器,AdaBoost算法是Boosting算法中的一種,本文詳細的總結了AdaBoost
    的頭像 發表于 12-29 16:08 ?3143次閱讀
    <b class='flag-5'>Adaboost</b><b class='flag-5'>算法</b>總結

    基于AdaBoost算法的復雜網絡鏈路預測

    鄰接矩陣,完成樣本的矩陣化處理;然后采用 Adaboost算法進行分類訓練,通過權重投票獲取預測結果;最后,考慮到復雜網絡弱分類器預測正負誤差分布的不均衡問題,設置權重調整因子η及其調
    發表于 04-08 11:21 ?15次下載
    基于<b class='flag-5'>AdaBoost</b><b class='flag-5'>算法</b>的復雜網絡鏈路預測

    一種融合語義模型的二分網絡推薦算法

    當前基于二分網絡的推薦算法未考慮推薦對象之間的語義關系,因此文中提出一種融合語義模型的二分網絡推薦算法。該算法利用作者主題模型將推薦對象的語
    發表于 04-28 13:53 ?4次下載
    一種融合語義模型的<b class='flag-5'>二分</b>網絡推薦<b class='flag-5'>算法</b>

    二分搜索算法運用的框架套路

    我們前文 我作了首詩,保你閉著眼睛也能寫對二分查找 詳細介紹了二分搜索的細節問題,探討了「搜索一個元素」,「搜索左側邊界」,「搜索右側邊界」這三個情況,教你如何寫出正確無 bug 的二分搜索
    的頭像 發表于 08-25 16:06 ?1870次閱讀

    如何理解二分查找算法

    本文就來探究幾個最常用的二分查找場景:尋找一個數、尋找左側邊界、尋找右側邊界。 而且,我們就是要深入細節,比如不等號是否應該帶等號,mid 是否應該加一等等。分析這些細節的差異以及出現這些差異的原因,保證你能靈活準確地寫出正確的二分查找
    的頭像 發表于 04-19 11:10 ?670次閱讀
    如何理解<b class='flag-5'>二分</b>查找<b class='flag-5'>算法</b>
    主站蜘蛛池模板: 国产精品久久新婚兰兰 | 特黄特色大片免费播放器9 特黄特色大片免费视频播放 | 天天摸夜夜操 | bt在线搜索 | 草伊人 | sss欧美一区二区三区 | 国产精品久久久久久久久免费观看 | 久操色| 在线免费观看91 | 曰本又色又爽又黄三级视频 | 国产精品美乳在线观看 | 亚洲最大毛片 | 最新版天堂资源8网 | 久久久久四虎国产精品 | 国产又爽又黄又粗又大 | 午夜影视网站 | 国产图片区 | 日本一区二区三区免费看 | 免费视频网站在线看视频 | 欧美极品色影院 | 中出丰满大乳中文字幕 | 亚洲系列中文字幕一区二区 | 日本午夜片成年www 日本午夜三级 | 夜夜夜网 | 色偷偷91久久综合噜噜噜 | 怡红院网址| 甘婷婷一级毛片免费看 | 色视频在线观看 | 日本黄色片在线播放 | 日本在线不卡免费 | 天天爱天天做久久天天狠狼 | 永久免费精品影视网站 | 亚洲看片 | 日韩免费观看视频 | 成熟女性毛茸茸xx免费视频 | 免费jyzzjyzz在线播放大全 | 国产经典三级在线 | 91高清在线成人免费观看 | 色88888久久久久久影院 | 成年男人午夜片免费观看 | 直接观看黄网站免费视频 |