91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

XGBoost號稱“比賽奪冠的必備大殺器”,橫掃機器學(xué)習競賽罕逢敵手

DPVg_AI_era ? 來源:lq ? 2019-04-30 09:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XGBoost號稱“比賽奪冠的必備大殺器”,橫掃機器學(xué)習競賽罕逢敵手,堪稱機器學(xué)習算法中的新女王!

在涉及非結(jié)構(gòu)化數(shù)據(jù)(圖像、文本等)的預(yù)測問題中,人工神經(jīng)網(wǎng)絡(luò)顯著優(yōu)于所有其他算法或框架。但當涉及到中小型結(jié)構(gòu)/表格數(shù)據(jù)時,基于決策樹的算法現(xiàn)在被認為是最佳方法。而基于決策樹算法中最驚艷的,非XGBoost莫屬了。

打過Kaggle、天池、DataCastle、Kesci等國內(nèi)外數(shù)據(jù)競賽平臺之后,一定對XGBoost的威力印象深刻。XGBoost號稱“比賽奪冠的必備大殺器”,橫掃機器學(xué)習競賽罕逢敵手。最近甚至有一位大數(shù)據(jù)/機器學(xué)習主管被XGBoost在項目中的表現(xiàn)驚艷到,盛贊其為“機器學(xué)習算法中的新女王”!

XGBoost最初由陳天奇開發(fā)。陳天奇是華盛頓大學(xué)計算機系博士生,研究方向為大規(guī)模機器學(xué)習。他曾獲得KDD CUP 2012 Track 1第一名,并開發(fā)了SVDFeature,XGBoost,cxxnet等著名機器學(xué)習工具,是Distributed (Deep) Machine Learning Common的發(fā)起人之一。

XGBoost實現(xiàn)了高效、跨平臺、分布式gradient boosting (GBDT, GBRT or GBM) 算法的一個庫,可以下載安裝并應(yīng)用于C++Python,R,Julia,Java,Scala,Hadoop等。目前Github上超過15700星、6500個fork。

項目主頁:

https://XGBoost.ai/

XGBoost是什么

XGBoost全稱:eXtreme Gradient Boosting,是一種基于決策樹的集成機器學(xué)習算法,使用梯度上升框架,適用于分類和回歸問題。優(yōu)點是速度快、效果好、能處理大規(guī)模數(shù)據(jù)、支持多種語言、支持自定義損失函數(shù)等,不足之處是因為僅僅推出了不足5年時間,需要進一步的實踐檢驗。

XGBoost選用了CART樹,數(shù)學(xué)公式表達XGBoost模型如下:

K是樹的數(shù)量,F(xiàn)表示所有可能的CART樹,f表示一棵具體的CART樹。這個模型由K棵CART樹組成。

模型的目標函數(shù),如下所示:

XGBoost具有以下幾個特點:

靈活性:支持回歸、分類、排名和用戶定義函數(shù)

跨平臺:適用于Windows、Linux、macOS,以及多個云平臺

多語言:支持C++, Python, R, Java, Scala, Julia等

效果好:贏得許多數(shù)據(jù)科學(xué)和機器學(xué)習挑戰(zhàn)。用于多家公司的生產(chǎn)

云端分布式:支持多臺計算機上的分布式訓(xùn)練,包括AWS、GCE、Azure和Yarn集群。可以與Flink、Spark和其他云數(shù)據(jù)流系統(tǒng)集成

下圖顯示了基于樹的算法的發(fā)展歷程:

決策樹:由一個決策圖和可能的結(jié)果(包括資源成本和風險)組成, 用來創(chuàng)建到達目標的規(guī)劃。

Bagging:是一種集合元算法,通過多數(shù)投票機制將來自多決策樹的預(yù)測結(jié)合起來,也就是將弱分離器 f_i(x) 組合起來形成強分類器 F(x) 的一種方法

隨機森林:基于Bagging算法。隨機選擇一個包含多種特性的子集來構(gòu)建一個森林,或者決策樹的集合

Boosting:通過最小化先前模型的誤差,同時增加高性能模型的影響,順序構(gòu)建模型

梯度上升:對于似然函數(shù),要求最大值,叫做梯度上升

XGBoost:極端梯度上升,XGBoost是一個優(yōu)化的分布式梯度上升庫,旨在實現(xiàn)高效,靈活和跨平臺

為什么XGBoost能橫掃機器學(xué)習競賽平臺?

下圖是XGBoost與其它gradient boosting和bagged decision trees實現(xiàn)的效果比較,可以看出它比R, Python,Spark,H2O的基準配置都快。

XGBoost和Gradient Boosting Machines(GBMs)都是集合樹方法,使用梯度下降架構(gòu)來提升弱學(xué)習者(通常是CART)。而XGBoost通過系統(tǒng)優(yōu)化和算法增強改進了基礎(chǔ)GBM框架,在系統(tǒng)優(yōu)化和機器學(xué)習原理方面都進行了深入的拓展。

系統(tǒng)優(yōu)化:

并行計算:

由于用于構(gòu)建base learners的循環(huán)的可互換性,XGBoost可以使用并行計算實現(xiàn)來處理順序樹構(gòu)建過程。

外部循環(huán)枚舉樹的葉節(jié)點,第二個內(nèi)部循環(huán)來計算特征,這個對算力要求更高一些。這種循環(huán)嵌套限制了并行化,因為只要內(nèi)部循環(huán)沒有完成,外部循環(huán)就無法啟動。

因此,為了改善運行時,就可以讓兩個循環(huán)在內(nèi)部交換循環(huán)的順序。此開關(guān)通過抵消計算中的所有并行化開銷來提高算法性能。

Tree Pruning:

GBM框架內(nèi)樹分裂的停止標準本質(zhì)上是貪婪的,取決于分裂點的負損失標準。XGBoost首先使用'max_depth'參數(shù)而不是標準,然后開始向后修剪樹。這種“深度優(yōu)先”方法顯著的提高了計算性能。

硬件優(yōu)化:

該算法旨在有效利用硬件資源。這是通過在每個線程中分配內(nèi)部緩沖區(qū)來存儲梯度統(tǒng)計信息來實現(xiàn)緩存感知來實現(xiàn)的。諸如“核外”計算等進一步增強功能可優(yōu)化可用磁盤空間,同時處理不適合內(nèi)存的大數(shù)據(jù)幀。

算法增強:

正則化:

它通過LASSO(L1)和Ridge(L2)正則化來懲罰更復(fù)雜的模型,以防止過擬合。

稀疏意識:

XGBoost根據(jù)訓(xùn)練損失自動“學(xué)習”最佳缺失值并更有效地處理數(shù)據(jù)中不同類型的稀疏模式。

加權(quán)分位數(shù)草圖:

XGBoost采用分布式加權(quán)分位數(shù)草圖算法,有效地找到加權(quán)數(shù)據(jù)集中的最優(yōu)分裂點。

交叉驗證:

該算法每次迭代時都帶有內(nèi)置的交叉驗證方法,無需顯式編程此搜索,并可以指定單次運行所需的增強迭代的確切數(shù)量。

為了測試XGBoost到底有多快,可以通過Scikit-learn的'Make_Classification'數(shù)據(jù)包,創(chuàng)建一個包含20個特征(2個信息和2個冗余)的100萬個數(shù)據(jù)點的隨機樣本。

下圖為邏輯回歸,隨機森林,標準梯度提升和XGBoost效率對比:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:陳天奇做的XGBoost為什么能橫掃機器學(xué)習競賽平臺?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    超燃!人形機器人格斗賽,這隊奪冠

    電子發(fā)燒友網(wǎng)綜合報道 5月25日晚,《CMG世界機器人大賽·系列賽》機甲格斗擂臺賽在杭州舉行,這是全球首個以人形機器人為參賽主體的格斗競技賽事。 ? 這場比賽主要由表演賽和競技賽兩部分組成,雖然是四
    的頭像 發(fā)表于 05-27 00:07 ?2758次閱讀
    超燃!人形<b class='flag-5'>機器</b>人格斗賽,這隊<b class='flag-5'>奪冠</b>!

    SLAMTEC Aurora:把深度學(xué)習“卷”進機器人日常

    在人工智能和機器人技術(shù)飛速發(fā)展的今天,深度學(xué)習與SLAM(同步定位與地圖構(gòu)建)技術(shù)的結(jié)合,正引領(lǐng)著智能機器人行業(yè)邁向新的高度。最近科技圈頂流DeepSeek簡直瘋了!靠著逆天的深度
    的頭像 發(fā)表于 02-19 15:49 ?456次閱讀

    xgboost超參數(shù)調(diào)優(yōu)技巧 xgboost在圖像分類中的應(yīng)用

    一、XGBoost超參數(shù)調(diào)優(yōu)技巧 XGBoost(eXtreme Gradient Boosting)是一種基于梯度提升決策樹(GBDT)的高效梯度提升框架,在機器學(xué)習
    的頭像 發(fā)表于 01-31 15:16 ?1225次閱讀

    常見xgboost錯誤及解決方案

    XGBoost(eXtreme Gradient Boosting)是一種流行的機器學(xué)習算法,用于解決分類和回歸問題。盡管它非常強大和靈活,但在使用過程中可能會遇到一些常見的錯誤。以下是一些常見
    的頭像 發(fā)表于 01-19 11:22 ?2484次閱讀

    使用Python實現(xiàn)xgboost教程

    使用Python實現(xiàn)XGBoost模型通常涉及以下幾個步驟:數(shù)據(jù)準備、模型訓(xùn)練、模型評估和模型預(yù)測。以下是一個詳細的教程,指導(dǎo)你如何在Python中使用XGBoost。 1. 安裝XGBoost
    的頭像 發(fā)表于 01-19 11:21 ?1364次閱讀

    xgboost與LightGBM的優(yōu)勢對比

    機器學(xué)習領(lǐng)域,集成學(xué)習算法因其出色的性能和泛化能力而受到廣泛關(guān)注。其中,XGBoost和LightGBM是兩種非常流行的梯度提升框架。 1. 算法基礎(chǔ)
    的頭像 發(fā)表于 01-19 11:18 ?1235次閱讀

    xgboost的并行計算原理

    在大數(shù)據(jù)時代,機器學(xué)習算法需要處理的數(shù)據(jù)量日益增長。為了提高數(shù)據(jù)處理的效率,許多算法都開始支持并行計算。XGBoost作為一種高效的梯度提升樹算法,其并行計算能力是其受歡迎的原因
    的頭像 發(fā)表于 01-19 11:17 ?1003次閱讀

    xgboost在圖像分類中的應(yīng)用

    XGBoost(eXtreme Gradient Boosting)是一種高效的機器學(xué)習算法,它基于梯度提升框架,通過構(gòu)建多個弱學(xué)習(通常
    的頭像 發(fā)表于 01-19 11:16 ?991次閱讀

    如何選擇云原生機器學(xué)習平臺

    當今,云原生機器學(xué)習平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?452次閱讀

    【「嵌入式系統(tǒng)設(shè)計與實現(xiàn)」閱讀體驗】+ 學(xué)習一個STM32的案例

    《嵌入式系統(tǒng)設(shè)計與實現(xiàn)——第六屆全國大學(xué)生嵌入式芯片與系統(tǒng)設(shè)計競賽芯片應(yīng)用賽道優(yōu)秀作品剖析》一書的基本情況。今天來學(xué)習一個具體的案例。 這本書中意法半導(dǎo)體的案例是最多的,尤其是第二部分,占比極高,這也
    發(fā)表于 12-06 22:22

    什么是機器學(xué)習?通過機器學(xué)習方法能解決哪些問題?

    來源:Master編程樹“機器學(xué)習”最初的研究動機是讓計算機系統(tǒng)具有人的學(xué)習能力以便實現(xiàn)人工智能。因為沒有學(xué)習能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?962次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習</b>方法能解決哪些問題?

    NPU與機器學(xué)習算法的關(guān)系

    在人工智能領(lǐng)域,機器學(xué)習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習機器
    的頭像 發(fā)表于 11-15 09:19 ?1211次閱讀

    入門?畢設(shè)?競賽?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)學(xué)習,有這幾款開發(fā)板就夠了!

    、項目練手、創(chuàng)新競賽、技能認證等。01STM32入門+項目進階學(xué)習適用場合高校教學(xué)、學(xué)生畢設(shè)、個人學(xué)習、項目練手、創(chuàng)新競賽、技術(shù)認證可學(xué)習
    的頭像 發(fā)表于 10-10 16:31 ?1109次閱讀
    入門?畢設(shè)?<b class='flag-5'>競賽</b>?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)<b class='flag-5'>學(xué)習</b>,有這幾款開發(fā)板就夠了!

    AMD贊助多支FIRST機器競賽團隊

    AMD 在 2024 賽季贊助了多支 FIRST 機器競賽團隊。FIRST 機器競賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機器人,同時
    的頭像 發(fā)表于 09-18 09:45 ?860次閱讀

    20.2-電磁桿在磁軌道的測試 零基礎(chǔ)入門智能車競賽 STM32電磁小車

    20.2-電磁桿在磁軌道的測試 零基礎(chǔ)入門智能車競賽 智能車競賽 電磁桿原理圖 電磁循跡小車 智能車電磁組 STM32電磁小車 電磁循跡小車 電磁循跡算法 智能車環(huán)島 智能車比賽規(guī)則 智能車
    的頭像 發(fā)表于 08-20 10:52 ?1143次閱讀
    20.2-電磁桿在磁軌道的測試 零基礎(chǔ)入門智能車<b class='flag-5'>競賽</b> STM32電磁小車
    主站蜘蛛池模板: aaaa黄色片 | 色视频大全 | 黄色美女网址 | 99伊人| 午夜视频在线观看免费观看在线观看 | 亚洲情a成黄在线观看 | 性视频一区 | 二级黄的全免费视频 | 99综合色| 午夜三级网站 | 色多多黄色 | 婷婷爱爱 | 三级黄色一级视频 | 中文字幕亚洲综合久久2 | 久久久久国产精品免费网站 | 天天操天天舔 | bt 另类 专区 欧美 制服 | 成人亚洲欧美在线电影www色 | 最近高清免费观看视频 | 你懂的国产 | 色偷偷亚洲综合网亚洲 | 久久婷婷综合五月一区二区 | 欧美精品网站 | 人人玩人人弄人人曰 | 日本一区二区三区免费看 | 天天操天天做 | 欧美成人免费全部观看天天性色 | 亚洲黄色三级视频 | 天堂w| 2023天天操 | 亚洲va国产va天堂va久久 | 久久草在线看 | 亚洲理论视频 | 特黄一级大片 | 中文字幕天堂 | 国产精品成人观看视频国产奇米 | 黄视频在线观看免费 | 超碰v| 美女张开腿让男生桶出水 | 国内自拍 亚洲系列 欧美系列 | 欧美艹逼视频 |