在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GBDT是如何用于分類的

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-12-26 10:30 ? 次閱讀

? 因為用樹模型太習以為常了,以至于看到這個標題很容易覺得這很顯然。但越簡單的東西越容易出現知識盲區,仔細想一下好像確實有點疑問:GBDT 用的是回歸樹,是如何做的分類呢? - 作者:1直在路上1 -https://www.cnblogs.com/always-fight/p/9400346.html 編輯:阿澤的學習筆記 ?

一 簡介

GBDT 在傳統機器學習算法里面是對真實分布擬合的最好的幾種算法之一,在前幾年深度學習還沒有大行其道之前,GBDT 在各種競賽是大放異彩。原因大概有幾個

效果確實挺不錯;

既可以用于分類也可以用于回歸;

可以篩選特征。

這三點實在是太吸引人了,導致在面試的時候大家也非常喜歡問這個算法。

GBDT 是通過采用加法模型(即基函數的線性組合),以及不斷減小訓練過程產生的殘差來達到將數據分類或者回歸的算法。

GBDT 通過多輪迭代,每輪迭代產生一個弱分類器,每個分類器在上一輪分類器的殘差基礎上進行訓練。對弱分類器的要求一般是足夠簡單,并且是低方差和高偏差的。因為訓練的過程是通過降低偏差來不斷提高最終分類器的精度。

二 GBDT如何用于分類的

第一步:「訓練的時候,是針對樣本 X 每個可能的類都訓練一個分類回歸樹」。如目前的訓練集共有三類,即 K = 3,樣本 x 屬于第二類,那么針對樣本x的分類結果,我們可以用一個三維向量 [0,1,0] 來表示,0 表示不屬于該類,1 表示屬于該類,由于樣本已經屬于第二類了,所以第二類對應的向量維度為 1,其他位置為 0。

針對樣本有三類的情況,我們實質上是在每輪的訓練的時候是同時訓練三顆樹。第一顆樹針對樣本 x 的第一類,輸入是 ,第二顆樹針對樣本x的第二類,輸入是 ,第三顆樹針對樣本x的第三類,輸入是 。

在對樣本 x 訓練后產生三顆樹,對 x 類別的預測值分別是 ,那么在此類訓練中,樣本 x 屬于第一類,第二類,第三類的概率分別是:

然后可以求出針對第一類,第二類,第三類的殘差分別是:

然后開始第二輪訓練,針對第一類輸入為 ,針對第二類輸入為 ,針對第三類輸入為 ,繼續訓練出三顆樹。一直迭代M輪,每輪構建三棵樹當訓練完畢以后,新來一個樣本 ,我們需要預測該樣本的類別的時候,便產生三個值 ,則樣本屬于某個類別 c 的概率為:

三 GBDT多分類舉例說明

下面以 Iris 數據集的六個數據為例來展示 GBDT 多分類的過程

d248a150-4692-11eb-8b86-12bb97331649.png

具體應用到 gbdt 多分類算法。我們用一個三維向量來標志樣本的 label,[1,0,0] 表示樣本屬于山鳶尾,[0,1,0] 表示樣本屬于雜色鳶尾,[0,0,1] 表示屬于維吉尼亞鳶尾。

gbdt 的多分類是針對每個類都獨立訓練一個 CART Tree。所以這里,我們將針對山鳶尾類別訓練一個 CART Tree 1。雜色鳶尾訓練一個 CART Tree 2 。維吉尼亞鳶尾訓練一個CART Tree 3,這三個樹相互獨立。

我們以樣本 1 為例:

針對 CART Tree1 的訓練樣本是 [5.1,3.5,1.4,0.2],label 是 1,模型輸入為 [5.1, 3.5, 1.4, 0.2, 1]

針對 CART Tree2 的訓練樣本是 [5.1,3.5,1.4,0.2],label 是 0,模型輸入為 [5.1, 3.5, 1.4, 0.2, 0]

針對 CART Tree3 的訓練樣本是 [5.1,3.5,1.4,0.2],label 是 0,模型輸入為[5.1, 3.5, 1.4, 0.2, 0]

下面我們來看 CART Tree1 是如何生成的,其他樹 CART Tree2 , CART Tree 3 的生成方式是一樣的。CART Tree 的生成過程是從這四個特征中找一個特征做為 CART Tree1 的節點。

比如花萼長度做為節點。6 個樣本當中花萼長度大于等于 5.1 cm 的就是 A 類,小于 5.1 cm 的是 B 類。生成的過程其實非常簡單,問題

是哪個特征最合適?

是這個特征的什么特征值作為切分點?

即使我們已經確定了花萼長度做為節點。花萼長度本身也有很多值。在這里我們的方式是遍歷所有的可能性,找到一個最好的特征和它對應的最優特征值可以讓當前式子的值最小:

我們以第一個特征的第一個特征值為例。R1 為所有樣本中花萼長度小于 5.1cm 的樣本集合,R2 為所有樣本中花萼長度大于等于 5.1cm 的樣本集合,所以 。

d2763b74-4692-11eb-8b86-12bb97331649.png

為 R1 所有樣本label的均值:, 為 R2 所有樣本 label 的均值:

下面計算損失函數的值,采用平方誤差,分別計算 R1 和 R2 的誤差平方和,樣本 2 屬于 R1 的誤差:,樣本 1,3,4,5,6 屬于 R2 的誤差和:

接著我們計算第一個特征的第二個特征值,即 R1 為所有樣本中花萼長度小于 4.9 cm 的樣本集合,R2 為所有樣本當中花萼長度大于等于 4.9 cm 的樣本集合,, 為 R1 所有樣本 label 的均值:0, 為 R2 所有樣本 label 的均值:

d2b2c436-4692-11eb-8b86-12bb97331649.png

計算所有樣本的損失值,樣本 1 和 2 屬于 R2,損失值為:,樣本 3,4,5,6 也屬于 R2,損失值為:,兩組損失值和為 2.222,大于特征一的第一個特征值的損失值,所以我們不取這個特征的特征值。

「繼續,這里有四個特征,每個特征有六個特征值,所有需要 6*4=24 個損失值的計算,我們選取值最小的分量的分界點作為最佳劃分點,這里我們就不一一計算了,直接給出最小的特征花萼長度,特征值為 5.1 cm。這個時候損失函數最小為 0.8。于是我們的預測函數此時也可以得到:」

「此例子中,訓練完以后的最終式子為:」

由這個式子,我們得到對樣本屬于類別 1 的預測值:,同理我們可以得到對樣本屬于類別 2,3 的預測值 ,樣本屬于類別 1 的概率

責任編輯:xj

原文標題:GBDT 如何用于分類問題

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4631

    瀏覽量

    93425
  • 機器學習
    +關注

    關注

    66

    文章

    8446

    瀏覽量

    133123
  • GBDT
    +關注

    關注

    0

    文章

    13

    瀏覽量

    3918

原文標題:GBDT 如何用于分類問題

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AN-737: 如何用ADIsimADC完成ADC建模

    電子發燒友網站提供《AN-737: 如何用ADIsimADC完成ADC建模.pdf》資料免費下載
    發表于 01-13 14:54 ?0次下載
    AN-737: 如<b class='flag-5'>何用</b>ADIsimADC完成ADC建模

    斷路器的分類及應用領域

    斷路器的分類 斷路器可以根據不同的標準進行分類,以下是幾種常見的分類方式: 按極數分類 : 單極斷路器:用于單相電路。 雙極斷路器:
    的頭像 發表于 01-03 09:33 ?341次閱讀

    生物芯片有哪些分類

    全球首個生物芯片產品問世雖然已有20多年的時間,但生物芯片分類方式仍沒有完全統一的標準。比較常見的分類方式有3種,分別是按用途、作用方式和成分來分類。 (1)用途分類 生物電子芯片:
    的頭像 發表于 12-03 15:42 ?386次閱讀

    秒懂連接器分類及應用

    連接器是一種用于連接和傳輸電子信號或電力信號的設備,廣泛應用于各個領域,如電子設備、通信網絡、電力系統等。根據其功能和結構特點,連接器可以分為多種類型,并在不同的應用中發揮著不同的作用。下面小欣從
    的頭像 發表于 11-12 01:00 ?1638次閱讀
    秒懂連接器<b class='flag-5'>分類</b>及應用

    變頻電機的主要應用類型有哪些?如何分類

    變頻電機是一種通過改變電源頻率來調整電機轉速的電機。這種電機廣泛應用于各種工業和商業領域,以提高能效、減少能源消耗和提高生產效率。變頻電機的主要應用類型可以根據其功能、結構和應用領域進行分類。以下
    的頭像 發表于 10-24 10:50 ?314次閱讀

    減速電機該如何分類

    減速電機是一種將電能轉換為機械能的設備,通過內置的減速機構來降低電機的轉速,同時增加扭矩。這種設備廣泛應用于各種工業自動化、輸送系統、機器人等領域。減速電機可以根據不同的標準進行分類,以下是一些常見
    的頭像 發表于 10-24 10:19 ?529次閱讀

    異步電機應用類型與如何分類

    異步電機,也稱為感應電機,是一種交流電機,其轉子不需要外部電源供電。它廣泛應用于各種工業和家庭設備中,因其結構簡單、維護方便、成本較低等優點而受到青睞。異步電機可以根據不同的標準進行分類,以下是一些
    的頭像 發表于 10-22 09:50 ?460次閱讀

    何用Jacinto內部的GPtimer輸出PWM信號控制屏幕背光

    電子發燒友網站提供《如何用Jacinto內部的GPtimer輸出PWM信號控制屏幕背光.pdf》資料免費下載
    發表于 09-29 10:25 ?0次下載
    如<b class='flag-5'>何用</b>Jacinto內部的GPtimer輸出PWM信號控制屏幕背光

    何用PMBus解碼UCD90xxx故障日志

    電子發燒友網站提供《如何用PMBus解碼UCD90xxx故障日志.pdf》資料免費下載
    發表于 09-25 10:04 ?0次下載
    如<b class='flag-5'>何用</b>PMBus解碼UCD90xxx故障日志

    何用 S7-200 實現 Modbus 通信?

    電子發燒友網站提供《如何用 S7-200 實現 Modbus 通信?.pdf》資料免費下載
    發表于 09-14 10:22 ?1次下載

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習和深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨著深度學習技術
    的頭像 發表于 07-09 15:54 ?1197次閱讀

    調頻信號的分類和依據有哪些

    調頻信號(FM,Frequency Modulation)是一種無線電信號調制方式,通過改變載波信號的頻率來傳輸信息。調頻信號廣泛應用于廣播、通信、雷達等領域。本文將詳細介紹調頻信號的分類和依據
    的頭像 發表于 06-03 09:40 ?2307次閱讀

    光纖口分類怎么劃分

    光纖接口是用來連接光纖線纜的物理接口,根據不同的分類標準,光纖接口可以分為多種類型。以下是一些常見的光纖接口分類: 按接口形狀分類: FC接口:Ferrule Connector的縮寫,外部加強方式
    的頭像 發表于 05-27 10:10 ?1228次閱讀

    貼片電容的分類詳細

    貼片電容是一種常見的電子元器件,根據不同的標準可以有多種分類。以下是一些常見的貼片電容分類及詳細介紹: 1、按照材料類型分類: 陶瓷貼片電容:采用陶瓷材料制造,具有穩定性好、壽命長、成本低等優點
    的頭像 發表于 04-02 14:55 ?1736次閱讀

    光模塊分類說明及區別

    本文對光模塊的分類進行說明,包括按照傳輸速率、封裝類型、波長、模式、傳輸距離、拉環顏色、使用溫度和品牌等分類方式。不同類型光模塊適用于不同的需求場景。
    的頭像 發表于 03-06 10:52 ?3340次閱讀
    主站蜘蛛池模板: 免费边摸边吃奶边叫床视频gif | 9999毛片免费看 | 性欧美视频 | 天天搞天天色 | 道区二区三区四区 | 我要看一级大片 | 亚洲色图综合图区 | 韩国视频在线播放 | 91网视频在线观看 | 鸥美毛片| 久久久综合久久 | 三级视频网站 | 77成人| 男女刺激性视频大片 | 正在播放国产女免费 | 四虎影院观看视频在线观看 | 色骚网| 色屁屁www影院免费观看视频 | a久久久久一级毛片护士免费 | 一色桃子juy774在线播放 | 欧美一级高清免费a | 欧美性黑人极品hd网站 | 狠狠狠色丁香婷婷综合久久88 | 天天做爽夜夜做爽 | 97涩涩涩| 日本午夜大片a在线观看 | 欧美一级黄视频 | 三级毛片网站 | 极品美女啪啪 | 久色乳综合思思在线视频 | 国产在线麻豆自在拍91精品 | 五月天精品 | 五月激情电影 | 高清视频黄色录像免费 | 久久99热狠狠色精品一区 | 2021国产精品 | 久草成人在线视频 | 又黄又爽的成人免费网站 | 午夜小视频在线观看 | 亚洲一级影院 | 天天干天天操天天透 |