91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么深度學習模型經常出現預測概率和真實情況差異大的問題?

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:Fareise ? 2022-09-09 17:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家在訓練深度學習模型的時候,有沒有遇到這樣的場景:分類任務的準確率比較高,但是模型輸出的預測概率和實際預測準確率存在比較大的差異?這就是現代深度學習模型面臨的校準問題。在很多場景中,我們不僅關注分類效果或者排序效果(auc),還希望模型預測的概率也是準的。例如在自動駕駛場景中,如果模型無法以置信度較高的水平檢測行人或障礙物,就應該通過輸出概率反映出來,并讓模型依賴其他信息進行決策。再比如在廣告場景中,ctr預測除了給廣告排序外,還會用于確定最終的扣費價格,如果ctr的概率預測的不準,會導致廣告主的扣費偏高或偏低。

那么,為什么深度學習模型經常出現預測概率和真實情況差異大的問題?又該如何進行校準呢?這篇文章首先給大家介紹模型輸出預測概率不可信的原因,再為大家通過10篇頂會論文介紹經典的校準方法,可以適用于非常廣泛的場景

1 為什么會出現校準差的問題

最早進行系統性的分析深度學習輸出概率偏差問題的是2017年在ICML發表的一篇文章On calibration of modern neural networks(ICML 2017)。文中發現,相比早期的簡單神經網絡模型,現在的模型越來越大,效果越來越好,但同時模型的校準性越來越差。文中對比了簡單模型LeNet和現代模型ResNet的校準情況,LeNet的輸出結果校準性很好,而ResNet則出現了比較嚴重的過自信問題(over-confidence),即模型輸出的置信度很高,但實際的準確率并沒有那么高。

d29db7d4-2f5d-11ed-ba43-dac502259ad0.png

造成這個現象的最本質原因,是模型對分類問題通常使用的交叉熵損失過擬合。并且模型越復雜,擬合能力越強,越容易過擬合交叉熵損失,帶來校準效果變差。這也解釋了為什么隨著深度學習模型的發展,校準問題越來越凸顯出來。

那么為什么過擬合交叉熵損失,就會導致校準問題呢?因為根據交叉熵損失的公式可以看出,即使模型已經在正確類別上的輸出概率值最大(也就是分類已經正確了),繼續增大對應的概率值仍然能使交叉熵進一步減小。因此模型會傾向于over-confident,即對于樣本盡可能的讓模型預測為正確的label對應的概率接近1。模型過擬合交叉熵,帶來了分類準確率的提升,但是犧牲的是模型輸出概率的可信度。

如何解決校準性差的問題,讓模型輸出可信的概率值呢?業內的主要方法包括后處理和在模型中聯合優化校準損失兩個方向,下面給大家分別進行介紹。

2 后處理校準方法

后處理校準方法指的是,先正常訓練模型得到初始的預測結果,再對這些預測概率值進行后處理,讓校準后的預測概率更符合真實情況。典型的方法包括Histogram binning(2001)Isotonic regression(2002)Platt scaling(1999)

Histogram binning是一種比較簡單的校準方法,根據初始預測結果進行排序后分桶,每個桶內求解一個校準后的結果,落入這個桶內的預測結果,都會被校準成這個值。每個桶校準值的求解方法是利用一個驗證集進行擬合,求解桶內平均誤差最小的值,其實也就是落入該桶內正樣本的比例。

Isotonic regression是Histogram binning一種擴展,通過學習一個單調增函數,輸入初始預測結果,輸出校準后的預測結果,利用這個單調增函數最小化預測值和label之間的誤差。保序回歸就是在不改變預測結果的排序(即不影響模型的排序能力),通過修改每個元素的值讓整體的誤差最小,進而實現模型糾偏。

Platt scaling則直接使用一個邏輯回歸模型學習基礎預測值到校準預測值的函數,利用這個函數實現預測結果校準。在獲得基礎預估結果后,以此作為輸入,訓練一個邏輯回歸模型,擬合校準后的結果,也是在一個單獨的驗證集上進行訓練。這個方法的問題在于對校準前的預測值和真實值之間的關系做了比較強分布假設。

3 在模型中進行校準

除了后處理的校準方法外,一些在模型訓練過程中實現校準的方法獲得越來越多的關注。在模型中進行校準避免了后處理的兩階段方式,主要包括在損失函數中引入校準項、label smoothing以及數據增強三種方式

基于損失函數的校準方法最基礎的是On calibration of modern neural networks(ICML 2017)這篇文章提出的temperature scaling方法。Temperature scaling的實現方式很簡單,把模型最后一層輸出的logits(softmax的輸入)除以一個常數項。這里的temperature起到了對logits縮放的作用,讓輸出的概率分布熵更大(溫度系數越大越接近均勻分布)。同時,這樣又不會改變原來預測類別概率值的相對排序,因此理論上不會對模型準確率產生負面影響。

Trainable calibration measures for neural networks from kernel mean embeddings(2018)這篇文章中,作者直接定義了一個可導的校準loss,作為一個輔助loss在模型中和交叉熵loss聯合學習。本文定義的MMCE原理來自評估模型校準度的指標,即模型輸出類別概率值與模型正確預測該類別樣本占比的差異。

Calibrating deep neural networks using focal loss(NIPS 2020)中,作者提出直接使用focal loss替代交叉熵損失,就可以起到校準作用。Focal loss是表示學習中的常用函數,對focal loss不了解的同學可以參考之前的文章:表示學習中的7大損失函數梳理。作者對focal loss進行推倒,可以拆解為如下兩項,分別是預測分布與真實分布的KL散度,以及預測分布的熵。KL散度和一般的交叉熵作用相同,而第二項在約束模型輸出的預測概率值熵盡可能大,其實和temperature scaling的原理類似,都是緩解模型在某個類別上打分太高而帶來的過自信問題:

d2c6ff68-2f5d-11ed-ba43-dac502259ad0.png

除了修改損失函數實現校準的方法外,label smoothing也是一種常用的校準方法,最早在Regularizing neural networks by penalizing confident output distributions(ICLR 2017)中提出了label smoothing在模型校準上的應用,后來又在When does label smoothing help? (NIPS 2019)進行了更加深入的探討。Label smoothing通過如下公式對原始的label進行平滑操作,其原理也是增大輸出概率分布的熵:

d2d8641a-2f5d-11ed-ba43-dac502259ad0.png

此外,一些研究也研究了數據增強手段對模型校準的影響。On mixup training: Improved calibration and predictive uncertainty for deep neural networks(NIPS 2019)提出mixup方法可以有效提升模型校準程度。Mixup是一種簡單有效的數據增強策略,具體實現上,隨機從數據集中抽取兩個樣本,將它們的特征和label分別進行加權融合,得到一個新的樣本用于訓練:

d2e354d8-2f5d-11ed-ba43-dac502259ad0.png

文中作者提出,上面融合過程中對label的融合對取得校準效果好的預測結果是非常重要的,這和上面提到的label smoothing思路比較接近,讓label不再是0或1的超低熵分布,來緩解模型過自信問題。

類似的方法還包括CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features(ICCV 2019)提出的一種對Mixup方法的擴展,隨機選擇兩個圖像和label后,對每個patch隨機選擇是否使用另一個圖像相應的patch進行替換,也起到了和Mixup類似的效果。文中也對比了Mixup和CutMix的效果,Mixup由于每個位置都進行插值,容易造成區域信息的混淆,而CutMix直接進行替換,不同區域的差異更加明確。

d2f70370-2f5d-11ed-ba43-dac502259ad0.png

4 總結

本文梳理了深度學習模型的校準方法,包含10篇經典論文的工作。通過校準,可以讓模型輸出的預測概率更加可信,可以應用于各種類型、各種場景的深度學習模型中,適用場景非常廣泛。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103707

原文標題:不要相信模型輸出的概率打分......

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?

    無法在 OpenVINO? 工具套件的深度學習 (DL) 工作臺中導出 INT8 模型
    發表于 03-06 07:54

    ADS1291測試中經常會出現R波變小的情況,為什么?

    最近使用ADS1291的過程中,剛開始非常順利,很快就能正確的采集到波形,噪聲情況良好,但是后面測試的時候發現了一個非常奇怪的問題,測試中經常會出現R波變小的情況,或者R波根本就看不到,而P波、T
    發表于 01-09 06:39

    使用ADUM4121ARIZ輸出15V電壓驅動mos/IGBT時,經常出現10ohm電阻損壞的情況,為什么?

    我在使用ADUM4121ARIZ輸出15V電壓驅動mos/IGBT時,經常出現10ohm電阻損壞的情況,ADUM4121ARIZ的5/6/7/8腳短路。其中10Ohm電阻的右端有一根1米的線纜連接
    發表于 12-19 08:07

    ADS1299利用信號發生器發出的正弦信號讀到的數據經常出現毛刺,怎么解決?

    近期在做ADS1299的開發,利用信號發生器發出的正弦信號讀到的數據經常出現毛刺,調整了SPI的波特率與ADS1299的采樣率都沒有消除毛刺。毛刺的值也不是0,而是很小的,偏離正常曲線的一個值,波形如附圖所示,已經測試官方的開發板與自己做的電路板都出現了同樣的問題,請問
    發表于 12-06 06:52

    RNN的損失函數與優化算法解析

    函數有以下幾種: 交叉熵損失函數 :交叉熵(Cross Entropy)是一種評估兩個概率分布之間差異的度量方法,即通過比較模型預測概率
    的頭像 發表于 11-15 10:16 ?1405次閱讀

    深度學習模型的魯棒性優化

    深度學習模型的魯棒性優化是一個復雜但至關重要的任務,它涉及多個方面的技術和策略。以下是一些關鍵的優化方法: 一、數據預處理與增強 數據清洗 :去除數據中的噪聲和異常值,這是提高模型魯棒
    的頭像 發表于 11-11 10:25 ?1210次閱讀

    用tas5630驅動容性負載,經常出現損壞芯片的現象,怎么解決?

    現在我用tas5630驅動容性負載,但是發現經常出現損壞芯片的現象。并不是說工作了很長時間芯片損壞了,而是在有些頻率點,一上電就壞掉了。這是為什么,有什么好的解決辦法嗎?謝謝
    發表于 11-07 06:33

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發表于 10-27 11:13 ?1390次閱讀

    FPGA加速深度學習模型的案例

    FPGA(現場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速深度學習
    的頭像 發表于 10-25 09:22 ?1242次閱讀

    AI大模型深度學習的關系

    AI大模型深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大
    的頭像 發表于 10-23 15:25 ?2905次閱讀

    FPGA做深度學習能走多遠?

    的應用場景。 ? 可重構性:在深度學習高速迭代的情況下,FPGA 比一些專用芯片(如 ASIC)具有更強的靈活性。當深度學習算法或
    發表于 09-27 20:53

    tvp5150am1 RST腳經常出現復位不正常,為什么?

    最近設計的一塊電路板,TVP5150頻繁出現問題,具體原因還沒查到,現象總結在這里,希望大家幫忙分析下 1、RST腳經常出現復位不正常,電壓值在1.2----3.3V之間。 2、sclk腳輸出
    發表于 09-12 06:23

    使用OPA129構建了一個電荷放大器,6腳輸出經常出現尖峰的原因?

    使用OPA129構建了一個電荷放大器,電路圖和出現的問題如附件中所示。 根據芯片手冊給出的電荷放大電路,構建了如下所示的電路 但是在使用過程中,6腳輸出經常出現尖峰,如下圖所示 請問這是什么原因造成的,有什么辦法能抑制這種尖峰,請幫忙解決一下,謝謝幫助。
    發表于 08-30 06:33

    THS4500 RG和RF的選值對輸出波形的影響怎么解決?

    和RF增加,波動(噪聲)明顯增加?想知道真實情況也會如此嗎? 我的理解,隨著RG和RF增加,噪聲增加是由于小的波動電流,乘以反饋電阻導致的。模型中均為理想情況,為什么會產生波動(噪聲)呢?還是我的原理圖
    發表于 08-05 08:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    一些局限性。例如,模型可能無法完全理解文本中的深層含義和語境信息;同時,由于訓練數據可能存在偏差和噪聲,生成的答案也可能存在不準確或誤導性的情況。 總結以下,大語言模型通過深度
    發表于 08-02 11:03
    主站蜘蛛池模板: 精品视频卡1卡2卡3 精品视频免费看 | 国产乱子伦一区二区三区 | www.你懂的.com| 亚洲一区免费视频 | 国产成人一区二区三中文 | 女攻各种play男受h | 91大神网址| 你懂得视频在线 | 国内久久精品视频 | 午夜操操| 国产精品第页 | 手机在线精品视频 | 美女黄页免费 | 四虎影院国产 | 成年人色网站 | 久操精品在线观看 | 欧美精品xxxⅹ欧美 欧美精品高清在线xxxx | 日本不卡在线观看 | 日韩欧美在线第一页 | 成色视频| 简单视频在线播放jdav | 黄色录像三级 | 男女午夜特黄毛片免费 | 污夜影院| 中文字幕有码在线视频 | 辣h高h肉h激h超h | 看全色黄大色大片免费久久怂 | 久久天天丁香婷婷中文字幕 | 欧美色爱综合网 | 国产精品国产主播在线观看 | 天天操天天操天天射 | 四虎影视永久在线观看 | 国产成年网站v片在线观看 国产成人91青青草原精品 | 五月婷婷色播 | 国产乱子伦 | 国产在线色 | 黄色短视频免费看 | 成年人在线网站 | 日木69xxxhd | 久久婷婷人人澡人人爱91 | 伊人五月婷婷 |