在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型評估、模型選擇和算法選擇技術的正確使用

深度學習自然語言處理 ? 來源:機器之心 ? 作者:機器之心 ? 2022-09-22 14:15 ? 次閱讀

摘要:模型評估、模型選擇和算法選擇技術的正確使用在學術性機器學習研究和諸多產業環境中異常關鍵。本文回顧了用于解決以上三項任務中任何一個的不同技術,并參考理論和實證研究討論了每一項技術的主要優勢和劣勢。進而,給出建議以促進機器學習研究與應用方面的最佳實踐。本文涵蓋了用于模型評估和選擇的常見方法,比如留出方法,但是不推薦用于小數據集。不同風格的 bootstrap 技術也被介紹,以評估性能的不確定性,以作為通過正態空間的置信區間的替代,如果 bootstrapping 在計算上是可行的。在討論偏差-方差權衡時,把 leave-one-out 交叉驗證和 k 折交叉驗證進行對比,并基于實證證據給出 k 的最優選擇的實際提示。論文展示了用于算法對比的不同統計測試,以及處理多種對比的策略(比如綜合測試、多對比糾正)。最后,當數據集很小時,本文推薦替代方法(比如 5×2cv 交叉驗證和嵌套交叉驗證)以對比機器學習算法。

1 簡介:基本的模型評估項和技術

機器學習已經成為我們生活的中心,無論是作為消費者、客戶、研究者還是從業人員。無論將預測建模技術應用到研究還是商業問題,我認為其共同點是:做出足夠好的預測。用模型擬合訓練數據是一回事,但我們如何了解模型的泛化能力?我們如何確定模型是否只是簡單地記憶訓練數據,無法對未見過的樣本做出好的預測?還有,我們如何選擇好的模型呢?也許還有更好的算法可以處理眼前的問題呢?

模型評估當然不是機器學習工作流程的終點。在處理數據之前,我們希望事先計劃并使用合適的技術。本文將概述這類技術和選擇方法,并介紹如何將其應用到更大的工程中,即典型的機器學習工作流。

1.1 性能評估:泛化性能 vs. 模型選擇

讓我們考慮這個問題:「如何評估機器學習模型的性能?」典型的回答可能是:「首先,將訓練數據饋送給學習算法以學習一個模型。第二,預測測試集的標簽。第三,計算模型對測試集的預測準確率。」然而,評估模型性能并非那么簡單。也許我們應該從不同的角度解決之前的問題:「為什么我們要關心性能評估呢?」理論上,模型的性能評估能給出模型的泛化能力,在未見過的數據上執行預測是應用機器學習或開發新算法的主要問題。通常,機器學習包含大量實驗,例如超參數調整。在訓練數據集上用不同的超參數設置運行學習算法最終會得到不同的模型。由于我們感興趣的是從該超參數設置中選擇最優性能的模型,因此我們需要找到評估每個模型性能的方法,以將它們進行排序。

我們需要在微調算法之外更進一步,即不僅僅是在給定的環境下實驗單個算法,而是對比不同的算法,通常從預測性能和計算性能方面進行比較。我們總結一下評估模型的預測性能的主要作用:

評估模型的泛化性能,即模型泛化到未見過數據的能力;

通過調整學習算法和在給定的假設空間中選擇性能最優的模型,以提升預測性能;

確定最適用于待解決問題的機器學習算法。因此,我們可以比較不同的算法,選擇其中性能最優的模型;或者選擇算法的假設空間中的性能最優模型。

雖然上面列出的三個子任務都是為了評估模型的性能,但是它們需要使用的方法是不同的。本文將概述解決這些子任務需要的不同方法。

我們當然希望盡可能精確地預測模型的泛化性能。然而,本文的一個要點就是,如果偏差對所有模型的影響是等價的,那么偏差性能評估基本可以完美地進行模型選擇和算法選擇。如果要用排序選擇最優的模型或算法,我們只需要知道它們的相對性能就可以了。例如,如果所有的性能評估都是有偏差的,并且低估了它們的性能(10%),這不會影響最終的排序。更具體地說,如果我們得到如下三個模型,這些模型的預測準確率如下:

M2: 75% > M1: 70% > M3: 65%,

如果我們添加了 10% 的性能偏差(低估),則三種模型的排序沒有發生改變:

M2: 65% > M1: 60% > M3: 55%.

但是,注意如果最佳模型(M2)的泛化準確率是 65%,很明顯這個精度是非常低的。評估模型的絕對性能可能是機器學習中最難的任務之一。

21b5d478-3a35-11ed-9e49-dac502259ad0.jpg

圖 2:留出驗證方法的圖示。

2 Bootstrapping 和不確定性

本章介紹一些用于模型評估的高級技術。我們首先討論用來評估模型性能不確定性和模型方差、穩定性的技術。之后我們將介紹交叉驗證方法用于模型選擇。如第一章所述,關于我們為什么要關心模型評估,存在三個相關但不同的任務或原因。

我們想評估泛化準確度,即模型在未見數據上的預測性能。

我們想通過調整學習算法、從給定假設空間中選擇性能最好的模型,來改善預測性能。

我們想確定手頭最適合待解決問題的機器學習算法。因此,我們想對比不同的算法,選出性能最好的一個;或從算法的假設空間中選出性能最好的模型。

21c717ce-3a35-11ed-9e49-dac502259ad0.jpg

圖 3:偏差和方差的不同組合的圖示。

21d76494-3a35-11ed-9e49-dac502259ad0.png

圖 4:在 MNIST 數據集上 softmax 分類器的學習曲線。

220610d2-3a35-11ed-9e49-dac502259ad0.jpg

圖 5:二維高斯分布中的重復子采樣。

3 交叉驗證和超參數優化

幾乎所有機器學習算法都需要我們機器學習研究者和從業者指定大量設置。這些超參數幫助我們控制機器學習算法在優化性能、找出偏差方差最佳平衡時的行為。用于性能優化的超參數調整本身就是一門藝術,沒有固定規則可以保證在給定數據集上的性能最優。前面的章節提到了用于評估模型泛化性能的留出技術和 bootstrap 技術。偏差-方差權衡和計算性能估計的不穩定性方法都得到了介紹。本章主要介紹用于模型評估和選擇的不同交叉驗證方法,包括對不同超參數配置的模型進行排序和評估其泛化至獨立數據集的性能。

本章生成圖像的代碼詳見:https://github.com/rasbt/model-eval-article-supplementary/blob/master/code/resampling-and-kfold.ipynb。

2216aa46-3a35-11ed-9e49-dac502259ad0.jpg

圖 11:logistic 回歸的概念圖示。

我們可以把超參數調整(又稱超參數優化)和模型選擇的過程看作元優化任務。當學習算法在訓練集上優化目標函數時(懶惰學習器是例外),超參數優化是基于它的另一項任務。這里,我們通常想優化性能指標,如分類準確度或接受者操作特征曲線(ROC 曲線)下面積。超參數調整階段之后,基于測試集性能選擇模型似乎是一種合理的方法。但是,多次重復使用測試集可能會帶來偏差和最終性能估計,且可能導致對泛化性能的預期過分樂觀,可以說是「測試集泄露信息」。為了避免這個問題,我們可以使用三次分割(three-way split),將數據集分割成訓練集、驗證集和測試集。對超參數調整和模型選擇進行訓練-驗證可以保證測試集「獨立」于模型選擇。這里,我們再回顧一下性能估計的「3 個目標」:

我們想評估泛化準確度,即模型在未見數據上的預測性能。

我們想通過調整學習算法、從給定假設空間中選擇性能最好的模型,來改善預測性能。

我們想確定最適合待解決問題的機器學習算法。因此,我們想對比不同的算法,選出性能最好的一個,從算法的假設空間中選出性能最好的模型。

222647e4-3a35-11ed-9e49-dac502259ad0.jpg

圖 12:超參數調整中三路留出方法(three-way holdout method)圖示。

2234c71a-3a35-11ed-9e49-dac502259ad0.jpg

圖 13:k 折交叉驗證步驟圖示。

223bb37c-3a35-11ed-9e49-dac502259ad0.png

224a8d2a-3a35-11ed-9e49-dac502259ad0.png

227753b4-3a35-11ed-9e49-dac502259ad0.png

圖 16:模型選擇中 k 折交叉驗證的圖示。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7233

    瀏覽量

    90825
  • 機器學習
    +關注

    關注

    66

    文章

    8481

    瀏覽量

    133909
  • 計算模型
    +關注

    關注

    0

    文章

    29

    瀏覽量

    9926

原文標題:綜述 | 機器學習中的模型評價、模型選擇與算法選擇!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    內為企業帶來效益。在選擇模型時,需要評估其性能表現。這包括模型的準確性、響應速度、對話流暢性、情感理解能力等方面。可以通過對比不同模型的測試
    發表于 12-17 16:53

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    重復項或使用編輯距離算法比較文本相似度。數據標注:高質量的數據標注直接影響模型的性能。標注過程應遵循明確標注規則、選擇合適的標注工具、進行多輪審核和質量控制等原則。數據增強:提高模型
    發表于 01-14 16:51

    基于多傳感器的多模型機動目標跟蹤算法設計

    環境的多模型機動目標跟蹤算法。仿真結果驗證了該算法跟蹤性能的有效性。  0 引言  隨著信息技術的快速發展和現代軍事及民用需求的不斷提高,對目標跟蹤的精度也相應地提出了更高的要求。在真
    發表于 12-05 15:16

    Ch2模型評估選擇

    【Machine Learining】Ch2 模型評估選擇
    發表于 05-28 06:55

    基于Agent技術的決策模型協作問題研究

    本文通過對模型進行Agent封裝,以及模型之間的協作,將決策算法選擇算法中系數的確定問題通過評價模型
    發表于 09-01 10:54 ?12次下載

    模型電池的選擇和維護

    模型電池的選擇和維護 模型用電池有一次性的錳鋅電池、堿性電池、鎳氫電池和密封鉛蓄電池等,性能各異。模型用的電池要根據模型對動力的要求,除
    發表于 11-06 10:32 ?651次閱讀

    量子遺傳算法原理與云服務選擇模型的介紹

    選擇模型,并將量子遺傳算法引入云服務選擇問題中,利用量子編碼和量子操作的特性,實現優化服務選擇的計算。通過實驗仿真,該
    發表于 11-14 14:40 ?3次下載
    量子遺傳<b class='flag-5'>算法</b>原理與云服務<b class='flag-5'>選擇</b><b class='flag-5'>模型</b>的介紹

    基于LDA主題模型進行數據源選擇方法

    聯邦搜索是從大規模深層網上獲取信息的一種重要技術。給定一個用戶查詢,聯邦搜索系統需要解決的一個主要問題是數據源選擇問題,即從海量數據源中選出一組最有可能返回相關結果的數據源。現有的數據源選擇
    發表于 01-04 15:00 ?0次下載
    基于LDA主題<b class='flag-5'>模型</b>進行數據源<b class='flag-5'>選擇</b>方法

    在電磁兼容分析系統中應如何選擇傳播模型

    在無線電網絡規劃和干擾評估過程中,對于某項特定的任務,選擇一個非常適當的傳播模型往往是十分困難的,有時還會產生混亂。本文并非從區別不同傳播模型的差異出發,即建議用戶在何種環境下使用何種
    發表于 08-15 17:49 ?2041次閱讀

    機器學習的模型評估選擇詳細資料說明

    本文檔的主要內容詳細介紹的是機器學習的模型評估選擇詳細資料說明。
    發表于 03-24 08:00 ?0次下載
    機器學習的<b class='flag-5'>模型</b><b class='flag-5'>評估</b>與<b class='flag-5'>選擇</b>詳細資料說明

    電磁兼容分析系統中傳播模型應該如何選擇

    在無線電網絡規劃和干擾評估過程中,對于某項特定的任務,選擇一個非常適當的傳播模型往往是十分困難的,有時還會產生混亂。本文并非從區別不同傳播模型的差異出發,即建議用戶在何種環境下使用何種
    發表于 01-11 10:28 ?1次下載

    分類模型評估指標匯總

    模型進行評估時,可以選擇很多種指標,但不同的指標可能得到不同的結果,如何選擇合適的指標,需要取決于任務需求。
    的頭像 發表于 12-10 21:38 ?822次閱讀

    如何評估機器學習模型的性能?機器學習的算法選擇

    如何評估機器學習模型的性能?典型的回答可能是:首先,將訓練數據饋送給學習算法以學習一個模型。第二,預測測試集的標簽。第三,計算模型對測試集的
    發表于 04-04 14:15 ?1244次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態的優勢,為廣大 AI 創新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器產品,為
    的頭像 發表于 09-09 09:19 ?805次閱讀

    常見AI大模型的比較與選擇指南

    選擇AI大模型時,明確具體需求、了解模型的訓練數據、計算資源要求和成本,并考慮模型的可解釋性和社區支持情況等因素至關重要。以下是對常見AI大模型
    的頭像 發表于 10-23 15:36 ?2161次閱讀
    主站蜘蛛池模板: 亚洲成人三级电影 | 国内精品伊人久久大香线焦 | 求网址你懂的手机在线观看网站 | 天天欲色| 丁香花五月天婷婷 | 美女视频黄免费 | 黄色一级a毛片 | 欧美午夜性春猛xxxx | 狠狠草视频 | 日本黄色大片在线播放视频免费观看 | 男人在线网站 | 精品视频一区二区三区四区五区 | 男女那啥的视频免费 | 九色综合伊人久久富二代 | 四虎最新免费观看网址 | 天天夜夜操 | 夜夜爱网站 | 亚洲国产综合人成综合网站00 | 一级片免费在线 | 日本免费黄色网址 | 亚洲人成网站色7799在线观看 | 色午夜视频 | 国产美女精品三级在线观看 | 日本免费观看网站 | 5566成人 | 日本www网站 | 欧美人成网| 色播六月| 天天摸夜夜添狠狠添2018 | 淫欲网 | 爱操综合网 | 亚州免费一级毛片 | 美女视频网站免费播放视 | 国产精品伦理久久久久 | 丁香六月纪婷婷激情综合 | 亚洲欧美国产高清va在线播放 | 手机看福利片 | 国产伦子系列视频6 | 日本丝瓜着色视频 | 国产亚洲欧美日本一二三本道 | 欧美激情亚洲精品日韩1区2区 |