在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中最常見錯(cuò)誤解決方案

新機(jī)器視覺 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-08-08 16:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)你構(gòu)建第一個(gè)模型,注意避免這5個(gè)坑。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)正變得越來越流行,這個(gè)領(lǐng)域的人數(shù)每天都在增長。這意味著有很多數(shù)據(jù)科學(xué)家在構(gòu)建他們的第一個(gè)機(jī)器學(xué)習(xí)模型時(shí)沒有豐富的經(jīng)驗(yàn),而這也是錯(cuò)誤可能會(huì)發(fā)生的地方。

近日,軟件架構(gòu)師、數(shù)據(jù)科學(xué)家、Kaggle 大師 Agnis Liukis 撰寫了一篇文章,他在文中談了談在機(jī)器學(xué)習(xí)中最常見的一些初學(xué)者錯(cuò)誤的解決方案,以確保初學(xué)者了解并避免它們。

以下為文章內(nèi)容:

在機(jī)器學(xué)習(xí)領(lǐng)域,初學(xué)者避免這 5 個(gè)坑

1、在需要的地方?jīng)]有使用數(shù)據(jù)歸一化

對(duì)數(shù)據(jù)進(jìn)行歸一化操作,然后獲取特征,并將其輸入到模型中,讓模型做出預(yù)測,這種方法是很容易的。但在某些情況下,這種簡單方法的結(jié)果可能會(huì)讓人失望,因?yàn)樗鄙僖粋€(gè)非常重要的部分。

一些類型的模型需要數(shù)據(jù)歸一化,如線性回歸、經(jīng)典神經(jīng)網(wǎng)絡(luò)等。這類模型使用特征值去乘訓(xùn)練值的權(quán)重。在非歸一化特征的情況下,一個(gè)特征值的可能范圍可能不同于另一個(gè)特征值的可能范圍。

假設(shè)一個(gè)特征的值在 [0,0.001] 范圍內(nèi),另一個(gè)特征的值在 [100000,200000] 范圍內(nèi)。對(duì)于使兩個(gè)特征同等重要的模型,第一個(gè)特征的權(quán)重將比第二個(gè)特征的權(quán)重大 1 億倍。巨大的權(quán)重可能會(huì)給模型帶來嚴(yán)重問題,比如存在一些異常值的時(shí)候。此外,估計(jì)各種特征的重要性變得困難,因?yàn)闄?quán)重大可能意味著特征很重要,但也可能只是意味著其特征值很小

歸一化后,所有特征的值都在相同的范圍內(nèi),通常為 [0,1] 或 [-1,1]。在這種情況下,權(quán)重將在相似的范圍內(nèi),并與每個(gè)特征的實(shí)際重要性密切對(duì)應(yīng)。

總的來說,在需要的地方使用數(shù)據(jù)歸一化將產(chǎn)生更好、更準(zhǔn)確的預(yù)測。

2、認(rèn)為特征越多越好

有人可能會(huì)認(rèn)為加入所有特征是一個(gè)好主意,認(rèn)為模型會(huì)自動(dòng)選擇并使用最好的特征。實(shí)際上,這種想法很難成真。

模型的特征越多,過擬合的風(fēng)險(xiǎn)越大。即使在完全隨機(jī)的數(shù)據(jù)中,模型也能夠找到一些特征(信號(hào)),盡管有時(shí)較弱,有時(shí)較強(qiáng)。當(dāng)然,隨機(jī)噪聲中沒有真實(shí)信號(hào)。但如果我們有足夠多的噪聲列,則該模型有可能根據(jù)檢測到的故障信號(hào)使用其中的一部分。當(dāng)這種情況發(fā)生時(shí),模型預(yù)測質(zhì)量將會(huì)降低,因?yàn)樗鼈円欢ǔ潭壬匣陔S機(jī)噪聲。

現(xiàn)在有許多技術(shù)幫助我們進(jìn)行特征選擇。但你要記住,你需要解釋你擁有的每一個(gè)特征,以及為什么這個(gè)特征會(huì)幫助你的模型。

3. 在需要外推的情況下,使用基于樹的模型

基于樹的模型易于使用,功能強(qiáng)大,這也是其受歡迎的原因。然而,在某些情況下,使用基于樹的模型可能是錯(cuò)誤的。

基于樹的模型無法外推,這些模型的預(yù)測值永遠(yuǎn)不會(huì)大于訓(xùn)練數(shù)據(jù)中的最大值,而且在訓(xùn)練中也永遠(yuǎn)不會(huì)輸出比最小值更小的預(yù)測值。

在某些任務(wù)中,外推能力可能非常重要。例如,如果該模型預(yù)測股票價(jià)格,那么未來股票價(jià)格可能會(huì)比以往任何時(shí)候都高。在這種情況下,基于樹的模型將無法直接使用,因?yàn)樗鼈兊念A(yù)測幾乎會(huì)超過最高歷史價(jià)格。

這個(gè)問題有多種解決方案,一種解決方案是預(yù)測變化或差異,而不是直接預(yù)測價(jià)值。另一種解決方案是為此類任務(wù)使用不同類型的模型。線性回歸或神經(jīng)網(wǎng)絡(luò)就可以進(jìn)行外推。

4、在不需要的地方使用數(shù)據(jù)歸一化

之前文章談到了數(shù)據(jù)歸一化的必要性,但情況并非總是如此,基于樹的模型不需要數(shù)據(jù)歸一化。神經(jīng)網(wǎng)絡(luò)可能也不需要明確的歸一化,因?yàn)橛行┚W(wǎng)絡(luò)內(nèi)部已經(jīng)包含歸一化層,例如 Keras 庫的 BatchNormalization 操作。

在某些情況下,即使是線性回歸也可能不需要數(shù)據(jù)歸一化,這是指所有特征都已處于類似的值范圍,并且具有相同的含義。例如,如果模型適用于時(shí)間序列數(shù)據(jù),并且所有特征都是同一參數(shù)的歷史值。

5. 在訓(xùn)練集和驗(yàn)證集 / 測試集之間泄漏信息

造成數(shù)據(jù)泄漏比人們想象的要容易,考慮以下代碼段:

67499348-165a-11ed-ba43-dac502259ad0.png

數(shù)據(jù)泄漏的示例特性

實(shí)際上,這兩種特征(sum_feature 和 diff_feature)都不正確。它們正在泄漏信息,因?yàn)樵诓鸱值接?xùn)練集 / 測試集后,具有訓(xùn)練數(shù)據(jù)的部分將包含來自測試的一些信息。這將導(dǎo)致更高的驗(yàn)證分?jǐn)?shù),但當(dāng)應(yīng)用于實(shí)際的數(shù)據(jù)模型時(shí),性能會(huì)更差。

正確的方法是首先將訓(xùn)練集 / 測試集分開,然后才應(yīng)用特征生成功能。通常,分別處理訓(xùn)練集和測試集是一種很好的特征工程模式。

在某些情況下,可能需要在兩者之間傳遞一些信息 —— 例如,我們可能希望在測試集和訓(xùn)練集上使用相同的 StandardScaler。

總而言之,從錯(cuò)誤中吸取教訓(xùn)是件好事,希望上述所提供的錯(cuò)誤示例能幫助到你。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)初學(xué)者易踩的5個(gè)坑

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    記憶示波器設(shè)置有哪些常見錯(cuò)誤

    與示波器兼容。 九、常見場景示例 [td]場景常見錯(cuò)誤解決方案 測量電源紋波帶寬限制未啟用啟用20MHz帶寬限制 高速數(shù)字信號(hào)調(diào)試存儲(chǔ)深度不足增加存儲(chǔ)深度或降低時(shí)間檔位 微弱信號(hào)測量垂直檔位過大調(diào)整垂直
    發(fā)表于 04-14 15:29

    多板 PCB 組裝中最常見的邏輯錯(cuò)誤

    到電路板原型制作結(jié)束后,也無法發(fā)現(xiàn)這些錯(cuò)誤。幸運(yùn)的是,您可以采取一些簡單的解決方案和設(shè)計(jì)選擇,避免電路板之間出現(xiàn)這些邏輯連接錯(cuò)誤。01什么是電路板之間的邏輯連接錯(cuò)誤
    的頭像 發(fā)表于 03-14 18:15 ?409次閱讀
    多板 PCB 組裝<b class='flag-5'>中最常見</b>的邏輯<b class='flag-5'>錯(cuò)誤</b>

    常見xgboost錯(cuò)誤解決方案

    XGBoost(eXtreme Gradient Boosting)是一種流行的機(jī)器學(xué)習(xí)算法,用于解決分類和回歸問題。盡管它非常強(qiáng)大和靈活,但在使用過程中可能會(huì)遇到一些常見錯(cuò)誤。以下
    的頭像 發(fā)表于 01-19 11:22 ?2457次閱讀

    常見電位測量錯(cuò)誤解決方案

    常見電位測量錯(cuò)誤解決方案 1. 接觸不良 錯(cuò)誤描述: 在電位測量中,接觸不良是最常見的問題之一。這可能是由于探針接觸不良、氧化層、污垢或腐
    的頭像 發(fā)表于 12-28 14:08 ?1113次閱讀

    DFT的常見誤區(qū)與解決方案

    DFT(離散傅里葉變換)在信號(hào)處理領(lǐng)域具有廣泛的應(yīng)用,但在使用過程中也常會(huì)遇到一些誤區(qū)。以下是對(duì)DFT常見誤區(qū)的總結(jié)以及相應(yīng)的解決方案常見誤區(qū) 混疊現(xiàn)象 : 誤區(qū)描述:在采樣過程中,如果采樣頻率
    的頭像 發(fā)表于 12-20 09:32 ?1375次閱讀

    SSM開發(fā)中的常見問題及解決方案

    在SSM(Spring + Spring MVC + MyBatis)框架的開發(fā)過程中,開發(fā)者可能會(huì)遇到一些常見問題。以下是對(duì)這些問題的詳細(xì)分析以及相應(yīng)的解決方案: 一、配置文件問題 問題描述
    的頭像 發(fā)表于 12-17 09:16 ?1351次閱讀

    EEPROM編程常見錯(cuò)誤解決方案

    EEPROM(電可擦可編程只讀存儲(chǔ)器)在編程過程中可能會(huì)遇到多種錯(cuò)誤。以下是一些常見的EEPROM編程錯(cuò)誤及其解決方案常見
    的頭像 發(fā)表于 12-16 17:08 ?4576次閱讀

    PCBA加工常見質(zhì)量問題揭秘:焊接不良與解決方案

    的質(zhì)量問題不僅會(huì)影響產(chǎn)品的性能和可靠性,還可能對(duì)廠家的聲譽(yù)和利潤造成重大影響。本文將深入探討PCBA加工過程中常見的質(zhì)量問題,并分析其產(chǎn)生的原因及可能的解決方案。 PCBA加工中的常見質(zhì)量問題及
    的頭像 發(fā)表于 12-13 09:28 ?768次閱讀

    關(guān)于光耦合器的常見誤解

    光耦合器以其提供電氣隔離的能力而聞名,廣泛應(yīng)用于從電源到通信系統(tǒng)的各種應(yīng)用。盡管光耦合器非常普遍,但人們對(duì)其特性和用途存在一些常見誤解。本文將揭穿一些最常見誤解,以幫助工程師和愛好
    的頭像 發(fā)表于 12-06 10:04 ?551次閱讀
    關(guān)于光耦合器的<b class='flag-5'>常見</b><b class='flag-5'>誤解</b>

    常見的GND連接錯(cuò)誤解決方案

    GND(接地)連接在電子設(shè)計(jì)和硬件開發(fā)中至關(guān)重要,錯(cuò)誤的GND連接可能導(dǎo)致電路不穩(wěn)定、信號(hào)干擾甚至設(shè)備損壞。以下是一些常見的GND連接錯(cuò)誤及其解決方案: 一、GND網(wǎng)絡(luò)未連接 問題描述
    的頭像 發(fā)表于 11-29 16:02 ?5961次閱讀

    SQL錯(cuò)誤代碼及解決方案

    在SQL數(shù)據(jù)庫開發(fā)和管理中,常見錯(cuò)誤代碼及其解決方案可以歸納如下: 一、語法錯(cuò)誤(Syntax Errors) 錯(cuò)誤代碼 :無特定代碼,但
    的頭像 發(fā)表于 11-19 10:21 ?6484次閱讀

    aes加密的常見錯(cuò)誤解決方案

    的歸納以及相應(yīng)的解決方案常見錯(cuò)誤 編碼問題 : 在將字節(jié)數(shù)組轉(zhuǎn)換成字符串時(shí),如果使用了不同的編碼格式,可能會(huì)導(dǎo)致解密后的數(shù)據(jù)出現(xiàn)亂碼。 密鑰長度問題 : AES算法支持128位、192位和256位三種密鑰長度。如果加密和解密
    的頭像 發(fā)表于 11-14 15:13 ?4145次閱讀

    socket 常見錯(cuò)誤解決方案

    在網(wǎng)絡(luò)編程中,使用套接字(socket)是進(jìn)行網(wǎng)絡(luò)通信的基礎(chǔ)。然而,在實(shí)際應(yīng)用中,開發(fā)者可能會(huì)遇到各種錯(cuò)誤。以下是一些常見的套接字錯(cuò)誤及其解決方案: 1. 連接超時(shí)(ETIMEDOUT
    的頭像 發(fā)表于 11-12 14:15 ?5782次閱讀

    SUMIF函數(shù)常見錯(cuò)誤解決方案

    SUMIF函數(shù)是Excel中一個(gè)非常實(shí)用的函數(shù),用于根據(jù)給定條件對(duì)數(shù)據(jù)進(jìn)行求和。然而,在使用過程中,用戶可能會(huì)遇到一些常見錯(cuò)誤。 1. 錯(cuò)誤:范圍不正確 錯(cuò)誤描述: 用戶可能沒有正確設(shè)
    的頭像 發(fā)表于 11-11 09:10 ?5719次閱讀

    對(duì)電動(dòng)汽車電池11大誤解的解答

    近幾年,電動(dòng)汽車技術(shù)快速發(fā)展,尤其是其電池技術(shù),本文將探索關(guān)于電動(dòng)汽車(EV)電池——這一汽車行業(yè)中最具前景的新技術(shù)之一——的11個(gè)最常見誤解,以及與無線電池管理系統(tǒng)(BMS)相關(guān)的內(nèi)容。
    的頭像 發(fā)表于 11-07 17:18 ?1233次閱讀
    主站蜘蛛池模板: 人人干人 | 亚洲综合色dddd26 | 成人亚洲网站 | 欧美色图一区二区 | 成人在线免费网站 | 丁香婷婷激情五月 | 日本三级电影在线观看 | 色五月婷婷成人网 | 日本一区二区三区不卡在线视频 | 久青草国产观看在线视频 | 国产精品天天看天天爽 | 久久精品视频免费观看 | 亚洲 欧美 动漫 | 黄色网大全 | 操美女网址 | 18女人毛片水真多免费 | 午夜久久免影院欧洲 | 天天艹在线 | 国产精品不卡片视频免费观看 | 天天干夜干 | 4tube高清性欧美 | 欧美一级一一特黄 | 国产大片91精品免费观看不卡 | 最新版资源在线天堂 | 天堂在线观看视频 | 亚洲一区日韩一区欧美一区a | 亚洲一级视频在线观看 | 香蕉视频在线免费播放 | 日韩特级| 欧美乱强性伦xxxxx | 天堂在线国产 | 一级毛片子 | 国产美女流出白浆在线观看 | 亚洲欧美一区二区三区另类 | 免费黄视频网站 | 中文字幕一区在线观看视频 | 一级做a爰片久久毛片看看 一级做a爰片久久毛片毛片 | 老司机亚洲精品影院在线 | 久久精品人人爽人人爽快 | 日韩三级一区 | 国产高清在线 |