在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何將機器學習模型的準確性從80%提高到90%以上

電子設計 ? 來源: 電子設計 ? 作者: 電子設計 ? 2020-12-10 14:39 ? 次閱讀

數據科學工作通常需要大幅度提高工作量才能提高所開發模型的準確性。這五個建議將有助于改善您的機器學習模型,并幫助您的項目達到其目標。

如果您已經完成了一些自己的數據科學項目,那么您現在可能已經意識到,達到80%的準確性還不錯!但是在現實世界中,有80%不會削減它。實際上,我工作過的大多數公司都期望至少90%的最低準確性(或他們所關注的任何度量標準)。
因此,我將討論可以極大地提高準確性的5件事。 我強烈建議您仔細閱讀所有五點內容, 因為其中包含了許多大多數初學者都不知道的細節。
到此為止,您應該理解,在決定機器學習模型的性能方面,有比您想象的更多的變量。
話雖如此,您可以做以下五件事來改善您的機器學習模型!

1.處理缺失值

我看到的最大錯誤之一是人們如何處理缺失的價值觀,這不一定是他們的錯。網絡上有很多資料說,您通常通過均值插補來處理缺失值 , 將空值替換為給定特征的均值,這通常不是最佳方法。
例如,假設我們有一個顯示年齡和健身得分的表,并且假設一個八十歲的孩子缺少健身得分。如果我們將平均健身得分從15到80歲的年齡范圍內進行計算,那么八十歲的孩子似乎將獲得比他們實際應該更高的健身得分。
因此,您要問自己的第一個問題是 為什么 數據一開始會丟失。

接下來,考慮除均值/中位數插補外的其他處理丟失數據的方法:
特征預測建模:回到我關于年齡和健身得分的示例,我們可以對年齡和健身得分之間的關系進行建模,然后使用該模型查找給定年齡的預期健身得分。這可以通過多種技術來完成,包括回歸,ANOVA等。

K最近鄰插補:使用KNN插補,缺失數據中填充了另一個相似樣本中的值,對于不知道的數據,KNN中的相似性使用距離函數(即歐幾里德距離)確定。

刪除行:最后,您可以刪除該行。通常不建議這樣做,但是當您有大量數據開始時,它是可以接受的 。

2.特征工程

可以顯著改善機器學習模型的第二種方法是通過特征工程。特征工程是將原始數據轉換為更好地表示人們正在試圖解決的潛在問題的特征的過程。沒有具體的方法可以執行此步驟,這就是使數據科學與科學一樣多的藝術。話雖如此,以下是您可以考慮的一些事項:

轉換DateTime變量以僅提取一周中的一天,一年中的月份等。

為變量創建箱或桶。(例如,對于高度變量,可以為100–149厘米,150–199厘米,200–249厘米等)

組合多個功能和/或值以創建一個新功能。例如,針對泰坦尼克號挑戰的最準確模型之一設計了一個新變量“ Is_women_or_child”,如果該人是女人還是孩子,則為True,否則為false。

3.特征選擇

可以大大提高模型準確性的第三個領域是特征選擇,即選擇數據集中最相關/最有價值的特征。特征太多會導致算法過擬合,而特征太少會導致算法不足。

我喜歡使用兩種主要方法來幫助您選擇功能:

功能重要性:某些算法(例如隨機森林或XGBoost)可讓您確定哪些功能在預測目標變量的值時最“重要”。通過快速創建這些模型之一并進行功能重要性,您將了解哪些變量比其他變量更有用。

降維:主成分分析(PCA)是最常見的降維技術之一,它具有大量特征,并使用線性代數將其簡化為更少的特征。

4.集成學習算法

改善機器學習模型的最簡單方法之一就是簡單地選擇更好的機器學習算法。如果您還不知道什么是集成學習算法,那么現在該學習它了!
集合學習 是一種結合使用多種學習算法的方法。這樣做的目的是,與單獨使用單個算法相比,它可以實現更高的預測性能。
流行的整體學習算法包括隨機森林,XGBoost,梯度提升和AdaBoost。為了解釋為什么集成學習算法如此強大,我將以隨機森林為例:

隨機森林涉及使用原始數據的自舉數據集創建多個決策樹。然后,模型選擇每個決策樹的所有預測的模式(多數)。這有什么意義?通過依靠“多數勝利”模型,它降低了單個樹出錯的風險。

例如,如果我們創建一個決策樹,第三個決策樹,它將預測0。但是,如果我們依靠所有4個決策樹的模式,則預測值為1。這就是集成學習的力量!

5.調整超參數

最后,調整模型的超參數并不經常被談論,但仍然非常重要。在這里,必須清楚地了解正在使用的ML模型。否則,可能很難理解每個超參數。

看一下隨機森林的所有超參數:

class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)

例如,了解什么是min_impurity_decrease可能是一個好主意,這樣,當您希望機器學習模型更加寬容時,可以調整此參數!;)

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4695

    瀏覽量

    94608
  • 機器學習
    +關注

    關注

    66

    文章

    8487

    瀏覽量

    133986
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    如何使用POT準確性檢查器?

    :95:0.00% 分辨率視覺對象等級挑戰 (VOC) 數據集未經英特爾驗證。如 Yolo-v4-tf 文檔 中所提到,英特爾已使用上下文中常見的對象 (COCO) 數據集驗證了準確性。通過
    發表于 03-06 08:04

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+Embedding技術解讀

    生成回答。在特定領域或任務中,可以通過微調Embedding模型提高檢索的相關準確性。Embedding在大模型RAG技術中發揮著至關
    發表于 01-17 19:53

    如何提高OTDR測試的準確性

    OTDR(光時域反射儀)是光纜線路故障定位和光纖特性測量的重要工具,提高OTDR測試的準確性對于確保光纜線路的穩定運行至關重要。以下是一些提高OTDR測試準確性的方法: 一、
    的頭像 發表于 12-31 09:25 ?803次閱讀

    如何提高電位測量準確性

    在電子工程和物理實驗中,電位測量是一項基本而重要的任務。電位測量的準確性直接影響實驗結果的可靠和產品的安全。 1. 選擇合適的測量設備 選擇合適的測量設備是
    的頭像 發表于 12-28 13:56 ?588次閱讀

    用TXS0108E進行電平轉換時,當把數據速率提高到80MHz以上時信號輸出電平不正常,為什么?

    你好,現在用TXS0108E進行電平轉換時(A通道是2.8V電平,B通道是3.3V電平),當數據速率是50MHz進行轉換時輸出信號沒問題,當把數據速率提高到80MHz以上時信號輸出電平不正常,請問是該芯片不能支持這么高速率數據
    發表于 12-20 08:00

    如何提升ASR模型準確性

    提升ASR(Automatic Speech Recognition,自動語音識別)模型準確性是語音識別技術領域的核心挑戰之一。以下是一些提升ASR模型準確性的關鍵方法: 一、優化數
    的頭像 發表于 11-18 15:14 ?2079次閱讀

    如何維護電流互感器的準確性

    電流互感器是電力系統中不可或缺的組成部分,它們負責高電流轉換為低電流,以便進行測量和保護。為了確保電力系統的穩定運行,電流互感器的準確性至關重要。 1. 電流互感器的工作原理 電流互感器
    的頭像 發表于 11-05 09:58 ?809次閱讀

    如何評估 ChatGPT 輸出內容的準確性

    評估 ChatGPT 輸出內容的準確性是一個復雜的過程,因為它涉及多個因素,包括但不限于數據的質量和多樣、模型的訓練、上下文的理解、以及輸出內容的邏輯一致
    的頭像 發表于 10-25 17:48 ?961次閱讀

    如何保證測長機測量的準確性?

    可以通過以下方法保證測長機測量的準確性:一、設備方面1.定期校準按照規定的時間間隔,測長機送往專業的計量機構或使用標準器進行校準。校準可以確定測長機的測量誤差,并對其進行調整,確保測量結果的準確性
    的頭像 發表于 10-25 16:16 ?737次閱讀
    如何保證測長機測量的<b class='flag-5'>準確性</b>?

    AI大模型與深度學習的關系

    人類的學習過程,實現對復雜數據的學習和識別。AI大模型則是指模型的參數數量巨大,需要龐大的計算資源來進行訓練和推理。深度學習算法為AI大
    的頭像 發表于 10-23 15:25 ?2600次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    能夠關注到輸入文本中的重要部分,從而提高預測的準確性和效率。這種機制允許模型在處理文本時同時考慮多個位置的信息,并根據重要進行加權處理。 一些關鍵技術 1. 上下文理解 大語言
    發表于 08-02 11:03

    影響電源紋波測試準確性的因素

    電源紋波測試是評估電源質量的重要手段之一,它能夠反映出電源在輸出電壓中的波動情況。然而,測試過程中的多種因素都可能對測試結果的準確性產生影響。本文將從多個方面分析影響電源紋波測試準確性的因素,并提
    的頭像 發表于 08-02 09:42 ?995次閱讀

    THS4524 CMRR想提高到140dB及以上,請問有好的方法嗎?

    OPA1637, THS4521, ADS1278THS4524 看到CMRR最低為80dB, 是否可以加外圍的電路增加 CMRR呢? 有參考的方法嗎? 使用該器件,CMRR想提高到140dB及以上,請問有好的方法嗎?
    發表于 08-01 06:05

    Al大模型機器

    和迭代來不斷改進自身性能。它們可以用戶交互中學習并根據反饋進行調整,以提高對話質量和準確性。可定制與整合
    發表于 07-05 08:52

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習模型,本質上是通過優化算法調整模型參數,
    的頭像 發表于 07-01 16:13 ?2317次閱讀
    主站蜘蛛池模板: 日韩视频 中文字幕 视频一区 | 欧美成人亚洲欧美成人 | 亚洲综合激情丁香六月 | 高颜值露脸极品在线播放 | 亚洲天天综合网 | 788gao这里只有精品 | 免费人成在线观看网站品爱网日本 | 欧美成人在线网站 | 亚洲一区二区影视 | 狠狠色丁香婷婷久久综合不卡 | 激情九月婷婷 | 国产精品永久免费 | 婷婷社区五月天 | 黄a毛片| 成人综合在线视频 | 欧美成人一区二区三区在线视频 | 国产成人啪精品午夜在线观看 | 中文字幕一区2区3区 | 国产精品嫩草影院一二三区入口 | 天天爽天天爽天天片a久久网 | 免费人成在线观看网站品爱网 | 三级网站免费 | 男人女人真曰批视频播放 | 色综合成人丁香 | 国产叼嘿网站免费观看不用充会员 | 国产精品久久久久久久久齐齐 | www.色天使 | 热99精品 | 全国男人的天堂天堂网 | ak福利午夜在线观看 | 性色a| 五月天综合在线 | 视频网站在线 | 天天玩天天操 | 一级特黄aa毛片免费观看 | 人成xxxwww免费视频 | 色多多视频在线观看免费大全 | 激情视频综合网 | 天堂网www中文在线资源 | 久久网站免费观看 | 国产成人精品免费视频大全可播放的 |