在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于機器學習模型8個經過證實準確率的方法

454398 ? 來源:Datartisan數據工匠 ? 作者:王鵬宇翻譯 ? 2020-09-14 16:25 ? 次閱讀

模型的開發周期有多個不同的階段,從數據收集開始直到模型建立。不過,在通過探索數據來理解(變量的)關系之前,建議進行假設生成(hypothesis generation)步驟。我認為,這是預測建模過程中最被低估的一個步驟。

花時間思考要回答的問題以及獲取領域知識也很重要。這有什么幫助呢?它會幫助你隨后建立更好的特征集,不被當前的數據集誤導。這是改善模型正確率的一個重要環節。

在這個階段,你應該對問題進行結構化思考,即進行一個把此問題相關的所有可能的方面納入考慮范圍的思考過程。

現在讓我們挖掘得更深入一些。讓我們看看這些已被證實的,用于改善模型準確率的方法。

1. 增加更多數據

持有更多的數據永遠是個好主意。相比于去依賴假設和弱相關,更多的數據允許數據進行“自我表達”。數據越多,模型越好,正確率越高。

我明白,有時無法獲得更多數據。比如,在數據科學競賽中,訓練集的數據量是無法增加的。但對于企業項目,我建議,如果可能的話,去索取更多數據。這會減少由于數據集規模有限帶來的痛苦。

2. 處理缺失值和異常值

訓練集中缺失值與異常值的意外出現,往往會導致模型正確率低或有偏差。這會導致錯誤的預測。這是由于我們沒能正確分析目標行為以及與其他變量的關系。所以處理好缺失值和異常值很重要。

仔細看下面一幅截圖。在存在缺失值的情況下,男性和女性玩板球的概率相同。但如果看第二張表(缺失值根據稱呼“Miss”被填補以后),相對于男性,女性玩板球的概率更高。

左側:缺失值處理前;右側:缺失值處理后

從上面的例子中,我們可以看出缺失值對于模型準確率的不利影響。所幸,我們有各種方法可以應對缺失值和異常值:

1. 缺失值:對于連續變量,可以把缺失值替換成平均值、中位數、眾數。對于分類變量,可以把變量作為一個特殊類別看待。你也可以建立模型預測缺失值。KNN為處理缺失值提供了很好的方法。想了解更多這方面內容,推薦閱讀《Methods to deal and treat missing values》。

2. 異常值:你可以刪除這些條目,進行轉換,分箱。如同缺失值,你也可以對異常值進行區別對待。想了解更多這方面內容,推薦閱讀《How to detect Outliers in your dataset and treat them?》。

3. 特征工程學

這一步驟有助于從現有數據中提取更多信息。新信息作為新特征被提取出來。這些特征可能會更好地解釋訓練集中的差異變化。因此能改善模型的準確率。

假設生成對特征工程影響很大。好的假設能帶來更好的特征集。這也是我一直建議在假設生成上花時間的原因。特征工程能被分為兩個步驟:

① 特征轉換:許多場景需要進行特征轉換:

A) 把變量的范圍從原始范圍變為從 0 到 1 。這通常被稱作數據標準化。比如,某個數據集中第一個變量以米計算,第二個變量是厘米,第三個是千米,在這種情況下,在使用任何算法之前,必須把數據標準化為相同范圍。

B) 有些算法對于正態分布的數據表現更好。所以我們需要去掉變量的偏向。對數,平方根,倒數等方法可用來修正偏斜。

C) 有些時候,數值型的數據在分箱后表現更好,因為這同時也處理了異常值。數值型數據可以通過把數值分組為箱變得離散。這也被稱為數據離散化。

② 創建新特征:從現有的變量中衍生出新變量被稱為特征創建。這有助于釋放出數據集中潛藏的關系。比如,我們想通過某家商店的交易日期預測其交易量。在這個問題上日期可能和交易量關系不大,但如果研究這天是星期幾,可能會有更高的相關。在這個例子中,某個日期是星期幾的信息是潛在的。我們可以把這個信息提取為新特征,優化模型。

4. 特征選擇

特征選擇是尋找眾多屬性的哪個子集合,能夠最好的解釋目標變量與各個自變量的關系的過程。

你可以根據多種標準選取有用的特征,例如:

所在領域知識:根據在此領域的經驗,可以選出對目標變量有更大影響的變量。

可視化:正如這名字所示,可視化讓變量間的關系可以被看見,使特征選擇的過程更輕松。

統計參數:我們可以考慮 p 值,信息價值(information values)和其他統計參數來選擇正確的參數。

PCA:這種方法有助于在低維空間表現訓練集數據。這是一種降維技術。 降低數據集維度還有許多方法:如因子分析、低方差、高相關、前向后向變量選擇及其他。

5. 使用多種算法

使用正確的機器學習算法是獲得更高準確率的理想方法。但是說起來容易做起來難。

這種直覺來自于經驗和不斷嘗試。有些算法比其他算法更適合特定類型數據。因此,我們應該使用所有有關的模型,并檢測其表現。

來源:Scikit-Learn 算法選擇圖

6. 算法的調整

我們都知道機器學習算法是由參數驅動的。這些參數對學習的結果有明顯影響。參數調整的目的是為每個參數尋找最優值,以改善模型正確率。要調整這些參數,你必須對它們的意義和各自的影響有所了解。你可以在一些表現良好的模型上重復這個過程。

例如,在隨機森林中,我們有 max_features, number_trees, random_state, oob_score 以及其他參數。優化這些參數值會帶來更好更準確的模型。

想要詳細了解調整參數帶來的影響,可以查閱《Tuning the parameters of your Random Forest model》。下面是隨機森林算法在scikit learn中的全部參數清單:

RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None,bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False,class_weight=None)

7. 集成模型

在數據科學競賽獲勝方案中最常見的方法。這個技術就是把多個弱模型的結果組合在一起,獲得更好的結果。它能通過許多方式實現,如:
? Bagging (Bootstrap Aggregating)
? Boosting

想了解更多這方面內容,可以查閱《Introduction to ensemble learning》。

使用集成方法改進模型正確率永遠是個好主意。主要有兩個原因:
① 集成方法通常比傳統方法更復雜;
② 傳統方法提供好的基礎,在此基礎上可以建立集成方法。

注意!

到目前為止,我們了解了改善模型準確率的方法。但是,高準確率的模型不一定(在未知數據上)有更好的表現。有時,模型準確率的改善是由于過度擬合。

8. 交叉驗證

如果想解決這個問題,我們必須使用交叉驗證技術(cross validation)。交叉驗證是數據建模領域最重要的概念之一。它是指,保留一部分數據樣本不用來訓練模型,而是在完成模型前用來驗證。

這種方法有助于得出更有概括性的關系。想了解更多有關交叉檢驗的內容,建議查閱《Improve model performance using cross validation》。

結語

預測建模的過程令人疲憊。但是,如果你能靈活思考,就可以輕易勝過其他人。簡單地說,多考慮上面這 8 個步驟。獲得數據集以后,遵循這些被驗證過的方法,你就一定會得到穩健的機器學習模型。不過,只有當你熟練掌握了這些步驟,它們才會真正有幫助。比如,想要建立一個集成模型,你必須對多種機器學習算法有所了解。

本文分享了 8 個經過證實的方法。這些方法用來改善模型的預測表現。它們廣為人知,但不一定要按照文中的順序逐個使用。

原作者:Sunil Ray
翻譯:王鵬宇
轉自: Datartisan數據工匠

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4646

    瀏覽量

    93747
  • 機器學習
    +關注

    關注

    66

    文章

    8460

    瀏覽量

    133437
收藏 人收藏

    評論

    相關推薦

    25機器學習面試題,你都會嗎?

    ?)15. 自變量之間的相關性對主成分分析有何影響?你將如何對其進行處理?16. 你需要建立一關于隕石撞地球的分類模型(這是對于人類文明很重要的項目)。經過初步分析后,你得到了 99
    發表于 09-29 09:39

    動態分配多任務資源的移動端深度學習框架

    需求和準確率之間的權衡是固定的。因此,第一大挑戰在于設計一能讓深度學習模型提供靈活的資源-準確率權衡的方案。一種樸素的
    發表于 10-31 16:32

    基于RBM實現手寫數字識別高準確率

    DL之RBM:基于RBM實現手寫數字識別高準確率
    發表于 12-28 10:19

    請問誰做過蟻群算法選擇圖像特征,使識別準確率最高?

    請問誰做過蟻群算法選擇圖像特征,使識別準確率最高?有學習資料或者matlab代碼可以讓我學習一下嗎
    發表于 02-17 17:20

    如何提高Stm32F746G準確率

    你好帶時鐘的教程 3。如何提高準確率?最好的祝福安杰伊
    發表于 01-12 07:26

    BOM準確率提高方法

    BOM錯誤造成的損失出現在產品制造、銷售和售后服務工作中,但根源在產品研發部門,因此BOM準確率需要由專業部門進行專門管理。
    發表于 06-13 10:37 ?5366次閱讀

    交大教授訓練機器通過面部識別罪犯 準確率達到86%以上

    上海交通大學的武筱林教授和他的博士生張熙近期完成了一項研究,他們發現,通過學習機器可以通過照片分辨出誰是罪犯,誰是守法公民,識別準確率在86%以上。
    發表于 12-01 10:59 ?1023次閱讀

    使用深度學習算法識別交通標志實現98%準確率

    我們可以創建一能夠對交通標志進行分類的模型,并且讓模型自己學習識別這些交通標志中最關鍵的特征。在這篇文章中,我將演示如何創建一深度
    發表于 11-22 11:52 ?2次下載

    機器學習模型預測病患死亡準度更高

    Score)評估死亡的精準度,結果證實機器學習模型利用電子病歷(EHR)超音波心電圖資料,確實可準確
    發表于 06-29 09:03 ?1882次閱讀

    阿里達摩院公布自研語音識別模型DFSMN,識別準確率達96.04%

    日前,阿里巴巴達摩院機器智能實驗室推出了新一代語音識別模型DFSMN,據悉語音識別準確率達96.04%,未來將用于智能家居設備。
    的頭像 發表于 06-07 14:36 ?3920次閱讀

    機器學習實用指南——準確率與召回

    受試者工作特征(ROC)曲線是另一二分類器常用的工具。它非常類似與準確率/召回曲線,但不是畫出準確率對召回的曲線,ROC 曲線是真正例
    的頭像 發表于 06-19 15:20 ?2.1w次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>實用指南——<b class='flag-5'>準確率</b>與召回<b class='flag-5'>率</b>

    AI垃圾分類的準確率和召回達到99%

    這套邏輯和人類用眼睛、大腦、手臂工作的邏輯差不多,而且效率也足夠了。以塑料瓶為例,AI垃圾分類的準確率和召回達到99%,單張圖片的識別時間不到半秒鐘。
    的頭像 發表于 06-16 15:10 ?3406次閱讀

    可提高瓦斯風險預測準確率的ELM模型

    為提髙瓦斯突出風險預測的準確率和效率,在極限學習機(ELM)模型的基礎上構建預測模型ACFA-ELI釆用核線性鑒別分析(KLDA)對瓦斯突出樣本數據進行特征抽取,利用代價敏感思想修正E
    發表于 05-27 14:44 ?2次下載

    如何評估機器學習模型的性能?機器學習的算法選擇

    如何評估機器學習模型的性能?典型的回答可能是:首先,將訓練數據饋送給學習算法以學習
    發表于 04-04 14:15 ?1139次閱讀

    ai人工智能回答準確率高嗎

    人工智能(AI)回答的準確率是一相對的概念,會受到多個因素的影響,因此不能一概而論地說其準確率高或低。以下是對AI回答準確率及其影響因素的分析: 一、AI回答
    的頭像 發表于 10-17 16:30 ?4914次閱讀
    主站蜘蛛池模板: 特级毛片视频在线 | 日本亚洲黄色 | 99精品国产第一福利网站 | 中文字幕一区二区三区在线观看 | 奇米影视奇米色777欧美 | 日韩黄页| 在线免费色 | 操穴勤| 亚洲国产精品乱码在线观看97 | 欧美乱理伦另类视频 | 国产在线高清精品二区色五郎 | 综合丁香 | 午夜爽爽性刺激一区二区视频 | 国产caoni111在线观看视频 | 男人j进女人j免费视频视频 | 亚洲swag精品自拍一区 | 在线成人欧美 | 80s国产成年女人毛片 | 久久青草18免费观看网站 | 神马午夜在线观看 | 777色淫网站女女免费 | 欧美成人天天综合在线视色 | 国产va免费精品 | 国产视频第一页 | 天堂资源在线观看 | 色偷偷成人网免费视频男人的天堂 | 一级黄色片欧美 | 久久精品免费观看 | 日本特黄特黄刺激大片免费 | 免费一级特黄特色大片 | 欧美草逼 | 一级毛片在线看在线播放 | 天天干天天做 | 特级深夜a级毛片免费观看 特级生活片 | 综合丁香| 日本不卡免费高清一级视频 | 直接黄91麻豆网站 | 国产精品igao在线观看樱花日本 | 亚洲欧美视频一区二区 | 巨乳色网址| 色先峰 |