在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習算法基本概念及選用指南

Dbwd_Imgtec ? 來源:cc ? 2019-01-15 15:55 ? 次閱讀

本文對機器學習的一些基本概念給出了簡要的介紹,并對不同任務中使用不同類型的機器學習算法給出一點建議。

在從事數據科學工作的時候,經常會遇到為具體問題選擇最合適算法的問題。雖然有很多有關機器學習算法的文章詳細介紹了相關的算法,但要做出最合適的選擇依然非常困難。

在這篇文章中,我將對一些基本概念給出簡要的介紹,對不同任務中使用不同類型的機器學習算法給出一點建議。在文章的最后,我將對這些算法進行總結。

首先,你應該能區分以下四種機器學習任務:

監督學習

無監督學習

半監督學習

強化學習

監督學習

監督學習是從標記的訓練數據中推斷出某個功能。通過擬合標注的訓練集,找到最優的模型參數來預測其他對象(測試集)上的未知標簽。如果標簽是一個實數,我們稱之為回歸。如果標簽來自有限數量的值,這些值是無序的,那么稱之為分類。

無監督學習

在無監督學習中,我們對于物體知道的信息比較少,特別是訓練集沒有做過標記。那現在的目標是什么呢?觀察對象之間的相似性,并將它們劃分到不同的群組中。某些對象可能與其他群組中的對象都有很大的區別,那么我們就認為這些對象是異常的。

半監督學習

半監督學習包括了前面描述的兩個問題:同時使用標記和未標記的數據。對于那些無法標注所有數據的人來說,這是一個很好的方法。該方法能夠顯著提高準確性,因為在使用訓練集中未標記數據的同時,還能使用少量帶有標記的數據。

強化學習

強化學習跟上面提到的方法不太一樣,因為在這里并沒有標記或未標記的數據集。強化學習涉及到軟件代理應該如何在某些環境中采取行動來最大化累積獎勵。

想象一下,你是一個在陌生環境中的機器人,你可以執行一些動作,并從中獲得獎勵。在每執行一個動作之后,你的行為會變得越來越復雜越來越聰明,也就是說 ,你正在訓練自己在執行每一個動作之后讓自己表現得更為有效。在生物學中,這被稱為適應自然環境。

常用的機器學習算法

現在,我們對機器學習的類型有了一定的了解,下面,我們來看一下最流行的算法及其在現實生活中的應用。

線性回歸和線性分類器

這些可能是機器學習中最簡單的算法了。假設有對象(矩陣A)的特征x1,... xn和標簽(向量B)。我們的目標是根據某些損失函數(例如MSE或MAE)找到最優權重w1,... wn和這些特征的偏差。 在使用MSE的情況下,有一個來自最小二乘法的數學公式:

在實踐中,使用梯度下降來進行優化則更為容易,計算上更有效率。盡管這個算法很簡單,但是在存在成千上萬個特征的時候,這個方法依然能夠表現良好。更復雜的算法可能會遇到過擬合特征或者是沒有足夠大的數據集的問題,而線性回歸則是一個不錯的選擇。

為了防止過擬合,可使用像lasso和ridge這樣的規則化技術。其主要思路是分別把權重總和以及權重平方的總和加到損失函數中。

邏輯回歸

邏輯回歸執行的是二元分類,所以輸出的標簽是二元的。給定輸入特征向量x,定義P(y=1|x)為輸出y等于1時的條件概率。系數w是模型要學習的權重。

由于該算法需要計算每個類別的歸屬概率,因此應該考慮概率與0或1的差異程度,并像在線性回歸中一樣對所有對象取平均值。這種損失函數是交叉熵的平均值:

邏輯回歸有什么好處呢?它采用了線性組合的特征,并對其應用非線性函數(sigmoid),所以它是一個非常小的神經網絡實例!

決策樹

另一個比較流行、并且容易理解的算法是決策樹。它的圖形能讓你看到你自己的想法,它的引擎有一個系統的、有記錄的思考過程。

這個算法很簡單。在每個節點中,我們選擇所有特征和所有可能的分割點之間的最佳分割。選擇每個分割以最大化某些功能。在分類樹中使用交叉熵和基尼指數。在回歸樹中,最小化該區域中的點的目標值的預測變量與分配給它的點之間的平方誤差的總和。

算法會在每個節點上遞歸地完成這個過程,直到滿足停止條件為止。

K-means

有的時候你并不知道標簽,而目標是根據對象的特征來分配標簽。這被稱為集聚化任務。

假設要把所有的數據對象分成k個簇,則需要從數據中隨機選擇k個點,并將它們命名為簇的中心。其他對象的簇由最近的簇中心定義。然后,聚類的中心會被轉換并重復該過程直到收斂。

雖然這個技術非常不錯,但它仍然有一些缺點。首先,我們并不知道簇的數量。其次,結果依賴開始時隨機選擇的那個點,算法無法保證我們能夠實現功能的全局最小值。

主成分分析(PCA)

昨晚或者最近的幾個小時里你有沒有在準備考試?你無法記住所有的信息,但是想要在可用的時間內最大限度地記住信息,例如,首先學習考試中經常出現的定理等等。

主成分分析基于類似的思想。該算法提供了降維的功能。有時,你有很多的特征,并且彼此之間強相關,模型可以很容易地適應大量的數據。然后,你可以應用PCA。

你應該計算某些向量上的投影,以使數據的方差最大化,并盡可能少地丟失信息。而這些向量是來自數據集特征的相關矩陣的特征向量。

算法的內容現在已經很清楚了:

計算特征列的相關矩陣,找出該矩陣的特征向量。

將這些多維向量計算出來,并計算所有特征的投影。

新特征是投影中的坐標,其數量取決于投影的特征向量的數量。

神經網絡

在上文講到邏輯回歸的時候,就已經提到了神經網絡。在一些具體的任務中,有很多不同的體系結構都非常有價值。而神經網絡更多的時候是一系列的層或組件,它們之間存在線性連接并遵循非線性。

如果你正在處理圖像,那么卷積深度神經網絡能展現出不錯的結果。而非線性則通過卷積層和匯聚層表現出來,它能夠捕捉圖像的特征。

要處理文本和序列,最好選擇遞歸神經網絡。 RNN包含了LSTM或GRU模塊,并且能夠數據一同使用。也許,最有名的RNN應用是機器翻譯吧。

結論

我希望能向大家解釋最常用的機器學習算法,并就針對具體問題如何選擇機器學習算法提供建議。為了能讓你更輕松的掌握這些內容,我準備了下面這個總結。

線性回歸和線性分類器。盡管看起來簡單,但當其他算法在大量特征上遇到過擬合的問題時,它的優勢就表現出來了。

Logistic回歸是最簡單的非線性分類器,具有二元分類的參數和非線性函數(S形)的線性組合。

決策樹通常與人類的決策過程相似,并且易于解釋。但它們最常用于隨機森林或梯度增強這樣的組合中。

K-means是一個更原始、但又非常容易理解的算法。

PCA是降低信息損失最少的特征空間維度的絕佳選擇。

神經網絡是機器學習算法的新武器,可以應用于許多任務,但其訓練的計算復雜度相當大。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101171
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133086

原文標題:機器學習算法選用指南

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習的基礎知識和多種算法
    的頭像 發表于 12-30 09:16 ?394次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器
    的頭像 發表于 12-05 15:21 ?724次閱讀

    NPU與機器學習算法的關系

    緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設計目標是提高機器學習
    的頭像 發表于 11-15 09:19 ?600次閱讀

    Linux應用編程的基本概念

    Linux應用編程涉及到在Linux環境下開發和運行應用程序的一系列概念。以下是一些涵蓋Linux應用編程的基本概念。
    的頭像 發表于 10-24 17:19 ?291次閱讀

    諧波的概念及應用

    本文簡單介紹了諧波的概念及應用。
    的頭像 發表于 10-18 14:14 ?685次閱讀
    諧波的<b class='flag-5'>概念及</b>應用

    S參數的概念及應用

    電子發燒友網站提供《S參數的概念及應用.pdf》資料免費下載
    發表于 08-12 14:29 ?0次下載

    繼電器電感的基本概念及分類

    重要的影響。 一、繼電器電感的基本概念 電感的定義 電感是指導體在磁場中運動時,由于電磁感應作用而產生的電動勢。電感的大小與導體的長度、截面積、形狀以及磁場的強度有關。 電感的單位 電感的單位是亨利(H),常用的單位還有毫亨
    的頭像 發表于 07-24 09:41 ?734次閱讀

    BP網絡的基本概念和訓練原理

    )的多層前饋神經網絡。BP網絡自1985年提出以來,因其強大的學習和適應能力,在機器學習、數據挖掘、模式識別等領域得到了廣泛應用。以下將對BP網絡的基本概念、訓練原理及其優缺點進行詳細
    的頭像 發表于 07-19 17:24 ?1854次閱讀

    卷積神經網絡的基本概念、原理及特點

    基本概念、原理、特點以及在不同領域的應用情況。 一、卷積神經網絡的基本概念 卷積神經網絡是一種深度學習算法,它由多層卷積層和池化層堆疊而成。卷積層負責提取圖像中的局部特征,而池化層則
    的頭像 發表于 07-11 14:38 ?1343次閱讀

    遷移學習基本概念和實現方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個相關任務或領域的
    的頭像 發表于 07-04 17:30 ?1950次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習
    的頭像 發表于 07-02 11:25 ?1360次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習
    的頭像 發表于 06-27 08:27 ?1729次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典<b class='flag-5'>算法</b>與應用

    串口通信的基本概念

    串口通信(Serial Communications)的基本概念可以歸納為以下幾個方面:
    的頭像 發表于 06-12 09:28 ?858次閱讀
    串口通信的<b class='flag-5'>基本概念</b>

    機器學習入門:基本概念介紹

    機器學習(GraphMachineLearning,簡稱GraphML)是機器學習的一個分支,專注于利用圖形結構的數據。在圖形結構中,數據以圖的形式表示,其中的節點(或頂點)表示實體
    的頭像 發表于 05-16 08:27 ?550次閱讀
    圖<b class='flag-5'>機器</b><b class='flag-5'>學習</b>入門:<b class='flag-5'>基本概念</b>介紹

    萬用表的基本概念及結構組成

    在電子測試領域,萬用表被譽為“全能戰士”。其強大的功能和廣泛的應用使其成為電子工程師、維修人員和技術人員不可或缺的測量工具。本文將詳細介紹萬用表的基本概念、結構組成以及應用,帶您領略萬用表的獨特魅力。
    的頭像 發表于 05-10 15:05 ?1770次閱讀
    主站蜘蛛池模板: 夜夜综合网 | 色噜噜噜噜噜在线观看网站 | 色播五月婷婷 | 五月天丁香婷婷综合 | 在线播放黄色 | 国产va精品免费观看 | 看视频免费网站 | 免费在线视频观看 | 欧美性色欧美a在线播放 | 久久综合五月开心婷婷深深爱 | 日本色图在线 | 1000又爽又黄禁片在线久 | 99热久久久久久久免费观看 | 国产精品一区二区三区四区 | 日韩国产片 | 久久亚洲aⅴ精品网站婷婷 久久亚洲成人 | 成人免费视频一区二区三区 | 亚洲国产成人精品女人久久久 | 亚洲高清视频一区 | 亚洲国产成人久久精品影视 | 免费视频网站在线看视频 | 国产精选经典三级小泽玛利亚 | 一本到卡二卡三卡四卡 | 黄色毛片子 | 欧美精品黑人性xxxx | 免费观看a毛片一区二区不卡 | 黄色在线视频免费看 | 色佬网 | 免费看一级特黄a大片 | 免费看污视频软件 | 99久热| 超大乳抖乳露双乳视频 | 欲香欲色天天综合和网 | 高h肉肉视频在线播放观看 高黄视频 | 国产精品一区二区三区免费视频 | 天堂8在线天堂bt | 中文字幕在线永久在线视频2020 | 天堂网在线最新版www中文网 | 免费观看a毛片一区二区不卡 | 国产精品入口免费视频 | 国产视频每日更新 |