機器學習 (ML) 采用算法和統計模型,使計算機系統能夠在大量數據中找到規律,然后使用可識別這些模式的模型來預測或描述新數據。
什么是機器學習?其工作原理是什么?
簡而言之,機器學習就是訓練機器去學習,而不需要明確編程。機器學習作為 AI 的一個子集,以其最基本的形式使用算法來解析數據、學習數據,然后對現實世界中的某些內容做出預測或判斷。
換句話說,機器學習使用算法從輸入到機器學習平臺的數據中自動創建模型。典型的程序化或基于規則的系統獲取程序化規則中的專家知識,但當數據發生變化時,這些規則可能會變得難以更新和維護。機器學習的優勢在于,它能夠從越來越多輸入算法的數據中學習,并且可以給出數據驅動的概率預測。這種在當今大數據應用中快速有效地利用和應用高度復雜算法的能力是一種相對較新的發展。
幾乎任何可以用數據定義的模式或一組規則來完成的離散任務都可以通過自動化方式進行,因此使用機器學習可以大大提高效率。這使得公司可以改變以前只有人工才能完成的流程,包括客戶服務電話路由以及履歷審查等等。
機器學習系統的性能取決于一些算法將數據集轉換為模型的能力。不同算法適用于不同問題和任務,而這些問題的解決和任務的完成也取決于輸入數據的質量以及計算資源的能力。
機器學習采用兩種主要技術,將算法的使用劃分為不同類型:監督式、無監督式以及這兩種技術的組合。監督式學習算法使用已標記數據,無監督式學習算法在未標記數據中找規律。半監督式學習混合使用已標記和未標記數據。增強學習訓練算法,基于反饋更大限度地利用獎勵。
監督式學習
監督式機器學習(也稱為預測分析)使用算法來訓練模型,以在包含標簽和特征的數據集中找規律。然后,它使用經過訓練的模型預測新數據集的特征標簽。
監督式學習可以進一步分為分類和回歸。
分類
分類根據已知項目的已標簽示例來確定一個項目屬于哪個類別。邏輯回歸用于根據已知為/非欺詐交易的特征(交易金額、時間以及上次交易地點)來估計信用卡交易為欺詐交易的概率(標簽)。
其他分類示例包括:
垃圾郵件檢測
文本情感分析
預測患者風險、敗血癥或癌癥
回歸
回歸可估算目標結果標簽與一個或多個特征變量之間的關系,以預測連續數值。在下面的簡單示例中,線性回歸用于根據房屋面積(特征)估算房價(標簽)。
回歸的其他示例包括:
預測欺詐數量
預測銷售額
監督式學習算法包括:
邏輯回歸
線性回歸
支持向量機
決策樹
隨機森林
梯度提升決策樹
無監督式學習
無監督式學習(也稱為描述性分析)事先未提供已標記數據,因此有助于數據科學家發現先前未知數據規律。這些算法嘗試“學習”輸入數據中的固有結構,并發現相似性或規律性。常見的無監督式任務包括聚類和關聯。
聚類
在聚類中,算法通過分析輸入示例之間的相似性將輸入分為不同類別。聚類的一個示例是,為了更好地定制產品和服務,公司希望對其客戶進行細分。客戶可以按人口統計數據和購買記錄等特征進行分組。為了得到更有價值的結果,通常將無監督式學習聚類與監督式學習聚類相結合。
其他聚類示例包括:
搜索結果分組
對相似患者進行分組
文本分類
異常檢測(從集群中找出不相似的地方,即異常值)
關聯學習
關聯或頻繁模式挖掘可以在大型數據項集合中發現頻繁同時發生的關聯(關系、依賴關系)。一個同時發生的關聯示例是經常一起購買的產品,例如有名的啤酒和紙尿褲。對購物者行為的分析發現,購買紙尿褲的男性通常也會買啤酒。
無監督式學習算法包括:
K-means
隱含狄利克雷分布 (LDA)
高斯混合模型 (GMM)
交替最小二乘法 (ALS)
FP 增長
機器學習的優勢
機器學習對企業的好處是多種多樣的,包括:
以足夠及時的方式進行快速分析、預測和處理,使企業能夠快速做出基于數據的決策
通過快速識別高風險患者、推薦一系列藥物以及預測再入院率,促進準確的醫學預測和診斷
通過顯著減少由數據重復和其他不準確造成的錯誤,簡化數據輸入中的時間密集型文檔,同時使工作人員擺脫繁重的數據輸入任務
提高金融規則和模型的精確度,促進投資組合管理;實現算法交易、貸款承銷,重要的是推進欺詐檢測
通過制定高效預測性維護計劃,提高預測性維護效率
改善客戶分割和生命周期價值預測,為營銷人員提供寶貴信息以優化潛在客戶,更大限度地提高網絡流量,以及提高郵件和電子郵件活動的回報。
機器學習用例
加速計算和 ML 正推動醫療健康領域的智能計算。NVIDIA Clara 提供單一平臺,整合醫學影像、基因組學、患者監控以及藥物研發,并可將該平臺部署在嵌入式系統、邊緣、每個云端等任何地方,助力醫療健康行業進行創新并加快實現精準醫療的目標。
領先的零售商正利用 ML 來減少損耗、改善預測、實現倉庫物流自動化、確定店內促銷活動和實時定價、為客戶提供個性化服務和建議,以及在實體店和網店提供更出色的購物體驗。
了解消費者行為對于零售商而言變得更為重要。為了推動發展,采用智能推薦進行個性化營銷。為提高收入,在線零售商使用由 GPU 提供支持的機器學習 (ML) 和深度學習 (DL) 算法來打造更快速、更準確的推薦引擎。購物者的購買以及網絡操作歷史記錄為機器學習模型的分析提供了數據,從而得出建議,并支持零售商在促銷方面所作的努力。
金融機構正在采用 ML 來提供更智能、更安全的服務。GPU 驅動的 ML 解決方案可以在大量數據中識別關鍵見解,通過自動化減輕員工的日常任務負擔,加速風險計算和欺詐檢測,并借助更準確的推薦系統改善客戶服務。
NVIDIA 提供預訓練模型和軟件解決方案,可大幅簡化 ML 應用程序。例如,NVIDIA Metropolis 平臺讓開發者能夠構建 ML 應用程序,以改進零售庫存管理、增強損失預防措施,并簡化消費者的結賬體驗。
作為一個實際示例,沃爾瑪利用 NVIDIA 的技術來管理員工工作流程,并確保某些商店的肉類和農產品的新鮮度。同樣地,寶馬采用 NVIDIA 的先進 AI 解決方案,在其制造廠中自動進行光學檢查。中國移動運營著超大無線網絡,利用 NVIDIA 的平臺通過 5G 網絡提供 AI 功能。
機器學習的重要意義
企業越來越受數據驅動:感知市場和環境數據,并使用分析和機器學習來識別復雜模式、檢測變化,并做出直接影響利潤的預測。數據驅動型公司使用數據科學來管理和理解海量數據。
數據科學是每個行業的一部分。零售、金融、醫療健康和物流等行業的大型企業利用數據科學技術提高其競爭力、響應速度和效率。廣告公司用它更有效地定位廣告。按揭貸款公司用它來準確預測默認風險,以獲得最大收益。零售商用它來簡化供應鏈。事實上,正是本世紀頭中期 Hadoop、NumPy、scikitlearn、Pandas 和 Spark 等開源、大規模數據分析和機器學習軟件的出現,引發了這場大數據革命。
如今,數據科學和機器學習已成為全球超大的計算領域。預測機器學習模型的精度即便提升微小,最低也能帶來數十億的價值。預測模型訓練是數據科學的核心。事實上,大部分數據科學 IT 預算都用于構建機器學習模型,其中包括數據轉換、特征工程、訓練、評估和可視化。要構建更好的模型,數據科學家需要通過大量迭代進行訓練、評估和再訓練。現今,這些迭代可能需要數天時間,這不僅會限制產品部署之前完成的迭代周期數量,還會影響最終結果的質量。
在企業間運行分析和機器學習需要大量的基礎設施。《財富》500 強企業擴展計算能力,并投資數千臺 CPU 服務器以構建大量數據科學集群。CPU 橫向擴展不再有效。每年,全球數據量都會翻倍,而隨著摩爾定律的終結,CPU 計算也遭遇了瓶頸。GPU 擁有一個大規模并行架構,當中包含數千個高效小核心,專為同時處理多重任務而設計。類似于科學計算和深度學習如何轉向 NVIDIA GPU 加速,數據分析和機器學習也將受益于 GPU 并行化和加速。
原文標題:NVIDIA 大講堂 | 什么是機器學習?
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
5226瀏覽量
105652 -
gpu
+關注
關注
28文章
4903瀏覽量
130569 -
工作原理
+關注
關注
4文章
277瀏覽量
38187 -
機器學習
+關注
關注
66文章
8487瀏覽量
133975
原文標題:NVIDIA 大講堂 | 什么是機器學習?
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
工業機器人工作站的建設意義
如何選擇云原生機器學習平臺
深入解析激光焊縫跟蹤器的工作原理與應用優勢

評論