云機(jī)器學(xué)習(xí)服務(wù)精彩回顧
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
Amazon,Microsoft,Databricks,Google,HPE和IBM的機(jī)器學(xué)習(xí)工具在廣度、深度及易用性上都具備優(yōu)勢(shì)。
機(jī)器學(xué)習(xí)具有多種形式,其中最純粹的一種可以為分析師提供一組數(shù)據(jù)探索工具、ML模型選擇、穩(wěn)健的解決方案以及將此方案用于預(yù)測(cè)的使用方法。
Amazon,Microsoft,Databricks,Google和IBM的云服務(wù)都提供預(yù)測(cè)API,來進(jìn)行多重管控。HPE Haven OnDemand還提供了一個(gè)有限的預(yù)測(cè)API,用于解決二元分類問題。
然而,并不是所有的機(jī)器學(xué)習(xí)問題都必須從頭開始解決。有些問題可以用在一個(gè)足夠大的樣本中,通過訓(xùn)練使其廣泛適用。例如,“canned”方案就能夠有效解決語音識(shí)別、語音合成、文本分析及人臉識(shí)別中存在的問題。不用驚奇,許多云機(jī)器學(xué)習(xí)提供商都會(huì)利用一個(gè)API,讓開發(fā)者在應(yīng)用程序內(nèi)能實(shí)現(xiàn)這些功能。
這些功能可以識(shí)別美式英語口語(和其他一些語言)并將其轉(zhuǎn)錄。但對(duì)于給定的說話者而言,給定的服務(wù)能否奏效將取決于他的方言和口音,以及該服務(wù)在類似方言和口音上的受訓(xùn)程度。Microsoft Azure,IBM,Google和Haven On Demand都啟動(dòng)了語音識(shí)別服務(wù)。
機(jī)器學(xué)習(xí)也存在多種問題。例如,回歸問題試圖從觀察結(jié)果中預(yù)測(cè)一個(gè)連續(xù)變量(例如銷售情況),分類問題試圖通過一組給定的觀測(cè)值預(yù)測(cè)種類(例如垃圾郵件)。但是仍然有一些相對(duì)完整的工具包,像Amazon,Microsoft,Databricks,Google,HPE和IBM所提供的工具,就可以用來解決一系列的機(jī)器學(xué)習(xí)問題。
本文將簡(jiǎn)要地介紹六個(gè)商業(yè)機(jī)器學(xué)習(xí)方案,還會(huì)貼出五個(gè)完整實(shí)驗(yàn)結(jié)果。不幸的是,Google三月份所宣布的——基于云計(jì)算的機(jī)器學(xué)習(xí)工具和應(yīng)用程序,還沒能使Google Cloud Machine Learning達(dá)到公共可用的程度。
Amazon Machine Learning
Amazon一直致力于研究大眾化的機(jī)器學(xué)習(xí)平臺(tái),用來服務(wù)那些熟悉業(yè)務(wù)問題的分析人員,無論他們是否理解數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)算法。
一般來說,要使用Amazon Machine Learning需要經(jīng)過三個(gè)步驟:首先,在S3中清理和上傳CSV格式數(shù)據(jù);然后,創(chuàng)建、訓(xùn)練和評(píng)估ML模型;最后,創(chuàng)建批處理或?qū)崟r(shí)預(yù)測(cè)。每一步都是迭代的,在整個(gè)過程中也同樣如此。所以機(jī)器學(xué)習(xí)并不是一個(gè)簡(jiǎn)單、靜態(tài)的萬能藥,即使Amazon已經(jīng)實(shí)現(xiàn)了算法優(yōu)選。
Amazon Machine Learning支持三種模型:二元分類、多級(jí)分類和回歸——一個(gè)算法適用一種類型。為了優(yōu)化,Amazon Machine Learning使用SGD(Stochastic Gradient Descent),將多個(gè)連續(xù)的訓(xùn)練數(shù)據(jù)進(jìn)行傳遞,并更新功能權(quán)重使之成為小批量格式,讓損失函數(shù)最小化。損失函數(shù)反映了實(shí)際值和預(yù)測(cè)值之間的區(qū)別,而且梯度下降優(yōu)化方法只適用于連續(xù)、可微的損失函數(shù),例如物流損失函數(shù)和平方損失函數(shù)。
Amazon Machine Learning將邏輯回歸(物流損失函數(shù)+SGD)用于二元分類。
Amazon Machine Learning將多項(xiàng)邏輯回歸(多項(xiàng)物流損失函數(shù)+SGD)用于多級(jí)分類。
Amazon Machine Learning將線性回歸(平方損失函數(shù)+SGD)用于回歸。
在使用Amazon Machine Learning訓(xùn)練和評(píng)估二元分類模型后,可以選擇分?jǐn)?shù)閾值來實(shí)現(xiàn)想要的錯(cuò)誤率。這里在默認(rèn)0.5的閾值上有所增加,就可以生成一套更強(qiáng)的引線,有利于更快達(dá)到營銷和銷售目的。
Amazon Machine Learning決定了機(jī)器學(xué)習(xí)是任務(wù)解決型而不是目標(biāo)數(shù)據(jù)型。例如,預(yù)測(cè)數(shù)值目標(biāo)變量的問題,意味著回歸;預(yù)測(cè)非數(shù)字目標(biāo)變量的問題時(shí),如果只有兩個(gè)目標(biāo)就是二元分類,如果有兩個(gè)以上則是多級(jí)分類。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%