來(lái)源:Master編程樹(shù)
“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆](méi)有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的機(jī)器學(xué)習(xí)的定義是“利用經(jīng)驗(yàn)來(lái)改善計(jì)算機(jī)系統(tǒng)自身的性能”。事實(shí)上,由于“經(jīng)驗(yàn)”在計(jì)算機(jī)系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機(jī)器學(xué)習(xí)需要設(shè)法對(duì)數(shù)據(jù)進(jìn)行分析學(xué)習(xí),這就使得它逐漸成為智能數(shù)據(jù)分析技術(shù)的創(chuàng)新源之一,并且受到越來(lái)越多的關(guān)注。
機(jī)器學(xué)習(xí)的核心在于建模和算法,學(xué)習(xí)得到的參數(shù)只是一個(gè)結(jié)果。
成功訓(xùn)練一個(gè)模型需要四個(gè)要素:數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)的模型、衡量模型好壞的損失函數(shù)和一個(gè)調(diào)整模型權(quán)重以便最小化損失函數(shù)的算法。
機(jī)器學(xué)習(xí)里最重要的四類(lèi)問(wèn)題(按學(xué)習(xí)結(jié)果分類(lèi)):
預(yù)測(cè)(Prediction):一般用回歸(Regression,Arima)等模型。
聚類(lèi)(Clustering):如K-means方法。
分類(lèi)(Classification):如支持向量機(jī)法(Support Vector Machine,SVM),邏輯回歸(Logistic Regression)。
降維(Dimensional reduction):如主成分分析法(Principal Component Analysis,PCA,即純矩陣運(yùn)算)。
如果按照學(xué)習(xí)方法,機(jī)器學(xué)習(xí)又可以分為如下幾類(lèi)
- 監(jiān)督學(xué)習(xí)(SupervisedLearning,如深度學(xué)習(xí));
- 無(wú)監(jiān)督學(xué)習(xí)(Un-supervised Learning,如聚類(lèi));
- 半監(jiān)督學(xué)習(xí)(Semi-supervised Learning);
- 增強(qiáng)學(xué)習(xí)(Reinforced Learning)。
幾種常用的機(jī)器學(xué)習(xí)方法:
- 文本分類(lèi)
- 特征提取
- 標(biāo)注
- 搜索與排序
- 推薦系統(tǒng)
- 序列學(xué)習(xí)
1、文本分類(lèi)
文本分類(lèi)技術(shù)在NLP領(lǐng)域有著舉足輕重的地位。文本分類(lèi)是指在給定分類(lèi)體系,根據(jù)文本內(nèi)容自動(dòng)確定文本類(lèi)別的過(guò)程。20世紀(jì)90年代以來(lái),文本分類(lèi)已經(jīng)出現(xiàn)了很多應(yīng)用,比如信息檢索、Web 文檔自動(dòng)分類(lèi)、數(shù)字圖書(shū)館、自動(dòng)文摘、分類(lèi)新聞、文本過(guò)濾單詞語(yǔ)義辨析、情感分析等。
分類(lèi)過(guò)程主要分為兩個(gè)階段,訓(xùn)練階段和預(yù)測(cè)階段。訓(xùn)練階段根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到分類(lèi)模型。預(yù)測(cè)階段根據(jù)分類(lèi)器推斷出文本所屬類(lèi)別。訓(xùn)練階段一般需要先分詞,然后提取文本為特征,提取特征的過(guò)程稱之為特征提取。
一般來(lái)說(shuō)文本分類(lèi)大致分為如下幾個(gè)步驟:
1)定義階段:定義數(shù)據(jù)以及分類(lèi)體系,具體分為哪些類(lèi)別,需要哪些數(shù)據(jù)
2)數(shù)據(jù)預(yù)處理:對(duì)文檔做分詞、去停用詞等準(zhǔn)備工作。
3)數(shù)據(jù)提取特征:對(duì)文檔矩陣進(jìn)行降維,提取訓(xùn)練集中最有用的特征。
4)模型訓(xùn)練階段:選擇具體的分類(lèi)模型以及算法,訓(xùn)練出文本分類(lèi)器。
5)評(píng)測(cè)階段:在測(cè)試集上測(cè)試并評(píng)價(jià)分類(lèi)器的性能。
6)應(yīng)用階段:應(yīng)用性能最高的分類(lèi)模型對(duì)待分類(lèi)文檔進(jìn)行分類(lèi)。
2、特征提取
在使用分類(lèi)器之前,需要對(duì)文本提取特征,而一般來(lái)說(shuō),提取特征有幾種經(jīng)典的方法:
Bag-of-words:最原始的特征集,一個(gè)單詞/分詞就是一個(gè)特征。往往一個(gè)數(shù)據(jù)集就會(huì)有上萬(wàn)個(gè)特征;有一些簡(jiǎn)單的指標(biāo)可以幫助篩選掉一些對(duì)分類(lèi)沒(méi)幫助的詞語(yǔ),例如去停詞、計(jì)算互信息熵等。但不管怎么訓(xùn)練,特征維度都很大,每個(gè)特征的信息量太小。
統(tǒng)計(jì)特征:包括Termfrequency(TF)、Inverse document frequency(IDF),以及合并起來(lái)的TF-IDF。這種語(yǔ)言模型主要是用詞匯的統(tǒng)計(jì)特征來(lái)作為特征集,每個(gè)特征都能夠說(shuō)得出物理意義,看起來(lái)會(huì)比bag-of-words效果好,但實(shí)際效果也差不多。
- N-Gram:一種考慮了詞匯順序的模型,就是N階Markov鏈,每個(gè)樣本轉(zhuǎn)移成轉(zhuǎn)移概率矩陣,也能取得不錯(cuò)的效果。
3、標(biāo)注事實(shí)上,有一些看似分類(lèi)的問(wèn)題在實(shí)際中卻難以歸于分類(lèi)。例如,把圖所示的小女孩與狗這張圖無(wú)論分類(lèi)成人還是狗看上去都有些問(wèn)題。
圖里既有人又有狗。其實(shí)還不止這些,里面還有草啊、書(shū)包啊、樹(shù)啊等。與其將上圖僅僅分類(lèi)為其中一類(lèi),倒不如把這張圖里面我們所關(guān)心的類(lèi)別都標(biāo)注出來(lái)。比如,給定一張圖片,我們希望知道里面是否有人、是否有狗、是否有草等。給定一個(gè)輸人,輸出不定量的類(lèi)別,這個(gè)就叫作標(biāo)注任務(wù)。
4、搜索與排序
在這個(gè)數(shù)據(jù)爆炸的時(shí)代,在大量數(shù)據(jù)的場(chǎng)景下,如何用算法幫助人們從這些無(wú)序的信息中找到人們需要的信息就成為一個(gè)剛需。搜索與排序關(guān)注的問(wèn)題更多的是如何對(duì)一堆對(duì)象排序。例如在信息檢索領(lǐng)域,我們常常關(guān)注如何把海量的文檔按照與檢索條目的相關(guān)性進(jìn)行排序。在互聯(lián)網(wǎng)時(shí)代,由于谷歌和百度等搜索引擎的流行,我們更加關(guān)注如何對(duì)網(wǎng)頁(yè)進(jìn)行排序。互聯(lián)網(wǎng)時(shí)代早期,谷歌研發(fā)出一個(gè)著名的網(wǎng)頁(yè)排序算法-PageRank。該算法的排序結(jié)果并不取決于特定的用戶檢索條目,這些排序結(jié)果可以更好地為所包含的檢索條目的網(wǎng)頁(yè)進(jìn)行排序。
5、推薦系統(tǒng)
推薦系統(tǒng)和搜索排序關(guān)系緊密,并且被廣泛應(yīng)用于電子商務(wù)、搜索引擎、新聞門(mén)戶等。推薦系統(tǒng)的主要目標(biāo)是把用戶可能感興趣的東西推薦給用戶。推薦算法用到的信息種類(lèi)非常多,例如用戶的自我描述、過(guò)往的購(gòu)物習(xí)慣,以及對(duì)過(guò)往推薦的反饋等。
6、序列學(xué)習(xí)序列學(xué)習(xí)是一類(lèi)近來(lái)備受關(guān)注的機(jī)器學(xué)習(xí)問(wèn)題。在這類(lèi)問(wèn)題中,需要考慮順序問(wèn)題輸入和輸出的長(zhǎng)度不固定(例如翻譯,輸入的英文和翻譯出來(lái)的中文長(zhǎng)度都是不固定的)。這類(lèi)模型通常可以處理任意長(zhǎng)度的輸人序列,或者輸出任意長(zhǎng)度的序列。當(dāng)輸入和輸出都是不定長(zhǎng)的序列時(shí),我們把這類(lèi)模型稱為seq2seq,例如QA問(wèn)答系統(tǒng)、語(yǔ)言翻譯模型和語(yǔ)音轉(zhuǎn)錄文本模型。
以下列舉了一些常見(jiàn)的序列學(xué)習(xí)案例。
在語(yǔ)音識(shí)別的問(wèn)題里,輸人序列通常都是麥克風(fēng)的聲音,而輸出是對(duì)通過(guò)麥克風(fēng)所說(shuō)的話的文本轉(zhuǎn)錄。這類(lèi)問(wèn)題通常有一個(gè)難點(diǎn),例如聲音通常都在特定的采樣率下進(jìn)行采樣,因?yàn)槁曇艉臀谋局g不存在一一對(duì)應(yīng)的關(guān)系。換言之,語(yǔ)音識(shí)別是一類(lèi)序列轉(zhuǎn)換問(wèn)題。這里的輸出往往比輸人短很多。
2. 文本轉(zhuǎn)語(yǔ)音
這是語(yǔ)音識(shí)別問(wèn)題的逆問(wèn)題。這里的輸入是一個(gè)文本序列,而輸出才是聲音序列。因此,這類(lèi)問(wèn)題的輸出比輸入長(zhǎng)。
3. 機(jī)器翻譯機(jī)器翻譯的目標(biāo)是把一段話從一種語(yǔ)言翻譯成另一種語(yǔ)言,例如把中文翻譯成英語(yǔ)。目前,機(jī)器翻譯技術(shù)已經(jīng)很成熟,例如國(guó)內(nèi)的科大訊飛以及百度語(yǔ)音在中文翻譯領(lǐng)域都有不錯(cuò)的成績(jī),不過(guò)有的時(shí)候也會(huì)出現(xiàn)一些尷尬的翻譯結(jié)果。
機(jī)器翻譯的復(fù)雜程度是非常高的,同一個(gè)詞在兩種不同語(yǔ)言下有時(shí)候是多對(duì)多的關(guān)系。另外,符合語(yǔ)法或者語(yǔ)言習(xí)慣的語(yǔ)序調(diào)整也令問(wèn)題更加復(fù)雜。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7643瀏覽量
90478 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134328 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22553
發(fā)布評(píng)論請(qǐng)先 登錄
【卡酷機(jī)器人】——基礎(chǔ)學(xué)習(xí)方法
【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》
深度解析機(jī)器學(xué)習(xí)三類(lèi)學(xué)習(xí)方法
什么是機(jī)器學(xué)習(xí)?機(jī)器學(xué)習(xí)能解決什么問(wèn)題?(案例分析)

《機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘:方法和應(yīng)用》
如何學(xué)好機(jī)器學(xué)習(xí)?機(jī)器學(xué)習(xí)的學(xué)習(xí)方法4個(gè)關(guān)鍵點(diǎn)整理概述

機(jī)器學(xué)習(xí)入門(mén)寶典《統(tǒng)計(jì)學(xué)習(xí)方法》的介紹
面向人工智能的機(jī)器學(xué)習(xí)方法體系總結(jié)

區(qū)塊鏈數(shù)據(jù)集有怎樣的機(jī)器學(xué)習(xí)方法
隨著人工智能的落地 自動(dòng)化機(jī)器學(xué)習(xí)方法AutoML應(yīng)運(yùn)而生
機(jī)器學(xué)習(xí)方法遷移學(xué)習(xí)的發(fā)展和研究資料說(shuō)明

深度討論集成學(xué)習(xí)方法,解決AI實(shí)踐難題

水聲被動(dòng)定位中的機(jī)器學(xué)習(xí)方法研究進(jìn)展綜述

聯(lián)合學(xué)習(xí)在傳統(tǒng)機(jī)器學(xué)習(xí)方法中的應(yīng)用

傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

評(píng)論