訓(xùn)練集用來(lái)訓(xùn)練模型,驗(yàn)證集用于模型的選擇,而測(cè)試集用于最終對(duì)學(xué)習(xí)方法的評(píng)估。
在學(xué)習(xí)到不同的復(fù)雜度的模型中,選擇對(duì)驗(yàn)證集有最小預(yù)測(cè)誤差的模型,由于驗(yàn)證集有足夠多的數(shù)據(jù),用它對(duì)模型進(jìn)行選擇也是有效的。
但是,在許多實(shí)際應(yīng)用中數(shù)據(jù)是不充足的,為了選擇好的模型,可以采用交叉驗(yàn)證方法,交叉驗(yàn)證的基本思想是重復(fù)地使用數(shù)據(jù);把給定的數(shù)據(jù)進(jìn)行切分,將切分的數(shù)據(jù)組合為訓(xùn)練集和測(cè)試集,在此基礎(chǔ)上反復(fù)地進(jìn)行訓(xùn)練、測(cè)試以及模型選擇。
1、簡(jiǎn)單交叉驗(yàn)證
簡(jiǎn)單交叉驗(yàn)證是:首先隨機(jī)地將已給數(shù)據(jù)分成兩部分,一部分作為訓(xùn)練集,另一部分作為測(cè)試集(比如,70%的數(shù)據(jù)為訓(xùn)練集,30%的數(shù)據(jù)為測(cè)試集);然后用訓(xùn)練集在各種情況下(例如,不同的參數(shù)個(gè)數(shù))訓(xùn)練模型,從而得到不同的模型;在測(cè)試集上評(píng)價(jià)各個(gè)模型的測(cè)試誤差,選出測(cè)試誤差最小的模型。
2、S折交叉驗(yàn)證
應(yīng)用最多是S折交叉驗(yàn)證,方法如下:首先隨機(jī)地將已給數(shù)據(jù)切分為S個(gè)互不相交的大小相同的子集;然后利用S-1個(gè)子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測(cè)試模型;將這一過(guò)程對(duì)可能的S種選擇重復(fù)進(jìn)行;最后選出S次評(píng)測(cè)中平均測(cè)試誤差最小的模型。
3、留一交叉驗(yàn)證
S折交叉驗(yàn)證的特殊情形是S==N,稱為留一交叉驗(yàn)證,往往在數(shù)據(jù)缺乏的情況下使用,這里,N是給定數(shù)據(jù)集的容量。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8501瀏覽量
134582
發(fā)布評(píng)論請(qǐng)先 登錄
介紹三種常見(jiàn)的MySQL高可用方案
雙極型三極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載
CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?
GaN、超級(jí)SI、SiC這三種MOS器件的用途區(qū)別
示波器的三種觸發(fā)模式

三種封裝形式下的400G光模塊概述

什么是PID調(diào)節(jié)器的三種模式
I2S有左對(duì)齊,右對(duì)齊跟標(biāo)準(zhǔn)的I2S三種格式,那么這三種格式各有什么優(yōu)點(diǎn)呢?
基本放大電路有哪三種
mosfet的三種工作狀態(tài)及工作條件是什么
單片機(jī)的三種總線結(jié)構(gòu)
vim的三種工作模式有哪些
三種功率器件的應(yīng)用區(qū)別

評(píng)論