一、roc曲線
1、roc曲線:接收者操作特征(receiveroperating characteristic),roc曲線上每個(gè)點(diǎn)反映著對(duì)同一信號(hào)刺激的感受性。
橫軸:負(fù)正類率(false postive rate FPR)特異度,劃分實(shí)例中所有負(fù)例占所有負(fù)例的比例;(1-Specificity)
縱軸:真正類率(true postive rate TPR)靈敏度,Sensitivity(正類覆蓋率)
2、針對(duì)一個(gè)二分類問題,將實(shí)例分成正類(postive)或者負(fù)類(negative)。但是實(shí)際中分類時(shí),會(huì)出現(xiàn)四種情況.
(1)若一個(gè)實(shí)例是正類并且被預(yù)測(cè)為正類,即為真正類(True Postive TP)
(2)若一個(gè)實(shí)例是正類,但是被預(yù)測(cè)成為負(fù)類,即為假負(fù)類(False Negative FN)
(3)若一個(gè)實(shí)例是負(fù)類,但是被預(yù)測(cè)成為正類,即為假正類(False Postive FP)
(4)若一個(gè)實(shí)例是負(fù)類,但是被預(yù)測(cè)成為負(fù)類,即為真負(fù)類(True Negative TN)
TP:正確的肯定數(shù)目
FN:漏報(bào),沒有找到正確匹配的數(shù)目
FP:誤報(bào),沒有的匹配不正確
TN:正確拒絕的非匹配數(shù)目
列聯(lián)表如下,1代表正類,0代表負(fù)類:
由上表可得出橫,縱軸的計(jì)算公式:
(1)真正類率(True Postive Rate)TPR:TP/(TP+FN),代表分類器預(yù)測(cè)的正類中實(shí)際正實(shí)例占所有正實(shí)例的比例。Sensitivity
(2)負(fù)正類率(False Postive Rate)FPR:FP/(FP+TN),代表分類器預(yù)測(cè)的正類中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例。1-Specificity
(3)真負(fù)類率(True Negative Rate)TNR: TN/(FP+TN),代表分類器預(yù)測(cè)的負(fù)類中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例,TNR=1-FPR。Specificity
假設(shè)采用邏輯回歸分類器,其給出針對(duì)每個(gè)實(shí)例為正類的概率,那么通過設(shè)定一個(gè)閾值如0.6,概率大于等于0.6的為正類,小于0.6的為負(fù)類。對(duì)應(yīng)的就可以算出一組(FPR,TPR),在平面中得到對(duì)應(yīng)坐標(biāo)點(diǎn)。隨著閾值的逐漸減小,越來越多的實(shí)例被劃分為正類,但是這些正類中同樣也摻雜著真正的負(fù)實(shí)例,即TPR和FPR會(huì)同時(shí)增大。閾值最大時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)為(0,0),閾值最小時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)(1,1)。
如下面這幅圖,(a)圖中實(shí)線為ROC曲線,線上每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)閾值。
橫軸FPR:1-TNR,1-Specificity,F(xiàn)PR越大,預(yù)測(cè)正類中實(shí)際負(fù)類越多。
縱軸TPR:Sensitivity(正類覆蓋率),TPR越大,預(yù)測(cè)正類中實(shí)際正類越多。
理想目標(biāo):TPR=1,F(xiàn)PR=0,即圖中(0,1)點(diǎn),故ROC曲線越靠攏(0,1)點(diǎn),越偏離45度對(duì)角線越好,Sensitivity、Specificity越大效果越好。
二、如何畫roc曲線
假設(shè)已經(jīng)得出一系列樣本被劃分為正類的概率,然后按照大小排序,下圖是一個(gè)示例,圖中共有20個(gè)測(cè)試樣本,“Class”一欄表示每個(gè)測(cè)試樣本真正的標(biāo)簽(p表示正樣本,n表示負(fù)樣本),“Score”表示每個(gè)測(cè)試樣本屬于正樣本的概率。
接下來,我們從高到低,依次將“Score”值作為閾值threshold,當(dāng)測(cè)試樣本屬于正樣本的概率大于或等于這個(gè)threshold時(shí),我們認(rèn)為它為正樣本,否則為負(fù)樣本。舉例來說,對(duì)于圖中的第4個(gè)樣本,其“Score”值為0.6,那么樣本1,2,3,4都被認(rèn)為是正樣本,因?yàn)樗鼈兊摹癝core”值都大于等于0.6,而其他樣本則都認(rèn)為是負(fù)樣本。每次選取一個(gè)不同的threshold,我們就可以得到一組FPR和TPR,即ROC曲線上的一點(diǎn)。這樣一來,我們一共得到了20組FPR和TPR的值,將它們畫在ROC曲線的結(jié)果如下圖:
AUC(Area under Curve):Roc曲線下的面積,介于0.1和1之間。Auc作為數(shù)值可以直觀的評(píng)價(jià)分類器的好壞,值越大越好。
首先AUC值是一個(gè)概率值,當(dāng)你隨機(jī)挑選一個(gè)正樣本以及負(fù)樣本,當(dāng)前的分類算法根據(jù)計(jì)算得到的Score值將這個(gè)正樣本排在負(fù)樣本前面的概率就是AUC值,AUC值越大,當(dāng)前分類算法越有可能將正樣本排在負(fù)樣本前面,從而能夠更好地分類。
三、為什么使用Roc和Auc評(píng)價(jià)分類器
既然已經(jīng)這么多標(biāo)準(zhǔn),為什么還要使用ROC和AUC呢?因?yàn)镽OC曲線有個(gè)很好的特性:當(dāng)測(cè)試集中的正負(fù)樣本的分布變換的時(shí)候,ROC曲線能夠保持不變。在實(shí)際的數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)樣本類不平衡,即正負(fù)樣本比例差距較大,而且測(cè)試數(shù)據(jù)中的正負(fù)樣本也可能隨著時(shí)間變化。下圖是ROC曲線和Presision-Recall曲線的對(duì)比:
在上圖中,(a)和(c)為Roc曲線,(b)和(d)為Precision-Recall曲線。
(a)和(b)展示的是分類其在原始測(cè)試集(正負(fù)樣本分布平衡)的結(jié)果,(c)(d)是將測(cè)試集中負(fù)樣本的數(shù)量增加到原來的10倍后,分類器的結(jié)果,可以明顯的看出,ROC曲線基本保持原貌,而Precision-Recall曲線變化較大。
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13408 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8492瀏覽量
134128 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25284
原文標(biāo)題:機(jī)器學(xué)習(xí)之分類器性能指標(biāo)之ROC曲線、AUC值
文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄

LSI推出6Gb/s SAS RoC芯片
MATLAB的ROC曲線繪制比較研究
ROC RK3568 PC固件Debian

ROC RK3566 PC固件Buildroot

ROC RK3566 PC固件Debian

ROC RK3566 PC固件OpenWRT

ROC RK3566 PC固件Ubuntu

ROC RK3566 PC結(jié)構(gòu)圖紙

為什么使用ROC曲線?
支持向量機(jī)(系統(tǒng)識(shí)別的性能度量之ROC曲線)

SAS3908 Tri-Mode ROC產(chǎn)品介紹

SAS3516 Tri-Mode ROC產(chǎn)品介紹

評(píng)論