縮寫
AUC曲線下面積(Area Under the Curve)
AUROC接受者操作特征曲線下面積(Area Under the Receiver Operating Characteristic curve)
大多數(shù)時(shí)候,AUC都是指AUROC,這是一個(gè)不好地做法,正如Marc Claesen指出的那樣,AUC有歧義(可能是任何曲線),而AUROC沒有歧義。
AUROC解釋
AUROC有一些等價(jià)的解釋:
均勻抽取的隨機(jī)陽性樣本排名在均勻抽取的隨機(jī)陰性樣本之前的期望
陽性樣本排名在均勻抽取的隨機(jī)陰性樣本之前的期望比例
若排名在一個(gè)隨機(jī)抽取的隨機(jī)陰性樣本前分割,期望的真陽性率
陰性樣本排名在均勻抽取的隨機(jī)陽性樣本之后和期望比例
若排名在一個(gè)均勻抽取的隨機(jī)陽性樣本后分割,期望的假陽性率
更多閱讀:如何推導(dǎo)AUROC的概率解釋(https://stats.stackexchange.com/questions/180638/how-to-derive-the-probabilistic-interpretation-of-the-auc/277721#277721)
AUROC計(jì)算
假設(shè)我們有一個(gè)概率二元分類器,比如邏輯回歸。
在討論ROC曲線(接受者操作特征曲線)之前,我們需要理解混淆矩陣(confusion matrix)的概念。一個(gè)二元預(yù)測可能有4個(gè)結(jié)果:
我們預(yù)測0,而真實(shí)類別是0:這被稱為真陰性(True Negative),即,我們正確預(yù)測類別為陰性(0)。比如,殺毒軟件沒有將一個(gè)無害的文件識別為病毒。
我們預(yù)測0,而真實(shí)類別是1:這被稱為假陰性(False Negative),即,我們錯(cuò)誤預(yù)測類別為陰性(0)。比如,殺毒軟件沒有識別出一個(gè)病毒。
我們預(yù)測1,而真實(shí)類別是0:這被稱為假陽性(False Positive),即,我們錯(cuò)誤預(yù)測類別為陽性(1)。比如,殺毒軟件將一個(gè)無害的文件識別為病毒。
我們預(yù)測1,而真實(shí)類別是1:這被稱為真陽性(True Positive),即,我們正確預(yù)測類別為陽性(1)。比如,殺毒軟件正確地識別出一個(gè)病毒。
我們統(tǒng)計(jì)模型做出的預(yù)測,數(shù)一下這四種結(jié)果各自出現(xiàn)了多少次,可以得到混淆矩陣:
在上面的混淆矩陣示例中,在分類的50個(gè)數(shù)據(jù)點(diǎn)中,45個(gè)分類正確,5個(gè)分類錯(cuò)誤。
當(dāng)比較兩個(gè)不同模型的時(shí)候,使用單一指標(biāo)常常比使用多個(gè)指標(biāo)更方便,下面我們基于混淆矩陣計(jì)算兩個(gè)指標(biāo),之后我們會(huì)將這兩個(gè)指標(biāo)組合成一個(gè):
真陽性率(TPR),即,靈敏度、命中率、召回,定義為TP/(TP+FN)。從直覺上說,這一指標(biāo)對應(yīng)被正確識別為陽性的陽性數(shù)據(jù)點(diǎn)占所有陽性數(shù)據(jù)點(diǎn)的比例。換句話說,TPR越高,我們遺漏的陽性數(shù)據(jù)點(diǎn)就越少。
假陽性率(FPR),即,誤檢率,定義為FP/(FP+TN)。從直覺上說,這一指標(biāo)對應(yīng)被誤認(rèn)為陽性的陰性數(shù)據(jù)點(diǎn)占所有陰性數(shù)據(jù)點(diǎn)的比例。換句話說,F(xiàn)PR越高,我們錯(cuò)誤分類的陰性數(shù)據(jù)點(diǎn)就越多。
為了將FPR和TPR組合成一個(gè)指標(biāo),我們首先基于不同的閾值(例如:0.00; 0.01, 0.02, …, 1.00)計(jì)算前兩個(gè)指標(biāo)的邏輯回歸,接著將它們繪制為一個(gè)圖像,其中FPR值為橫軸,TPR值為縱軸。得到的曲線為ROC曲線,我們考慮的指標(biāo)是該曲線的AUC,稱為AUROC。
下圖展示了AUROC的圖像:
在上圖中,藍(lán)色區(qū)域?qū)?yīng)接受者操作特征曲線(AUROC)。對角虛線為隨機(jī)預(yù)測器的ROC曲線:AUROC為0.5. 隨機(jī)預(yù)測器通常用作基線,以檢驗(yàn)?zāi)P褪欠裼杏谩?/p>
如果你希望得到一些第一手的經(jīng)驗(yàn):
Python:http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html
-
矩陣
+關(guān)注
關(guān)注
0文章
423瀏覽量
34568
原文標(biāo)題:分類問題統(tǒng)計(jì)指標(biāo)入門:混淆矩陣、召回、誤檢率、AUROC
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
什么是誤碼率和誤符號率 ?
電能質(zhì)量指標(biāo)運(yùn)行合格率的標(biāo)準(zhǔn)
誰有關(guān)于 memory用LDPC 的校檢矩陣?
使用單值評估指標(biāo)進(jìn)行優(yōu)化
清洗誤標(biāo)注的開發(fā)集和測試集樣本
BPSK調(diào)制通信系統(tǒng)的誤比特率仿真
系統(tǒng)誤符號率的變化(G)
分類器的分類性能評價(jià)指標(biāo)
機(jī)器學(xué)習(xí)實(shí)用指南——準(zhǔn)確率與召回率
![機(jī)器學(xué)習(xí)實(shí)用指南——準(zhǔn)確<b class='flag-5'>率</b>與<b class='flag-5'>召回</b><b class='flag-5'>率</b>](https://file.elecfans.com/web1/M00/54/51/pIYBAFsor2CAD9RMAAAOddYe7oI256.jpg)
AI垃圾分類的準(zhǔn)確率和召回率達(dá)到99%
一文搞懂深度學(xué)習(xí)的精密率和召回率
![一文搞懂深度學(xué)習(xí)的精密<b class='flag-5'>率</b>和<b class='flag-5'>召回</b><b class='flag-5'>率</b>](https://file.elecfans.com/web1/M00/C0/0A/o4YBAF8ChCmAAMQgAADgDsZuIDc211.png)
評論