在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分類模型評估指標(biāo)匯總

電子設(shè)計(jì) ? 來源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-10 21:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:努力的孔子

對模型進(jìn)行評估時(shí),可以選擇很多種指標(biāo),但不同的指標(biāo)可能得到不同的結(jié)果,如何選擇合適的指標(biāo),需要取決于任務(wù)需求。

正確率與錯(cuò)誤率

正確率:正確分類的樣本數(shù)/總樣本數(shù),accuracy

錯(cuò)誤率:錯(cuò)誤分類的樣本數(shù)/總樣本數(shù),error

正確率+錯(cuò)誤率=1

這兩種指標(biāo)最簡單,也最常用

缺點(diǎn)

不一定能反應(yīng)模型的泛化能力,如類別不均衡問題。

不能滿足所有任務(wù)需求

如有一車西瓜,任務(wù)一:挑出的好瓜中有多少實(shí)際是好瓜,任務(wù)二: 所有的好瓜有多少被挑出來了,顯然正確率和錯(cuò)誤率不能解決這個(gè)問題。

查準(zhǔn)率與查全率

先認(rèn)識幾個(gè)概念

正樣本/正元組:目標(biāo)元組,感興趣的元組

負(fù)樣本/負(fù)元組:其他元組

對于二分類問題,模型的預(yù)測結(jié)果可以劃分為:真正例 TP、假正例 FP、真負(fù)例 TN、 假負(fù)例 FN,

真正例就是實(shí)際為正、預(yù)測為正,其他同理

顯然 TP+FP+TN+FN=總樣本數(shù)

混淆矩陣

把上面四種劃分用混淆矩陣來表示

從而得出如下概念

查準(zhǔn)率:預(yù)測為正里多少實(shí)際為正,precision,也叫精度

查全率:實(shí)際為正里多少預(yù)測為正,recall,也叫召回率

查準(zhǔn)率和查全率是一對矛盾的度量。通常來講,查準(zhǔn)率高,查全率就低,反之亦然。

例如還是一車西瓜,我希望將所有好瓜盡可能選出來,如果我把所有瓜都選了,那自然所有好瓜都被選了,這就需要所有的瓜被識別為好瓜,此時(shí)查準(zhǔn)率較低,而召回率是100%,

如果我希望選出的瓜都是好瓜,那就要慎重了,寧可不選,不能錯(cuò)選,這就需要預(yù)測為正就必須是真正例,此時(shí)查準(zhǔn)率是100%,查全率可能較低。

注意我說的是可能較低,通常如果樣本很好分,比如正的全分到正的,負(fù)的全分到負(fù)的,那查準(zhǔn)率、查全率都是100%,不矛盾。

P-R曲線

既然矛盾,那兩者之間的關(guān)系應(yīng)該如下圖

這條曲線叫 P-R曲線,即查準(zhǔn)率-查全率曲線。

這條曲線怎么畫出來的呢?可以這么理解,假如我用某種方法得到樣本是正例的概率(如用模型對所有樣本進(jìn)行預(yù)測),然后把樣本按概率排序,從高到低

如果模型把第一個(gè)預(yù)測為正,其余預(yù)測為負(fù),此時(shí)查準(zhǔn)率為1,查全率接近于0,

如果模型把前2個(gè)預(yù)測為正,其余預(yù)測為負(fù),此時(shí)查準(zhǔn)率稍微降低,查全率稍微增加,

依次...

如果模型把除最后一個(gè)外的樣本預(yù)測為正,最后一個(gè)預(yù)測為負(fù),那么查準(zhǔn)率很低,查全率很高。

此時(shí)我把數(shù)據(jù)順序打亂,畫出來的圖依然一樣,即上圖。

既然查準(zhǔn)率和查全率互相矛盾,那用哪個(gè)作為評價(jià)指標(biāo)呢?或者說同時(shí)用兩個(gè)指標(biāo)怎么評價(jià)模型呢?

兩種情形

如果學(xué)習(xí)器A的P-R曲線能完全“包住”學(xué)習(xí)器C的P-R曲線,則A的性能優(yōu)于C

如果學(xué)習(xí)器A的P-R曲線與學(xué)習(xí)器B的P-R曲線相交,則難以判斷孰優(yōu)孰劣,此時(shí)通常的作法是,固定查準(zhǔn)率,比較查全率,或者固定查全率,比較查準(zhǔn)率。

通常情況下曲線會相交,但是人們?nèi)韵M褍蓚€(gè)學(xué)習(xí)器比出個(gè)高低,一個(gè)合理的方式是比較兩條P-R曲線下的面積。

但是這個(gè)面積不好計(jì)算,于是人們又設(shè)計(jì)了一些其他綜合考慮查準(zhǔn)率查全率的方式,來替代面積計(jì)算。

平衡點(diǎn):Break-Event Point,簡稱BEP,就是選擇 查準(zhǔn)率=查全率 的點(diǎn),即上圖,y=x直線與P-R曲線的交點(diǎn)

這種方法比較暴力

F1 與 Fβ 度量

更常用的方法是F1度量

即 F1 是 P 和 R 的調(diào)和平均數(shù)。

與算數(shù)平均數(shù) 和 幾何平均數(shù)相比,調(diào)和平均數(shù)更重視較小值。

在一些應(yīng)用中,對查準(zhǔn)率和查全率的重視程度有所不同。

例如商品推薦系統(tǒng),為了避免騷擾客戶,希望推薦的內(nèi)容都是客戶感興趣的,此時(shí)查準(zhǔn)率比較重要,

又如資料查詢系統(tǒng),為了不漏掉有用信息,希望把所有資料都取到,此時(shí)查全率比較重要。

此時(shí)需要對查準(zhǔn)率和查全率進(jìn)行加權(quán)

即 P 和 R 的加權(quán)調(diào)和平均數(shù)。

β>0,β度量了查全率對查準(zhǔn)率的重要性,β=1時(shí)即為F1

β>1,查全率更重要,β<1,查準(zhǔn)率更重要

多分類的F1

多分類沒有正例負(fù)例之說,那么可以轉(zhuǎn)化為多個(gè)二分類,即多個(gè)混淆矩陣,在這多個(gè)混淆矩陣上綜合考慮查準(zhǔn)率和查全率,即多分類的F1

方法1

直接在每個(gè)混淆矩陣上計(jì)算出查準(zhǔn)率和查全率,再求平均,這樣得到“宏查準(zhǔn)率”,“宏查全率”和“宏F1”

方法2

把混淆矩陣中對應(yīng)元素相加求平均,即 TP 的平均,TN 的平均,等,再計(jì)算查準(zhǔn)率、查全率、F1,這樣得到“微查準(zhǔn)率”,“微查全率”和“微F1”

ROC 與 AUC

很多學(xué)習(xí)器是為樣本生成一個(gè)概率,然后和設(shè)定閾值進(jìn)行比較,大于閾值為正例,小于為負(fù)例,如邏輯回歸。

而模型的優(yōu)劣取決于兩點(diǎn):

這個(gè)概率的計(jì)算準(zhǔn)確與否

閾值的設(shè)定

我們把計(jì)算出的概率按從大到小排序,然后在某個(gè)點(diǎn)劃分開,這個(gè)點(diǎn)就是閾值,可以根據(jù)實(shí)際任務(wù)需求來確定這個(gè)閾值,比如更重視查準(zhǔn)率,則閾值設(shè)大點(diǎn),若更重視查全率,則閾值設(shè)小點(diǎn),

這里體現(xiàn)了同一模型的優(yōu)化,

不同的模型計(jì)算出的概率是不一樣的,也就是說樣本按概率排序時(shí)順序不同,那切分時(shí)自然可能分到不同的類,

這里體現(xiàn)了不同模型之間的差異,

所以ROC可以用來模型優(yōu)化和模型選擇,理論上講 P-R曲線也可以。

ROC曲線的繪制方法與P-R曲線類似,不再贅述,結(jié)果如下圖

橫坐標(biāo)為假正例率,縱坐標(biāo)為真正例率,曲線下的面積叫 AUC

如何評價(jià)模型呢?

若學(xué)習(xí)器A的ROC曲線能包住學(xué)習(xí)器B的ROC曲線,則A優(yōu)于B

若學(xué)習(xí)器A的ROC曲線與學(xué)習(xí)器B的ROC曲線相交,則難以比較孰優(yōu)孰劣,此時(shí)可以比較AUC的大小

總結(jié)

模型評估主要考慮兩種場景:類別均衡,類別不均衡

模型評估必須考慮實(shí)際任務(wù)需求

P-R 曲線和 ROC曲線可以用于模型選擇

ROC曲線可以用于模型優(yōu)化

參考資料:

周志華《機(jī)器學(xué)習(xí)

本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布!

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3512

    瀏覽量

    50283
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8500

    瀏覽量

    134420
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5558

    瀏覽量

    122698
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型領(lǐng)域常用名詞解釋(近100個(gè))

    本文總結(jié)了大模型領(lǐng)域常用的近100個(gè)名詞解釋,并按照模型架構(gòu)與基礎(chǔ)概念,訓(xùn)練方法與技術(shù),模型優(yōu)化與壓縮,推理與應(yīng)用,計(jì)算與性能優(yōu)化,數(shù)據(jù)與標(biāo)簽,模型
    的頭像 發(fā)表于 02-19 11:49 ?760次閱讀
    大<b class='flag-5'>模型</b>領(lǐng)域常用名詞解釋(近100個(gè))

    ADC的靜態(tài)指標(biāo)有專用的分析工具嗎?

    請問:ADC的靜態(tài)指標(biāo)有專用的分析工具嗎?該指標(biāo)很少在評估ADC指標(biāo)時(shí)使用,是否該指標(biāo)不重要,應(yīng)用中什么情況下需要
    發(fā)表于 02-08 08:13

    SPEC ML基準(zhǔn)測試新增模算效率指標(biāo)

    和模算效率三大關(guān)鍵指標(biāo)。 作為此次更新的亮點(diǎn)之一,模算效率首次被納入SPEC ML基準(zhǔn)評測體系。這一指標(biāo)的加入,旨在填補(bǔ)大模型計(jì)算效率評測基準(zhǔn)領(lǐng)域的研究空白,為AI領(lǐng)域的發(fā)展提供更加全面、準(zhǔn)確的
    的頭像 發(fā)表于 01-15 14:28 ?475次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    內(nèi)為企業(yè)帶來效益。在選擇模型時(shí),需要評估其性能表現(xiàn)。這包括模型的準(zhǔn)確性、響應(yīng)速度、對話流暢性、情感理解能力等方面??梢酝ㄟ^對比不同模型的測試結(jié)果、查看用戶反饋和評分等方式來
    發(fā)表于 12-17 16:53

    如何評估 Llama 3 的輸出質(zhì)量

    評估Llama 3(假設(shè)這是一個(gè)虛構(gòu)的人工智能模型或系統(tǒng))的輸出質(zhì)量,可以通過以下幾個(gè)步驟來進(jìn)行: 定義質(zhì)量標(biāo)準(zhǔn) : 在開始評估之前,需要明確什么是“高質(zhì)量”的輸出。這可能包括準(zhǔn)確性、相關(guān)性、一致性
    的頭像 發(fā)表于 10-27 14:32 ?685次閱讀

    如何評估AI大模型的效果

    評估AI大模型的效果是一個(gè)復(fù)雜且多維度的過程,涉及多個(gè)方面的考量。以下是一些關(guān)鍵的評估方法和步驟: 一、基準(zhǔn)測試(Benchmarking) 使用標(biāo)準(zhǔn)數(shù)據(jù)集和任務(wù)來評估
    的頭像 發(fā)表于 10-23 15:21 ?2971次閱讀

    Meta推出可自我評估AI模型

    Meta近期宣布了一項(xiàng)重要的人工智能進(jìn)展,即將發(fā)布一系列全新的人工智能模型。其中,一款能夠自我評估模型尤為引人注目,這一創(chuàng)新有望顯著減少人工智能開發(fā)過程中的人類參與。
    的頭像 發(fā)表于 10-22 17:07 ?633次閱讀

    【每天學(xué)點(diǎn)AI】人工智能大模型評估標(biāo)準(zhǔn)有哪些?

    OpenAI新模型o1號稱編程能力8倍殺GPT-4o,MMLU媲美人類專家,MMLU是什么?評估模型的標(biāo)準(zhǔn)是什么?相信大家在閱讀大模型相關(guān)文檔的時(shí)候經(jīng)常會看到MMLU,BBH,GSM
    的頭像 發(fā)表于 10-17 16:49 ?1350次閱讀
    【每天學(xué)點(diǎn)AI】人工智能大<b class='flag-5'>模型</b><b class='flag-5'>評估</b>標(biāo)準(zhǔn)有哪些?

    安泰電子:功率放大器的主要性能指標(biāo)分類

    功率放大器是電子系統(tǒng)中的關(guān)鍵組件,用于增大信號的幅度,以便驅(qū)動負(fù)載,如揚(yáng)聲器或天線。在選擇功率放大器時(shí),了解其主要性能指標(biāo)分類是至關(guān)重要的。本文將深入介紹功率放大器的關(guān)鍵性能指標(biāo)以及不同類型的
    的頭像 發(fā)表于 10-11 11:35 ?695次閱讀
    安泰電子:功率放大器的主要性能<b class='flag-5'>指標(biāo)</b>及<b class='flag-5'>分類</b>

    ADC的分類和選型技術(shù)指標(biāo)

    ADC(模數(shù)轉(zhuǎn)換器)作為模擬系統(tǒng)與數(shù)字系統(tǒng)接口的關(guān)鍵部件,其種類繁多,功能各異。根據(jù)不同的分類標(biāo)準(zhǔn),ADC可以分為多種類型。
    的頭像 發(fā)表于 09-06 16:18 ?3042次閱讀

    OpenAI與Anthropic新模型將受美政府評估

    近日,美國政府宣布了一項(xiàng)重要合作,旨在加強(qiáng)人工智能安全監(jiān)管。根據(jù)協(xié)議,OpenAI與Anthropic兩大AI領(lǐng)軍企業(yè)同意,在推出新的AI模型之前,先將其提交給美國人工智能安全問題研究所進(jìn)行評估。這一舉措旨在確保新模型在能力范圍
    的頭像 發(fā)表于 08-30 15:35 ?553次閱讀

    DRAM的分類、特點(diǎn)及技術(shù)指標(biāo)

    DRAM(Dynamic Random Access Memory),即動態(tài)隨機(jī)存取存儲器,是計(jì)算機(jī)系統(tǒng)中廣泛使用的內(nèi)存類型之一。它以其高速、大容量和相對低成本的特點(diǎn),在數(shù)據(jù)處理和存儲中發(fā)揮著關(guān)鍵作用。以下將詳細(xì)介紹DRAM的分類、特點(diǎn)以及技術(shù)指標(biāo)。
    的頭像 發(fā)表于 08-20 09:35 ?5905次閱讀

    華為云盤古汽車大模型通過可信AI汽車大模型評估

    近日,國內(nèi)科技界傳來喜訊,華為云盤古汽車大模型在信通院組織的可信AI汽車大模型首輪評估中脫穎而出,成功獲得4+級證書,成為國內(nèi)首批通過該評估并榮膺當(dāng)前最高評級的行業(yè)大
    的頭像 發(fā)表于 07-15 17:34 ?1184次閱讀

    利用TensorFlow實(shí)現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

    要利用TensorFlow實(shí)現(xiàn)一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的文本分類模型,我們首先需要明確幾個(gè)關(guān)鍵步驟:數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型
    的頭像 發(fā)表于 07-12 16:39 ?1487次閱讀

    lpm模型里的zi是什么

    LPM模型(Logit Probit Multinomial Probit Model)是一種用于分析多分類問題的概率模型。在LPM模型中,zi通常表示個(gè)體特征或協(xié)變量。 引言 LPM
    的頭像 發(fā)表于 07-09 10:09 ?917次閱讀
    主站蜘蛛池模板: xxxx欧美xxxx黑人 | 一级特级毛片免费 | 特级全黄大片 | 手机看片自拍自自拍日韩免费 | 美女视频黄a视频免费全过程 | 色四虎 | 天天操夜夜操狠狠操 | 午夜影视免费 | 亚洲香蕉影视在线播放 | 亚洲看片 | 热99re久久精品2久久久 | 日本乱妇 | 天堂bt | 你懂的在线观看视频 | 99久久国产免费 - 99久久国产免费 | 人人搞人人干 | 人人插人人爽 | 三级欧美在线 | 日日噜噜夜夜狠狠va视频 | 天天操天天摸天天干 | 在线观看国产精美视频 | 欧美影欧美影院免费观看视频 | 国产一卡二卡3卡4卡四卡在线 | 宅男在线看片 | 久久久综合久久 | 成人看的一级毛片 | 97se狠狠狠狠狼亚洲综合网 | 性生活黄色毛片 | 五月天婷婷在线免费观看 | 成人a毛片免费全部播放 | 欧美成人午夜影院 | 免费性网站 | 国产伦精品一区二区三区在线观看 | 日本黄色免费电影 | 日本黄色绿像 | 亚洲人的天堂男人爽爽爽 | 免费观看成年欧美1314www色 | 日韩高清成人毛片不卡 | 二级特黄绝大片免费视频大片 | 婷婷色在线观看 | 一区二区三区视频在线 |