91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用CLM自身的embedding來(lái)得到OOD score?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:SimpleAI ? 作者:郭必?fù)P ? 2022-12-05 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

OOD現(xiàn)象和OOD檢測(cè)在分類任務(wù)中已經(jīng)被廣泛研究:

OOD score:maximum softmax probability(MSP),K個(gè)類別中最大的概率來(lái)作為衡量OOD的指標(biāo)

selective classification:對(duì)于OOD score太低的輸入,模型拒絕輸出

在conditional language model(CLM)任務(wù)(主要是summarization,translation)中,而由于language generation主要是通過(guò)auto-regressive的方式,錯(cuò)誤更容易積累,因此OOD問(wèn)題可能更嚴(yán)重。

本文的主要貢獻(xiàn):

提出一中輕量的、準(zhǔn)確的基于CLM的embedding的OOD檢測(cè)方法

發(fā)現(xiàn)perplexity(ppx)不適合作為OOD檢測(cè)和文本生成質(zhì)量評(píng)估的指標(biāo)

提出了一套用于OOD檢測(cè)和selective generation的評(píng)測(cè)框架

CLM中的OOD detection

如果直接套用classification任務(wù)中使用MSP作為OOD score的話,那么對(duì)于NLG問(wèn)題我們就應(yīng)該采用perplexity(ppx),然而作者實(shí)驗(yàn)發(fā)現(xiàn)使用ppx的效果很不好:

14e26546-73b4-11ed-8abf-dac502259ad0.jpg

從上圖可以看到,不用domain來(lái)源的數(shù)據(jù),其ppx的分布重疊程度很高;甚至有些明明是OOD的數(shù)據(jù),但其綜合的ppx比ID的數(shù)據(jù)還要低。因此ppx對(duì)ID vs OOD的區(qū)分能力很差。

如何使用CLM自身的embedding來(lái)得到OOD score?

15036304-73b4-11ed-8abf-dac502259ad0.jpg

input embedding: encoder最后一層所有hidden states平均

output embedding: decoder最后一層所有hidden states平均(ground truth對(duì)應(yīng)的位置)

151ae920-73b4-11ed-8abf-dac502259ad0.png

1. 使用兩個(gè)分布的距離來(lái)判斷——RMD score

直覺(jué)上講,當(dāng)一個(gè)樣本的輸入/輸出的embedding跟我訓(xùn)練樣本的embedding分布距離很遠(yuǎn)的話,就很可能是OOD樣本。

因此,可以先用訓(xùn)練數(shù)據(jù)集,對(duì)輸入和輸出空間擬合一個(gè)embedding的高斯分布:

input embedding distribution:

output embedding distribution:

然后,就可以使用馬氏距離(Mahalanobis distance,MD)來(lái)衡量新來(lái)的embedding跟訓(xùn)練集embedding的距離:

馬氏距離是基于樣本分布的一種距離。物理意義就是在規(guī)范化的主成分空間中的歐氏距離。(維基百科)

1535180e-73b4-11ed-8abf-dac502259ad0.jpg

然而,已有一些研究表明,使用相對(duì)馬氏距離(即增加一個(gè)background distribution來(lái)作為一個(gè)參照),可以更好地進(jìn)行OOD檢測(cè)。于是對(duì)上述公式改進(jìn)為:

155ad0d0-73b4-11ed-8abf-dac502259ad0.jpg

其中是衡量test input跟一個(gè)background高斯分布的距離,這個(gè)background分布,是使用一個(gè)通用語(yǔ)料擬合出來(lái)的,比方使用C4語(yǔ)料庫(kù)

而對(duì)于CLM這種需要成對(duì)語(yǔ)料的任務(wù),通用語(yǔ)料中一般是沒(méi)有的,所以使用通用文本通過(guò)CLM decode出來(lái)的 outputs來(lái)擬合分布:

1574380e-73b4-11ed-8abf-dac502259ad0.png

這樣一來(lái),RMD scores實(shí)際上可能為正也可能為負(fù):

當(dāng)RMD score < 0 時(shí),說(shuō)明 test example跟training distribution更接近

當(dāng)RMD score > 0 時(shí),說(shuō)明 test example跟background更接近,因此更有可能是OOD的

因此,RMD score可以直接作為OOD detection的指標(biāo)

2. 基于embedding訓(xùn)練一個(gè)detector

上面是一種無(wú)監(jiān)督的辦法,作者還提出了一種有監(jiān)督的辦法,使用training samples和general samples作為兩個(gè)類別的數(shù)據(jù),使用embedding作為feature來(lái)訓(xùn)練一個(gè)logistic regressive model,使用background類的logits作為OOD score:

Input Binary logits OOD score

Output Binary logits OOD score

3. OOD detection實(shí)驗(yàn)

以summarization為例,實(shí)驗(yàn)所用數(shù)據(jù)為:

In-domain:10000條 xsum 樣本

General samples:10000條 C4 樣本

OOD datasets:near-OOD數(shù)據(jù)集(cnn dailymail,newsroom)和far-OOD數(shù)據(jù)集(reddit tifu,forumsum,samsum)

OOD detection衡量指標(biāo):area under the ROC curve (AUROC)

159cb46e-73b4-11ed-8abf-dac502259ad0.jpg

實(shí)驗(yàn)結(jié)論:

本文提出的RMD和Binary classifier都比baseline有更好的OOD檢測(cè)能力

能更好地對(duì)near-OOD這種hard cases進(jìn)行檢測(cè)

15c68082-73b4-11ed-8abf-dac502259ad0.jpg

Selective Generation

當(dāng)檢測(cè)到OOD時(shí),一個(gè)最保守的做法就是直接拒絕給出輸出,從而避免潛在的風(fēng)險(xiǎn)。但是,我們依然希望當(dāng)模型的輸出質(zhì)量足夠高時(shí),即使是OOD也能輸出。

當(dāng)有參考答案時(shí),如何衡量輸出文本的質(zhì)量?

對(duì)于translation問(wèn)題,使用BLEURT作為衡量指標(biāo);

對(duì)于summarization,常見是使用ROUGE score,但由于不同數(shù)據(jù)集的摘要模式差別很大,所以只使用ROUGE還不夠,作者使用亞馬遜眾籌平臺(tái)來(lái)對(duì)一批數(shù)據(jù)進(jìn)行人工質(zhì)量打標(biāo)。

能否找到一個(gè)指標(biāo),不需要參考答案也能衡量文本質(zhì)量?

實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于in-domain數(shù)據(jù),ppx跟質(zhì)量有比較好的相關(guān)性,但是對(duì)于OOD數(shù)據(jù),相關(guān)性很差。

15e4d44c-73b4-11ed-8abf-dac502259ad0.jpg

但是OOD score可以跟ppx互相補(bǔ)充,從而形成一個(gè)比較好的對(duì)應(yīng)指標(biāo):

15fe93c8-73b4-11ed-8abf-dac502259ad0.jpg

單獨(dú)只考察ppx或者RMD OOD score的話,難以區(qū)分質(zhì)量的高低,但是同時(shí)考察二者,就有較高的區(qū)分度。究其原因,作者這么解釋:

ppx反映的是由于內(nèi)部噪音/模糊造成的的不確定性

RMD score反映的是由于缺乏訓(xùn)練數(shù)據(jù)所造成的不確定性

因此二者是互補(bǔ)的關(guān)系。

那么二者如何結(jié)合呢:

訓(xùn)練一個(gè)linear regression

或者直接使用二者的某種“和”:,其中PR代表percentile ranks

1622261c-73b4-11ed-8abf-dac502259ad0.jpg

可以看出,這種二者結(jié)合的方法,比各種只用單個(gè)指標(biāo)的baselines都能更好地反映生成的質(zhì)量。

在selective generation階段,設(shè)定一個(gè)遺棄比例,然后把quality score最低的那部分丟棄。

Key takeaways:

在生成模型中,ppx無(wú)論是作為OOD detection還是quality evaluation都是不太好的選擇

基于模型的extracted feature來(lái)做OOD detection更好,文中的RMD score就是一個(gè)例子。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • msp
    msp
    +關(guān)注

    關(guān)注

    0

    文章

    162

    瀏覽量

    35729

原文標(biāo)題:CMU&Google提出:條件語(yǔ)言模型中的OOD檢測(cè)與選擇性生成

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    求助,關(guān)于muRata 2GF在定制電路板上的集成問(wèn)題求解

    我與muRata溝通了有關(guān)問(wèn)題,當(dāng)我使用 IFX wifi-host-driver/wifi-connection-manager 和muRata特定的 nvram/clm-blob 文件
    發(fā)表于 07-17 07:14

    ADS1298 FE PDK套件測(cè)ECG信號(hào)求助

    我們打算用ADS1298 FE PDK套件結(jié)合TI官網(wǎng)上的開發(fā)軟件來(lái)測(cè)得人體的ECG信號(hào),我們所使用到的導(dǎo)聯(lián)線是一個(gè)有10個(gè)電極的ECG導(dǎo)聯(lián)線,請(qǐng)問(wèn)我們是否可以只用LA、RA、LL這三個(gè)電極來(lái)得到
    發(fā)表于 04-13 22:47

    如何通過(guò)電源濾波器的優(yōu)化設(shè)計(jì)來(lái)降低其自身的能耗?

    電源濾波器是電子設(shè)備穩(wěn)定運(yùn)行的重要組件,但其自身能耗問(wèn)題不容忽視。通過(guò)選擇低損耗的電感和電容,優(yōu)化散熱設(shè)計(jì)和布局,可以顯著降低元件的損耗。此外,合理調(diào)整參數(shù)也有助于降低能耗。
    的頭像 發(fā)表于 03-16 16:53 ?364次閱讀
    如何通過(guò)電源濾波器的優(yōu)化設(shè)計(jì)來(lái)降低其<b class='flag-5'>自身</b>的能耗?

    如何選擇適合自身需求的貼片電阻?

    貼片電阻是現(xiàn)代電子電路中不可或缺的元件之一,其阻值范圍和精度等級(jí)對(duì)于電路的性能和穩(wěn)定性具有重要影響。本文將詳細(xì)介紹貼片電阻的阻值范圍以及精度等級(jí),以幫助讀者更好地理解和選擇適合自身需求的貼片電阻
    的頭像 發(fā)表于 03-11 15:15 ?516次閱讀
    如何選擇適合<b class='flag-5'>自身</b>需求的貼片電阻?

    AD的參數(shù)INL,是不是說(shuō)對(duì)于同一個(gè)輸入電壓,每一次采樣出來(lái)得出的數(shù)字結(jié)果會(huì)差3LSB?

    AD轉(zhuǎn)換芯片標(biāo)的技術(shù)參數(shù) INL是3LSB:是不是說(shuō)對(duì)于同一個(gè)輸入電壓(很穩(wěn)定的理想電壓),每一次采樣出來(lái)得出的數(shù)字結(jié)果會(huì)差3LSB?(就是數(shù)據(jù)的跳動(dòng)。)
    發(fā)表于 02-13 08:08

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    今天學(xué)習(xí)大模型RAG 檢索增強(qiáng)生成技術(shù)Embedding,即嵌入,是一種將離散數(shù)據(jù)(如文字、圖像、音頻等)轉(zhuǎn)換為連續(xù)的密集向量表示的技術(shù)。這些向量能夠反映原始數(shù)據(jù)之間的關(guān)系,使得計(jì)算機(jī)能夠更好地處
    發(fā)表于 01-17 19:53

    激光自身空間維度加工系統(tǒng)綜述

    加工精度與速度。 激光自身空間維度加工系統(tǒng)具備調(diào)控激光束空間維度變化的能力,特別適用于高效、高精度的激光加工。其主要涵蓋點(diǎn)維、一維、二維、三維和 “五+N” 維加工系統(tǒng)。不同維度的系統(tǒng)通過(guò)獨(dú)特的光學(xué)結(jié)構(gòu)和調(diào)控方式,實(shí)現(xiàn)對(duì)
    的頭像 發(fā)表于 01-16 10:52 ?654次閱讀
    激光<b class='flag-5'>自身</b>空間維度加工系統(tǒng)綜述

    用SN74AVC16T245做電平轉(zhuǎn)化,這顆buffer芯片自身輸出阻抗為多少?

    我們用SN74AVC16T245做電平轉(zhuǎn)化,信號(hào)為時(shí)鐘頻率在148MHz的視頻信號(hào),在考慮輸出信號(hào)的端接問(wèn)題,想知道這顆buffer芯片自身輸出阻抗為多少,沒(méi)找到相關(guān)資料,求大神幫助。
    發(fā)表于 01-15 08:26

    ad0804怎樣得到2.5V基準(zhǔn)電壓?

    怎樣得到2.5V基準(zhǔn)電壓 ,自己用TL431得到2.5V后 接入?yún)⒖级丝冢瑸槭裁礈y(cè)量數(shù)據(jù)不準(zhǔn)確。
    發(fā)表于 01-10 06:38

    《DNK210使用指南 -CanMV版 V1.0》第四十五章 人臉識(shí)別實(shí)驗(yàn)

    = []score_threshold = 80 # 構(gòu)造并初始化人臉特征提取KPU對(duì)象feature_extractor = KPU()feature_extractor.load_kmodel(\'/sd/KPU
    發(fā)表于 11-18 14:30

    匯川打造高壓變頻器得到官方認(rèn)證

    近日,匯川技術(shù)自主研發(fā)的高壓變頻器在行業(yè)內(nèi)的技術(shù)領(lǐng)先地位和產(chǎn)品高可靠性得到官方認(rèn)證,該產(chǎn)品順利通過(guò)Intertek天祥集團(tuán)(以下簡(jiǎn)稱“Intertek”)全面測(cè)試,榮獲Intertek頒發(fā)的國(guó)內(nèi)首張
    的頭像 發(fā)表于 11-10 13:48 ?1436次閱讀

    發(fā)電機(jī)失磁對(duì)發(fā)電機(jī)自身的影響有哪些

    發(fā)電機(jī)失磁是指發(fā)電機(jī)轉(zhuǎn)子磁場(chǎng)的消失或減弱,導(dǎo)致發(fā)電機(jī)無(wú)法正常工作。失磁現(xiàn)象對(duì)發(fā)電機(jī)自身的影響是多方面的,包括對(duì)發(fā)電機(jī)本身、電力系統(tǒng)以及設(shè)備安全等方面的影響。 1. 對(duì)發(fā)電機(jī)自身的影響 1.1 轉(zhuǎn)子
    的頭像 發(fā)表于 09-26 18:14 ?2253次閱讀

    怎么才能得到LM3886的輸出阻抗?

    等于P=U*U*I?,然后減去LM3886的輸出阻抗所產(chǎn)生的功率損耗P0, 得到的“P1=P-P0“是不是就是提供給負(fù)載的功率了? 3、怎么才能精確計(jì)算出LM3886自身的功率損耗?(已知輸出電流I和供電電壓±U) 4、怎么才能得到
    發(fā)表于 08-22 07:25

    MAX31855測(cè)溫不準(zhǔn),冷端溫度受自身發(fā)熱影響

    補(bǔ)償,最后出來(lái)的才是SPI的溫度讀數(shù),但是在實(shí)測(cè)時(shí),發(fā)現(xiàn)芯片自身發(fā)熱比較大,冷端溫度能去到40-50℃,熱電偶溫度讀數(shù)比實(shí)際溫度高了好幾度,這個(gè)差異是不是因?yàn)槔涠藴囟绕邔?dǎo)致的?溫度偏高的問(wèn)題要怎么解決?下邊放個(gè)測(cè)試數(shù)據(jù)圖表,T1-t是熱電偶溫度,T1-j是冷端溫度
    發(fā)表于 08-07 11:23

    INA237的內(nèi)部I2C是否支持timeout將自身reset?

    想請(qǐng)問(wèn)下論壇大佬,最近在設(shè)計(jì)中會(huì)用到INA237,且設(shè)計(jì)中有可能存在I2C總線死鎖的情況,想請(qǐng)問(wèn)下INA237是否有timeout機(jī)制,超時(shí)后主動(dòng)將自身reset,恢復(fù)總線的功能;
    發(fā)表于 07-29 08:02
    主站蜘蛛池模板: 同性男男肉交短文 | 伊人啪啪 | 日本精高清区一 | 亚洲国产成人久久77 | 国产乱辈通伦影片在线播放亚洲 | 四虎成人精品在永久在线观看 | 人成电影免费观看在线 | 日本黄色www | 啪啪福利视频 | 欧美色老头 | 国产伦子一区二区三区 | 久久99热国产这有精品 | 黄色片xxxx | 色婷婷六月天 | 日韩免费一级片 | 又黄又湿又爽 | 免费黄色三级 | 日本特黄特色 | 男人女人的免费视频网站 | 欧美一级黄色片视频 | 亚洲免费网站在线观看 | 99 久久99久久精品免观看 | 欧美一卡二卡科技有限公司 | 狠狠操欧美 | 亚洲理论片在线观看 | 九色综合久久综合欧美97 | 亚洲性天堂 | 欧美专区一区二区三区 | 色男人社区 | a一级| 免费观看做网站爱 | 欧美精品videosex性欧美 | 国产yw855.c免费观看网站 | 国产三级国产精品国产普男人 | 婷婷日日夜夜 | 一级做a爱片特黄在线观看免费看 | av72成人 | 夜夜五月天 | 免费人成年激情视频在线观看 | 能可以直接看的av网址 | 亚洲国产综合人成综合网站00 |