在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用CLM自身的embedding來得到OOD score?

深度學習自然語言處理 ? 來源:SimpleAI ? 作者:郭必揚 ? 2022-12-05 10:12 ? 次閱讀

背景

OOD現象和OOD檢測在分類任務中已經被廣泛研究:

OOD score:maximum softmax probability(MSP),K個類別中最大的概率來作為衡量OOD的指標

selective classification:對于OOD score太低的輸入,模型拒絕輸出

在conditional language model(CLM)任務(主要是summarization,translation)中,而由于language generation主要是通過auto-regressive的方式,錯誤更容易積累,因此OOD問題可能更嚴重。

本文的主要貢獻:

提出一中輕量的、準確的基于CLM的embedding的OOD檢測方法

發現perplexity(ppx)不適合作為OOD檢測和文本生成質量評估的指標

提出了一套用于OOD檢測和selective generation的評測框架

CLM中的OOD detection

如果直接套用classification任務中使用MSP作為OOD score的話,那么對于NLG問題我們就應該采用perplexity(ppx),然而作者實驗發現使用ppx的效果很不好:

14e26546-73b4-11ed-8abf-dac502259ad0.jpg

從上圖可以看到,不用domain來源的數據,其ppx的分布重疊程度很高;甚至有些明明是OOD的數據,但其綜合的ppx比ID的數據還要低。因此ppx對ID vs OOD的區分能力很差。

如何使用CLM自身的embedding來得到OOD score?

15036304-73b4-11ed-8abf-dac502259ad0.jpg

input embedding: encoder最后一層所有hidden states平均

output embedding: decoder最后一層所有hidden states平均(ground truth對應的位置)

151ae920-73b4-11ed-8abf-dac502259ad0.png

1. 使用兩個分布的距離來判斷——RMD score

直覺上講,當一個樣本的輸入/輸出的embedding跟我訓練樣本的embedding分布距離很遠的話,就很可能是OOD樣本。

因此,可以先用訓練數據集,對輸入和輸出空間擬合一個embedding的高斯分布:

input embedding distribution:

output embedding distribution:

然后,就可以使用馬氏距離(Mahalanobis distance,MD)來衡量新來的embedding跟訓練集embedding的距離:

馬氏距離是基于樣本分布的一種距離。物理意義就是在規范化的主成分空間中的歐氏距離。(維基百科)

1535180e-73b4-11ed-8abf-dac502259ad0.jpg

然而,已有一些研究表明,使用相對馬氏距離(即增加一個background distribution來作為一個參照),可以更好地進行OOD檢測。于是對上述公式改進為:

155ad0d0-73b4-11ed-8abf-dac502259ad0.jpg

其中是衡量test input跟一個background高斯分布的距離,這個background分布,是使用一個通用語料擬合出來的,比方使用C4語料庫

而對于CLM這種需要成對語料的任務,通用語料中一般是沒有的,所以使用通用文本通過CLM decode出來的 outputs來擬合分布:

1574380e-73b4-11ed-8abf-dac502259ad0.png

這樣一來,RMD scores實際上可能為正也可能為負:

當RMD score < 0 時,說明 test example跟training distribution更接近

當RMD score > 0 時,說明 test example跟background更接近,因此更有可能是OOD的

因此,RMD score可以直接作為OOD detection的指標

2. 基于embedding訓練一個detector

上面是一種無監督的辦法,作者還提出了一種有監督的辦法,使用training samples和general samples作為兩個類別的數據,使用embedding作為feature來訓練一個logistic regressive model,使用background類的logits作為OOD score:

Input Binary logits OOD score

Output Binary logits OOD score

3. OOD detection實驗

以summarization為例,實驗所用數據為:

In-domain:10000條 xsum 樣本

General samples:10000條 C4 樣本

OOD datasets:near-OOD數據集(cnn dailymail,newsroom)和far-OOD數據集(reddit tifu,forumsum,samsum)

OOD detection衡量指標:area under the ROC curve (AUROC)

159cb46e-73b4-11ed-8abf-dac502259ad0.jpg

實驗結論:

本文提出的RMD和Binary classifier都比baseline有更好的OOD檢測能力

能更好地對near-OOD這種hard cases進行檢測

15c68082-73b4-11ed-8abf-dac502259ad0.jpg

Selective Generation

當檢測到OOD時,一個最保守的做法就是直接拒絕給出輸出,從而避免潛在的風險。但是,我們依然希望當模型的輸出質量足夠高時,即使是OOD也能輸出。

當有參考答案時,如何衡量輸出文本的質量?

對于translation問題,使用BLEURT作為衡量指標;

對于summarization,常見是使用ROUGE score,但由于不同數據集的摘要模式差別很大,所以只使用ROUGE還不夠,作者使用亞馬遜眾籌平臺來對一批數據進行人工質量打標。

能否找到一個指標,不需要參考答案也能衡量文本質量?

實驗發現,對于in-domain數據,ppx跟質量有比較好的相關性,但是對于OOD數據,相關性很差。

15e4d44c-73b4-11ed-8abf-dac502259ad0.jpg

但是OOD score可以跟ppx互相補充,從而形成一個比較好的對應指標:

15fe93c8-73b4-11ed-8abf-dac502259ad0.jpg

單獨只考察ppx或者RMD OOD score的話,難以區分質量的高低,但是同時考察二者,就有較高的區分度。究其原因,作者這么解釋:

ppx反映的是由于內部噪音/模糊造成的的不確定性

RMD score反映的是由于缺乏訓練數據所造成的不確定性

因此二者是互補的關系。

那么二者如何結合呢:

訓練一個linear regression

或者直接使用二者的某種“和”:,其中PR代表percentile ranks

1622261c-73b4-11ed-8abf-dac502259ad0.jpg

可以看出,這種二者結合的方法,比各種只用單個指標的baselines都能更好地反映生成的質量。

在selective generation階段,設定一個遺棄比例,然后把quality score最低的那部分丟棄。

Key takeaways:

在生成模型中,ppx無論是作為OOD detection還是quality evaluation都是不太好的選擇

基于模型的extracted feature來做OOD detection更好,文中的RMD score就是一個例子。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • msp
    msp
    +關注

    關注

    0

    文章

    153

    瀏覽量

    35323

原文標題:CMU&Google提出:條件語言模型中的OOD檢測與選擇性生成

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+Embedding技術解讀

    今天學習大模型RAG 檢索增強生成技術Embedding,即嵌入,是一種將離散數據(如文字、圖像、音頻等)轉換為連續的密集向量表示的技術。這些向量能夠反映原始數據之間的關系,使得計算機能夠更好地處
    發表于 01-17 19:53

    激光自身空間維度加工系統綜述

    加工精度與速度。 激光自身空間維度加工系統具備調控激光束空間維度變化的能力,特別適用于高效、高精度的激光加工。其主要涵蓋點維、一維、二維、三維和 “五+N” 維加工系統。不同維度的系統通過獨特的光學結構和調控方式,實現對
    的頭像 發表于 01-16 10:52 ?131次閱讀
    激光<b class='flag-5'>自身</b>空間維度加工系統綜述

    發電機失磁對發電機自身的影響有哪些

    發電機失磁是指發電機轉子磁場的消失或減弱,導致發電機無法正常工作。失磁現象對發電機自身的影響是多方面的,包括對發電機本身、電力系統以及設備安全等方面的影響。 1. 對發電機自身的影響 1.1 轉子
    的頭像 發表于 09-26 18:14 ?1236次閱讀

    怎么才能得到LM3886的輸出阻抗?

    等于P=U*U*I?,然后減去LM3886的輸出阻抗所產生的功率損耗P0, 得到的“P1=P-P0“是不是就是提供給負載的功率了? 3、怎么才能精確計算出LM3886自身的功率損耗?(已知輸出電流I和供電電壓±U) 4、怎么才能得到
    發表于 08-22 07:25

    INA237的內部I2C是否支持timeout將自身reset?

    想請問下論壇大佬,最近在設計中會用到INA237,且設計中有可能存在I2C總線死鎖的情況,想請問下INA237是否有timeout機制,超時后主動將自身reset,恢復總線的功能;
    發表于 07-29 08:02

    CYW4373E的兩個clm_blob文件有何不同?

    \"cypress-firmware-v5.10.9-2022_0511.tar.gz\" zip 中有兩個不同的 clm_blob 文件,用于 CYW4373E 芯片組
    發表于 05-31 15:32

    無法將blob文件下載到evb,為什么?

    無線網絡 :murata 1LV M.2 主要消息息 命令控制臺 函數 whd_download_wifi_clm_image 在第 66 行失敗 checkres = 33556433 函數
    發表于 05-27 08:17

    請問CYW4373是否支持Wi-Fi Enhanced Open (OWE)?

    請問 CYW4373(村田 2AE 模塊)是否支持 Wi-Fi Enhanced Open (OWE)? 操作與 STA 相同。 固件和 CLM 如下: WLAN 固件 : wl0: Aug 1
    發表于 05-20 06:37

    一種多重汗液傳感貼片,實現精準的汗液分析

    無需刺破手指,只要貼一枚輕薄的汗液傳感貼片,就可以輕松監測血液中的葡萄糖水平。這種全新的血糖監測模式,或將在不久的將來得到應用。
    的頭像 發表于 05-07 16:40 ?815次閱讀
    一種多重汗液傳感貼片,實現精準的汗液分析

    如何用ST32自身的cAN接口接收程序給自已升級呢?

    如何用ST32自身的cAN接口接收程序給自已升級?
    發表于 04-07 06:16

    基于掩碼模型的LiDAR感知模型預訓練策略

    對于每個被掩碼的網格,計算此網格中的點云數量,并通過將點云數量除以其在3D空間中的占用體積來得到對應的密度真值。
    發表于 04-06 04:33 ?679次閱讀
    基于掩碼模型的LiDAR感知模型預訓練策略

    如何實現SysTick中斷的嵌套自身

    當前 MSR XPSR,R7 MOV PC, R6 ;BXLR ENDP END 我想通過SysTick的嵌套自身,實現任務的搶占式調度,請問有人知道要怎么弄嗎? 上面的匯編是我直接偽造返回現場讓
    發表于 03-25 06:20

    stm32外部中斷存在自身內部的消抖嗎?

    請問stm32外部中斷存在自身內部的消抖嗎? 若存在請問如何配置
    發表于 03-11 06:15

    云天半導體突破2.5D高密度玻璃中介層技術

    隨著人工智能的興起,2.5D中介層轉接板作為先進封裝集成的關鍵技術,近年來得到迅猛發展。
    的頭像 發表于 03-06 09:44 ?1483次閱讀
    云天半導體突破2.5D高密度玻璃中介層技術

    電感上的電流大小,與自身電壓隨時間變化率成正比嗎

    電感是一種儲存和釋放電能的元件,在電磁學和電路中起著重要的作用。電感的電流大小與自身電壓的變化率之間存在一定的關系,但并不是簡單的正比關系。本文中將詳細討論電感上的電流大小與自身電壓隨時間變化率
    的頭像 發表于 02-27 10:16 ?2175次閱讀
    主站蜘蛛池模板: 免费看大美女大黄大色 | 伊人久久99 | 日韩一级片免费 | 色偷偷亚洲综合网亚洲 | 五月天丁香色 | 午夜性视频播放免费视频 | 国产在线观看网址你懂得 | 亚洲人成电影在在线观看网色 | 国产午夜精品一区二区理论影院 | 国产黄色小视频在线观看 | 69女poren18中国| 欧美xxxx色视频在线观看免费 | 欧美一级欧美三级 | 日本污全彩肉肉无遮挡彩色 | 男人j桶进女人免费视频 | 国产色产综合色产在线观看视频 | 免费aⅴ网站 | 欧美日韩一区在线观看 | 手机在线视频你懂的 | 免费在线看a | 亚洲三级在线免费观看 | 天天做天天爱夜夜爽女人爽宅 | 天天操夜夜操狠狠操 | 日韩精品免费一级视频 | 污污视频在线免费看 | 麦克斯奥特曼在线观看 | vip免费观看| 赛罗奥特曼银河帝国普通话免费版 | 最近高清在线视频观看免费 | 久久澡人人澡狠狠澡 | 欧美黄色片免费观看 | 性精品 | 亚洲成人精品 | 亚洲丁香婷婷 | 日本怡红 | 黄蓉吕文德欲乱系列小说 | 欧美性69| 欧美第一色 | 国产日本特黄特色大片免费视频 | 日韩一级精品视频在线观看 | 免费黄色小视频 |