91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大語言模型事實性幻象的實驗性分析

深度學習自然語言處理 ? 來源:RUC AI Box ? 2024-01-19 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者|李軍毅 陳杰 機構|中國人民大學

研究方向|自然語言處理

來自| RUC AI Box

盡管大語言模型能力不斷提升,但一個持續存在的挑戰是它們具有產生幻象的傾向。本文構建了幻象評測基準HaluEval 2.0,并基于該評測框架從預訓練/有監督微調/提示設計/推理四個方面探索幻象來源。另外,還通過一系列技術深入研究了減輕LLM幻象的方法。

引言

大語言模型(LLM)在自然語言處理(NLP)的廣泛領域中展現出巨大的潛力。然而,盡管模型能力有所提升,但一個持續存在的挑戰在于它們具有產生幻象的傾向,即生成看似合理但事實上不準確的內容。這一問題嚴重限制了LLM在現實世界應用(如臨床診斷)中的部署,在這些應用中,生成值得信賴的可靠文本至關重要。

在 LLM 時代,幻象相關的研究顯著增加,這些研究主要圍繞三個問題展開,即 LLM 為何產生幻象(source),如何檢測幻象(detection)以及如何減輕幻象(mitigation)?,F有的工作大多集中于分析或解決個別挑戰,仍然缺乏系統而深入的對 LLM 幻象的實驗分析。為此,我們針對事實性幻象,從幻象的檢測、來源和緩解三個方面進行了全面系統的實驗性分析。我們的貢獻包括:

構建了幻象評測基準 HaluEval 2.0,提出了一個簡單有效的幻象自動評估框架。

基于上述評測框架,我們從預訓練(pre-training)、有監督微調(supervised fine-tuning)、提示設計(prompt design)和推理(inference)四個方面探索幻象的來源。

我們還通過一系列廣泛使用的技術,包括基于人類反饋的強化學習(RLHF)、檢索增強(retrieval augmentation)、反思(self-reflexion)、提示改進(prompt improvement)等,深入研究了減輕 LLM 幻象的方法。

總的來說,我們的工作帶來了一系列關于 LLM 幻象的來源和緩解的重要實證發現,構建的幻象評測基準可用于進一步的研究。

幻象評測基準HaluEval 2.0

HaluEval 2.0包括五個領域的 8770 個問題,其中生物醫學、金融、科學、教育和開放域的問題數量分別為1535、1125、1409、1701 和 3000?;?HaluEval 2.0,我們在一些具有代表性的開源和閉源 LLM 上進行了實驗:

開源模型:Alpaca (7B), Vicuna (7B and 13B), YuLan-Chat (13B), Llama 2-Chat (7B and 13B)

閉源模型:text-davinci-002/003, ChatGPT, Claude, Claude 2

幻象的檢測

我們提出了一個簡單而有效的評測框架,用于檢測 LLM 回答中的事實性錯誤。我們將具有挑戰性的幻象檢測任務分解為兩個較簡單的子任務:1)從回答中提取多個事實性陳述;2)確定每個陳述是否包含幻象。基于該檢測方法,我們可以在 HaluEval 2.0 上對各種 LLM 進行評估。我們設計了兩個不同級別的指標來衡量 LLM 回答中包含幻象的程度。

微觀幻象率(MiHR)衡量每個回答中幻象陳述的比例:

b0db48ec-b138-11ee-8b88-92fbcf53809c.png

宏觀幻象率(MaHR)計算含有幻象陳述的回答比例:

b0ed51fe-b138-11ee-8b88-92fbcf53809c.png

我們在 HaluEval 2.0 上衡量了各種 LLM 產生幻象的傾向,實驗結果如下表所示:

b0fb2d7e-b138-11ee-8b88-92fbcf53809c.png

我們可以看到,開源模型和閉源模型之間存在著明顯的性能差距。在開源模型中,我們可以發現擴大模型規??梢杂行Ы档彤a生幻象的傾向。另外我們發現,MaHR 和 MiHR 的正相關性并不強,這是因為有些模型傾向于用較少的事實生成較短的回答,從而減少幻象的發生,但同時也減少了回答中信息的豐富性。更多的實驗結論與分析詳見論文。

幻象的來源和緩解

我們進行了廣泛的實驗,從預訓練(pre-training)、有監督微調(supervised fine-tuning)、提示設計(prompt design)和推理(inference)四個方面探索可能誘發 LLM 幻象的因素:

b116e320-b138-11ee-8b88-92fbcf53809c.jpg

我們研究了基于人類反饋的強化學習(RLHF)、檢索增強(retrieval augmentation)、反思(self-reflexion)、提示改進(prompt improvement)等廣泛使用的方法減輕 LLM 幻象的有效性:

b1267e3e-b138-11ee-8b88-92fbcf53809c.jpg

下面是各部分的實驗結論,更多的實驗細節、結果和分析詳見論文。

預訓練:在更多 tokens 上進行預訓練對減少 LLM 幻象的影響較小,而將專業數據(如科學文本)納入預訓練則可以極大地減輕特定領域的幻象。預訓練知識的頻率對幻象的來源有很大影響,即頻率越低,幻象越多。

微調:通過改進指令對 LLM 進行有監督微調有助于減輕幻象。平衡指令的復雜性有利于減少幻象,而使用過于復雜的指令則會導致更高水平的幻象。RLHF 是減輕 LLM 幻象的有效方法,但其效果依賴于所在領域。

推理:在專業領域如醫學,以多樣性為導向的解碼方法會誘發更多幻象,而在開放領域,貪心搜索會加劇幻象。逐個 token 生成的方式可能會讓 LLM 在先前生成錯誤的基礎上繼續出現錯誤,從而導致幻象。量化雖然加快了推理速度,但在很大程度上也會導致 LLM 幻象的產生。

提示設計:在任務描述中加入更多細節并利用上下文學習可以減少幻象的產生。改寫問題或將任務描述放在問題之后會誘發更多幻象。對于更易讀和表達更正式、更具體的問題,LLM 產生幻象的傾向較低。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3695

    瀏覽量

    43852
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10801
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14168
  • LLM
    LLM
    +關注

    關注

    1

    文章

    325

    瀏覽量

    852

原文標題:HaluEval 2.0:大語言模型事實性幻象的實驗性分析

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    數據格式的轉換、數據字段的匹配和整合等。通過數據級凈化,可以進一步提高數據的質量和可用,為后續的數據分析和建模提供更有價值的數據支持。 在得到了大語言模型的數據之后,就是對其進行預
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的評測

    是否與事實或邏輯相符;以及推理過程的完整,即模型在解題過程中是否提供了完整的推理鏈或證據支持。 摘要生成類評測任務:考察大語言模型在內容
    發表于 05-07 17:12

    基于信號完整分析的高速數字PCB的設計方法

    以依據芯片引腳的功能選用相似的或缺省的IBIS模型。當然,也可以通過實驗測量來建立簡化的IBIS模型。   對于PCB板上的傳輸線,在進行信號完整
    發表于 06-14 09:14

    系統的電磁兼容分析模型及設計方法

    本帖最后由 sder1357 于 2011-10-24 09:21 編輯 系統的電磁兼容分析模型及設計方法1 電磁干擾的途徑及耦合過程1.1電磁干擾途徑透過屏蔽體將干擾耦合至屏蔽體內透過
    發表于 10-19 19:51

    PCB設計常用板級信號完整分析模型zz

    的PCB板級信號完整分析,因此在高速數字PCB板設計中,需要混合上述幾種模型來最大程度地建立關鍵信號和敏感信號的傳輸模型。對于分立的無源器件,可以尋求廠家提供的SPICE
    發表于 11-20 10:31

    請問這兩種機械手模型哪種實驗性能更好,可擴展性更好

    `我打算買個六軸機械手模型用來驗證自動運行算法,但不知道從機械角度上來來說哪種實驗性能更好,可擴展性更好,這兩種都是數字舵機帶動的。麻煩給出為什么的理由,謝謝!左上角那種好像是工業機械手的模型,右下角那種是什么呢?兩種應該都可以
    發表于 07-15 17:00

    【下載】《信號完整分析

    `編輯推薦《國外電子與通信教材系列:信號完整與電源完整分析(第二版)》強調直覺理解、實用工具和工程素養。作者以實踐專家的視角指出造成信號完整性問題的根源,并特別給出了設計階段前期的問題解決
    發表于 09-19 18:21

    基于信號完整分析的高速數字PCB板的設計開發

    以依據芯片引腳的功能選用相似的或缺省的IBIS模型。當然,也可以通過實驗測量來建立簡化的IBIS模型。   對于PCB板上的傳輸線,在進行信號完整
    發表于 08-29 16:28

    用于自制合成器的實驗性5鍵鍵盤

    描述5 開關陣列用于自制合成器的實驗性 5 鍵鍵盤。旨在與磁感應簧片開關、霍爾效應傳感器或其他簡單的按鈕和開關一起使用。五個通道可以獨立運行,也可以由一個公共輸入饋送并混合到一個公共輸出。在“混音”模式下,您可以為電阻、二極管等使用額外的空間/焊盤。大量未連接的焊盤用于其他定制。
    發表于 08-16 07:07

    一個用于Z20X的實驗性CPU升級模塊

    描述Z20X電腦的ZNEO CPU板這是一個 用于 Z20X 的實驗性 CPU 升級模塊,帶有 ZiLOG 的 16 位 ZNEO 處理器。與默認的 eZ80 模塊不同,ZNEO 具有非常不同的引腳
    發表于 08-23 07:04

    實驗性源極跟隨器電路圖

    實驗性源極跟隨器電路圖
    發表于 08-08 16:43 ?848次閱讀
    <b class='flag-5'>實驗性</b>源極跟隨器電路圖

    實驗性AI將COVID輕度與嚴重區分開

    由紐約大學的研究人員與中國的兩家醫院合作開發的實驗性決策支持工具可以幫助ER醫師確定哪些患者可以住院,哪些患者可以回家。這是在大流行期間做出的一個關鍵決定,大流行使許多醫院的資源超出了產能。
    的頭像 發表于 05-21 10:20 ?2048次閱讀

    基于模型的航空飛行安全分析技術綜述

    近年來,基于模型的安全分析技術(MBSA)在航空等領堿有著廣泛應用,因此對以ⅹSAP安全分析平臺為核心,基于MBSA的系統安全評估方法進
    發表于 06-07 15:06 ?10次下載

    生成式摘要的經典模型

    以往的標題模型產生的都是平實標題,即簡單語言描述的事實性標題。但是,實際上我們可能更需要有記憶點的爆款標題來增加點擊量/曝光率。因此,衍生出了一個新任務——帶有風格的標題生成,即 S
    的頭像 發表于 07-08 17:04 ?2625次閱讀

    用于自制合成器的實驗性5鍵鍵盤

    電子發燒友網站提供《用于自制合成器的實驗性5鍵鍵盤.zip》資料免費下載
    發表于 07-28 11:38 ?0次下載
    用于自制合成器的<b class='flag-5'>實驗性</b>5鍵鍵盤
    主站蜘蛛池模板: 久久99热久久精品23 | 国内露脸夫妇交换精品 | 亚洲youjizz| 一级录像 | 国模精品视频一区二区三区 | 天天视频入口 | 天天爽天天狼久久久综合 | 香蕉久久久久久狠狠色 | 成人欧美一区二区三区视频不卡 | 日韩a毛片 | 国产裸露片段精华合集链接 | 九色福利 | 午夜剧场官网 | 你懂的在线观看视频 | 天天爱天天做天天爽天天躁 | 亚洲综合久久综合激情久久 | 欧美色综合高清免费 | ts国产 | 躁天天躁中文字幕在线 | 成人午夜小视频手机在线看 | 456主播喷水在线观看 | 开心激情播播网 | 美女操出水 | 欧美一级在线观看视频 | 国产大片91精品免费观看不卡 | 精品久久久久久午夜 | 最近国语视频免费观看在线播放 | 亚洲国产成人精品久久 | 97人人插| 天天操狠狠操 | 中文字幕一区在线观看 | 日本欧美一区二区 | 亚洲欧美在线精品一区二区 | 日韩一级特黄毛片在线看 | 免费播放欧美毛片欧美aaaaa | 亚洲天堂成人网 | 人人干干 | 天天干天天色综合 | 久久人人爽爽爽人久久久 | 久久综合久色欧美婷婷 | 色男人综合 |