作者|李軍毅 陳杰 機構|中國人民大學
研究方向|自然語言處理
來自| RUC AI Box
盡管大語言模型能力不斷提升,但一個持續存在的挑戰是它們具有產生幻象的傾向。本文構建了幻象評測基準HaluEval 2.0,并基于該評測框架從預訓練/有監督微調/提示設計/推理四個方面探索幻象來源。另外,還通過一系列技術深入研究了減輕LLM幻象的方法。
引言
大語言模型(LLM)在自然語言處理(NLP)的廣泛領域中展現出巨大的潛力。然而,盡管模型能力有所提升,但一個持續存在的挑戰在于它們具有產生幻象的傾向,即生成看似合理但事實上不準確的內容。這一問題嚴重限制了LLM在現實世界應用(如臨床診斷)中的部署,在這些應用中,生成值得信賴的可靠文本至關重要。
在 LLM 時代,幻象相關的研究顯著增加,這些研究主要圍繞三個問題展開,即 LLM 為何產生幻象(source),如何檢測幻象(detection)以及如何減輕幻象(mitigation)?,F有的工作大多集中于分析或解決個別挑戰,仍然缺乏系統而深入的對 LLM 幻象的實驗分析。為此,我們針對事實性幻象,從幻象的檢測、來源和緩解三個方面進行了全面系統的實驗性分析。我們的貢獻包括:
構建了幻象評測基準 HaluEval 2.0,提出了一個簡單有效的幻象自動評估框架。
基于上述評測框架,我們從預訓練(pre-training)、有監督微調(supervised fine-tuning)、提示設計(prompt design)和推理(inference)四個方面探索幻象的來源。
我們還通過一系列廣泛使用的技術,包括基于人類反饋的強化學習(RLHF)、檢索增強(retrieval augmentation)、反思(self-reflexion)、提示改進(prompt improvement)等,深入研究了減輕 LLM 幻象的方法。
總的來說,我們的工作帶來了一系列關于 LLM 幻象的來源和緩解的重要實證發現,構建的幻象評測基準可用于進一步的研究。
幻象評測基準HaluEval 2.0
HaluEval 2.0包括五個領域的 8770 個問題,其中生物醫學、金融、科學、教育和開放域的問題數量分別為1535、1125、1409、1701 和 3000?;?HaluEval 2.0,我們在一些具有代表性的開源和閉源 LLM 上進行了實驗:
開源模型:Alpaca (7B), Vicuna (7B and 13B), YuLan-Chat (13B), Llama 2-Chat (7B and 13B)
閉源模型:text-davinci-002/003, ChatGPT, Claude, Claude 2
幻象的檢測
我們提出了一個簡單而有效的評測框架,用于檢測 LLM 回答中的事實性錯誤。我們將具有挑戰性的幻象檢測任務分解為兩個較簡單的子任務:1)從回答中提取多個事實性陳述;2)確定每個陳述是否包含幻象。基于該檢測方法,我們可以在 HaluEval 2.0 上對各種 LLM 進行評估。我們設計了兩個不同級別的指標來衡量 LLM 回答中包含幻象的程度。
微觀幻象率(MiHR)衡量每個回答中幻象陳述的比例:
宏觀幻象率(MaHR)計算含有幻象陳述的回答比例:
我們在 HaluEval 2.0 上衡量了各種 LLM 產生幻象的傾向,實驗結果如下表所示:
我們可以看到,開源模型和閉源模型之間存在著明顯的性能差距。在開源模型中,我們可以發現擴大模型規??梢杂行Ы档彤a生幻象的傾向。另外我們發現,MaHR 和 MiHR 的正相關性并不強,這是因為有些模型傾向于用較少的事實生成較短的回答,從而減少幻象的發生,但同時也減少了回答中信息的豐富性。更多的實驗結論與分析詳見論文。
幻象的來源和緩解
我們進行了廣泛的實驗,從預訓練(pre-training)、有監督微調(supervised fine-tuning)、提示設計(prompt design)和推理(inference)四個方面探索可能誘發 LLM 幻象的因素:
我們研究了基于人類反饋的強化學習(RLHF)、檢索增強(retrieval augmentation)、反思(self-reflexion)、提示改進(prompt improvement)等廣泛使用的方法減輕 LLM 幻象的有效性:
下面是各部分的實驗結論,更多的實驗細節、結果和分析詳見論文。
預訓練:在更多 tokens 上進行預訓練對減少 LLM 幻象的影響較小,而將專業數據(如科學文本)納入預訓練則可以極大地減輕特定領域的幻象。預訓練知識的頻率對幻象的來源有很大影響,即頻率越低,幻象越多。
微調:通過改進指令對 LLM 進行有監督微調有助于減輕幻象。平衡指令的復雜性有利于減少幻象,而使用過于復雜的指令則會導致更高水平的幻象。RLHF 是減輕 LLM 幻象的有效方法,但其效果依賴于所在領域。
推理:在專業領域如醫學,以多樣性為導向的解碼方法會誘發更多幻象,而在開放領域,貪心搜索會加劇幻象。逐個 token 生成的方式可能會讓 LLM 在先前生成錯誤的基礎上繼續出現錯誤,從而導致幻象。量化雖然加快了推理速度,但在很大程度上也會導致 LLM 幻象的產生。
提示設計:在任務描述中加入更多細節并利用上下文學習可以減少幻象的產生。改寫問題或將任務描述放在問題之后會誘發更多幻象。對于更易讀和表達更正式、更具體的問題,LLM 產生幻象的傾向較低。
審核編輯:湯梓紅
-
開源
+關注
關注
3文章
3695瀏覽量
43852 -
語言模型
+關注
關注
0文章
561瀏覽量
10801 -
自然語言處理
+關注
關注
1文章
628瀏覽量
14168 -
LLM
+關注
關注
1文章
325瀏覽量
852
原文標題:HaluEval 2.0:大語言模型事實性幻象的實驗性分析
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論