最近復(fù)旦大學(xué)自然語言處理組鄭驍慶和黃萱菁團隊提出了基于表征工程(Representation Engineering)的生成式語言大模型人類偏好對齊方法RAHF(如圖1所示),作為基于人類反饋的強化學(xué)習(xí)算法RLHF[1]的代替方法之一,其性能上超過其他現(xiàn)有的替代方案,媲美RLHF。實現(xiàn)較為簡單,訓(xùn)練時對于硬件資源要求也相對較低。
論 文 內(nèi)容
動機
圖1.不同人類偏好對齊算法的對比。(a)人類反饋的強化學(xué)習(xí)算法RLHF;(b)基于對比學(xué)習(xí)的偏好優(yōu)化方法DPO;(c)基于提示工程的HIR;(d) 基于表征工程的RAHF。
構(gòu)建類似ChatGPT生成式語言大模型一般要經(jīng)過語言模型、提令精調(diào)和強化學(xué)習(xí)三個主要訓(xùn)練步驟,其中第三步使用強化學(xué)習(xí)來實現(xiàn)人類期望對齊既有一定的技術(shù)難度,又需要多次人工標注反饋,因而實現(xiàn)上有一定挑戰(zhàn)。經(jīng)過前兩步語言模型和提令精調(diào)之后,語言大模型仍然會生成帶有偏見、歧視或者令人不適的回答。為了提升大模型的安全性、可用性和可信性,與人類期望對齊是必不可少的步驟。然而目前研究表明利用人類反饋的強化學(xué)習(xí)算法[1](RLHF)存在訓(xùn)練不穩(wěn)定、對超參數(shù)敏感和訓(xùn)練代價較高等問題。
針對基于強化學(xué)習(xí)的人類偏好對齊方法的上述不足,最近提出了一些替代的方法,相關(guān)實現(xiàn)思路和方法包括:
(1)借助對比學(xué)習(xí)的方法[2-4],代表性工作為DPO(Direct preference optimization)[2],即提高符合人類偏好回復(fù)生成概率的同時,降低人類滿意度較低回復(fù)的生成概率;
(2)基于提示工程的方法[5-6],代表性工作為HIR(Hindsight instruction relabeling)[5],即根據(jù)與人類偏好相符程度,設(shè)計不同的提示。在推理時使用匹配人類偏好較高的提示,從而引出更好的回答。
雖然上述方法都是Reward-free的方法(即不需要訓(xùn)練獎勵評估模型),但實驗表明這些替代強化學(xué)習(xí)方法存在容易受到訓(xùn)練集中噪聲樣本的影響(比如:錯誤標注、Dull Sentences和較短回復(fù)等)。主要原因是它們都是采用在樣本上直接精調(diào)的方式實現(xiàn)與人類偏好對齊,因而易受樣本質(zhì)量的影響,而基于人類反饋的強化學(xué)習(xí)算法先訓(xùn)練評估模型,然后采用評估模型的評分來引導(dǎo)模型的訓(xùn)練過程。即使訓(xùn)練樣本存在的噪聲,也通過評估模型的“過濾”,對最終模型不會產(chǎn)生直接的影響。
方法
為了獲得輕量級、易實現(xiàn)和Reward-free的人類偏好對齊方法,同時也緩解最終模型受訓(xùn)練樣本中噪聲數(shù)據(jù)的不利影響。受到表征工程Representation Engineering)[7]方面最新進展的啟發(fā),我們提出了RAHF(Representation Alignment from Human Feedback)方法。在神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)權(quán)重決定了隱層表征、隱層表征決定了網(wǎng)絡(luò)輸出、網(wǎng)絡(luò)輸出決定了網(wǎng)絡(luò)行為(如:安全、真實、偏見等方面)。我們通過首先發(fā)現(xiàn)模型在生成不同質(zhì)量回復(fù)時網(wǎng)絡(luò)隱層激發(fā)模式及差異,然后利用差異來對模型行為進行調(diào)整和操控。具體方法包括以下三個主要步驟:
(1)使用帶偏好注釋的數(shù)據(jù)集來讓大型語言模型“感知”人類的偏好;
(2)收集模型在不同偏好“刺激”情況下的隱層激活模式;
(3)利用收集到的激活模式及差異來調(diào)整模型使其與與人類偏好對齊。
我們嘗試了兩種方法讓模型“感知”人類偏好:單一模型(RAHF-SCIT)和二元模型(RAHF-DualLLMs)。都取得了不錯的結(jié)果,雖然二元模型RAHF-DualLLMs性能更佳,但單一模型RAHF-SCIT實現(xiàn)更為簡單,對硬件資源的要求也更低。
結(jié)果
我們在對話任務(wù)上對進行了對比實驗。實驗結(jié)果表明所提出的RAHF人類偏好對齊方法在各項指標上都優(yōu)于其他非強化學(xué)習(xí)方法,并取得了與RLHF-PPO相媲美的結(jié)果。如表1所示,在Anthropic-HH數(shù)據(jù)集上相對于首選回復(fù)的勝率(結(jié)果使用GPT-4進行評判),我們所提出的RAHF-DualLLMs超過了除RLHF-PPO之外的所有代替方法,并且與RLHF-PPO僅有0.01的差距。表2報告了在不同生成采樣溫度下,偏好注釋數(shù)據(jù)上我們自己所訓(xùn)練的獎勵模型(Reward model)和第三方提供的獎勵模型上的各方法的平均得分比較,這些數(shù)據(jù)也與表1的結(jié)果相吻合,并且表現(xiàn)出相似的趨勢。
表1. 在Anthropic-HH數(shù)據(jù)集上相對于首選回復(fù)的勝率(結(jié)果使用GPT-4進行評判)。
表2. 在不同生成采樣溫度下,偏好注釋數(shù)據(jù)上所訓(xùn)練的獎勵模型(Reward model)和第三方提供的獎勵模型上的各方法的平均得分比較。
這項工作我們嘗試了一種受認知神經(jīng)科學(xué)理論啟發(fā)的基于表征工程來實現(xiàn)生成式語言大模型與人類偏好對齊的策略,旨在提出一種輕量級和易實現(xiàn)的解決方案。目前仍然還有許多可改進的空間,我們希望這項研究能夠有助于更可控人工智能技術(shù)的發(fā)展。
審核編輯:劉清
-
自然語言處理
+關(guān)注
關(guān)注
1文章
625瀏覽量
13918
原文標題:基于表征工程的生成式語言大模型人類偏好對齊
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》
【大語言模型:原理與工程實踐】揭開大語言模型的面紗
【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)
【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練
【大語言模型:原理與工程實踐】大語言模型的評測
【大語言模型:原理與工程實踐】大語言模型的應(yīng)用
大語言模型:原理與工程時間+小白初識大語言模型
大語言模型:原理與工程實踐+初識2
一種基于策略元素三元組的策略描述語言
一種基于用戶偏好的權(quán)重搜索及告警選擇方法

LLMs實際上在假對齊!

大語言模型中的語言與知識:一種神秘的分離現(xiàn)象

2024 年 19 種最佳大型語言模型

評論