一種新穎的大型語言模型知識更新微調范式

先遺忘后學習：基于參數計算的大模型知識更新

最近，大型語言模型（LLMs）展示了其令人驚嘆的文本理解和生成能力。然而，即使是更為強大的LLMs，仍有可能從訓練語料庫中學到不正確的知識，以及隨時間而過時的知識。直接使用包含新知識的數據進行二次微調可能在更新知識時效果不佳，因為新舊知識之間存在沖突。在本文中，我們提出了一種新的微調范式，被稱為F-Learning（先遺忘后學習），它基于參數計算，實現對舊知識的遺忘和對新知識的學習。在兩個公開可用的數據集上的實驗證明，我們提出的F-Learning顯著改善了全量微調和LoRA微調的知識更新性能。此外，我們還發現，通過減去LoRA的參數來遺忘舊知識可以達到與減去全量微調參數相似的效果，有時甚至可以顯著超越它。

論文：
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models

地址：
https://arxiv.org/pdf/2311.08011.pdf

研究背景

大型語言模型（LLMs）具有出色的自然語言理解和生成能力。盡管LLMs在學習方面非常強大，但仍有可能在語料庫中學到錯誤的知識。此外，現實世界中的許多知識不斷更新，LLMs中的一些最初正確的知識隨時間變得過時和無效。例如，“美國總統是誰？”在2020年的答案可能是“唐納德·特朗普”，而現在的答案是“喬·拜登”。因此，LLMs需要在使用過程中不斷更新其發現的過時和錯誤的知識?，F有的模型編輯和知識更新方法通常會添加額外的參數、存儲模塊、知識庫等，而編輯過程不像直接使用新知識進行微調那樣簡單明了。

目前，學習新知識時最常用的方法仍然是直接微調模型。當人類建立起自己的初始認知時，如果他們接觸到與初始認知不一致的新知識，通常會感到沖突，難以學習和接受新知識。如果原始認知和知識被遺忘，那么待學習的新知識就不會與原始認知和知識發生沖突，這使得學習和吸收新知識變得更為簡單。例如，如果一個人從小被教育認為“地球是扁平的”，那么當他們成年后接受與之相矛盾的“地球是圓的”知識將會是一項挑戰。然而，如果他們能夠忘記“地球是扁平的”這個錯誤的知識，或者在接觸到錯誤信息之前學習和接受“地球是圓的”新知識，就會簡單得多。

受以上經驗觀察的啟發，我們提出了一種稱為F-Learning（先遺忘后學習）的知識更新新范式。具體而言，我們首先使用舊知識微調初始模型，然后從初始模型參數中減去微調后的模型參數與初始模型參數的差值，這個過程被定義為“舊知識遺忘”。然后，我們使用新知識在遺忘舊知識后的模型上進行微調。這個過程我們定義為“新知識學習”。經過遺忘舊知識和學習新知識的兩個階段后，模型的知識得到更新。

研究方法

與引入外部知識庫或額外參數不同，我們的方法主要基于全量微調和參數高效微調。它包括兩個階段：遺忘舊知識和學習新知識。

遺忘舊知識

假設在數據集上進行的有監督微調（SFT）向LLMs注入了新知識或激活了與新知識相關的擬合能力，這反映在模型參數的變化上。在這個階段，對于給定的大型語言模型及其參數，我們定義增量參數為知識參數，計算如下：其中FT表示有監督微調，和分別表示包含知識的數據集以及原始模型的參數。類似地，我們首先在一個包含舊知識的數據集上對進行微調，然后用微調后的模型參數減去原始模型的參數得到表示舊知識的知識參數，如下所示：

其中表示包含我們需要遺忘的舊知識的數據集。受先前工作啟發，我們認為從參數θ當中減去參數能夠幫助模型遺忘這部分舊知識，所以我們將遺忘舊知識的過程定義如下：

其中是控制遺忘比例的超參數?，F在我們得到了一個參數為的新模型。值得注意的是這一遺忘舊知識的過程只有當模型充分掌握舊知識的情況下才成立，否則模型無需進行遺忘也不需要進行知識更新。

學習新知識

對于經歷過遺忘舊知識過程的模型，接著我們將通過監督微調向注入新知識，以進行知識更新。同樣地，我們定義學習新知識的過程如下：

其中表示有監督微調，表示學習了新知識的模型的參數，表示包含需要更新的的新知識的數據集。

實驗

在實驗中我們采用了ZsRE和COUNTE RF ACT兩個廣泛使用的數據集，并選擇Reliability、Generality、Locality作為主要評測指標，分別評估知識更新的準確率、泛化性以及對無關知識的影響程度。我們將直接對原始模型進行新知識有監督微調得到的結果作為基線。實驗結果如下所示：

我們使用LLAMA2-7B作為實驗的基礎模型。我們主要評估將舊知識更新為新知識的能力，因此模型將首先在舊知識上進行為期3個時期的微調。表1中F-Learning中設置的超參數λ分別取值為0.3、0.7、0.1和1.5。所有實驗的學習率和時期都設置為5e-5和3。為了確保模型輸出的唯一性，在測試期間我們將模型的溫度設置為0。在硬件方面，我們使用了總共4個A100-80G GPU進行實驗。

實驗表明在首次遺忘之后，無論是全量微調還是LoRA，在學習方面都有顯著的提升。具體而言，與直接進行全量微調相比，F-Learning FT在ZsRE數據集上將Reliabilty和Generality分別提高了2.71和4.84點。與此同時，Locality指標基本保持不變，僅下降了0.43點。與直接進行全量微調相比，F-Learning LoRA在ZsRE數據集上將Reliabilty和Generality分別提高了2.71和4.84點。Locality指標基本保持不變，僅下降了0.43點。與LoRA微調相比，F-LearningLoRA在ZsRE數據集上將Reliabilty、Generality和Locality指標分別提高了3.81、4.01和1.67點。同樣，在COUNTERFACT數據集上，與直接進行全體積微調相比，F-LearningLoRA將Reliabilty、Generality和Locality指標分別提高了3.54、1.48和0.07點。與LoRA微調相比，F-LearningLoRA在ZsRE數據集上將Reliabilty、Generality和Locality指標分別提高了0.61、0.39和0.34點。總體而言，全量微調比LoRA更具學習新知識的能力，而我們的F-Learning在一定程度上相對于全量微調和LoRA取得了提升。

LoRA遺忘然后全量學習

在上述實驗設置中，我們采用的方法是同時基于全量微調（或LoRA）執行舊知識遺忘和新知識學習。然而，我們發現在某些情況下，通過減去全量微調的知識參數（即通過全量微調遺忘舊知識）會完全破壞我們基礎模型的核心功能，導致評估指標顯著下降。鑒于LoRA是一種參數高效的微調方法，與全量微調相比對參數的影響較小，我們嘗試了一種新的方法，即通過LoRA遺忘舊知識，然后通過全量微調學習新知識，以尋求一種平衡。與上文類似，我們對這一過程定義如下：

為了驗證，我們保持與上述相同的實驗設置并進行實驗。結果如表2所示。注意，在表2中，F-Learning中設置的超參數λ分別取值為0.3、3、0.1和3。結果支持了通過LoRA遺忘舊知識，然后通過全量微調學習的方法完全超越了直接的全量微調，幾乎實現了對遺忘并通過全量微調學習的方法的近似甚至超越。具體而言，與方法F-Learning FT相比，F-Learning LoRA?FT在COUNTERFACT數據集上將Reliabilty和Generality分別提高了9.20和6.11點。盡管F-Learning LoRA?FT在ZsRE數據集上的表現約低1-2點，但仍然在全量微調方面具有很大優勢，并有提升的空間。至于Locality指標，F-Learning LoRA?FT在zsRE和COUNTERFACT數據集上都取得了約1點的提升。我們經驗性地認為這是因為基于LoRA的遺忘對參數的影響較小，從而對無關知識造成的損害較小。實驗證明通過減去LoRA的參數進行遺忘可以達到近似于減去全量微調參數的效果，這具有很大的價值，因為在大多數情況下，LoRA的時間成本和計算成本都遠遠低于全量微調。

總結

主要貢獻：

提出了一種新穎的大型語言模型知識更新微調范式，稱之為“先遺忘后學習”（F-Learning），

實驗結果表明，我們提出的F-Learning顯著改善了各種微調方法的知識更新性能，

實驗結果顯示，通過減去LoRA的參數進行遺忘可以達到近似于減去全量微調參數的效果。

審核編輯：黃飛

閱讀全文

數據集(24279) 數據集(24279)
LoRa(230001) LoRa(230001)
大模型(810) 大模型(810)

一文詳解知識增強的語言預訓練模型

隨著預訓練語言模型(PLMs)的不斷發展，各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習一定的知識，但仍舊存在很多問題，如知識量有限、受訓練數據長尾分布影響魯棒性不好

2022-04-02 17:21:43

8765

大型語言模型在關鍵任務和實際應用中的挑戰

大型語言模型在關鍵任務和實際應用中的可靠性受到挑戰。模型產生幻覺可能是由于模型缺乏或錯誤地理解了相關的知識。當人類思考和記憶事物時，本體知識在我們的思維過程中扮演著重要角色。本體知識涉及類別、屬性以及它們之間的關系。它幫助

2023-08-15 09:33:45

1090

探索高效的大型語言模型！大型語言模型的高效學習方法

在大型語言模型（LLMs）的應用中，提示工程（Prompt Engineering）是一種關鍵技術，用于引導模型生成特定輸出或執行特定任務。通過精心設計的提示，可以顯著提高LLMs的性能和適用性。本文將介紹提示工程的主要方法和技巧，包括少樣本提示、提示壓縮和提示生成。

2023-12-13 14:21:47

274

NVIDIA 推出大型語言模型云服務以推進 AI 和數字生物學的發展

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA ? 美國加利福尼亞州圣克拉拉

2022-09-21 15:24:52

434

一種新穎的觸摸式開關臺燈電路

一種新穎的觸摸式開關臺燈電路本文所應用到的相關器件資料： TT6061A    最近，筆者對一種新的觸摸式臺燈按其實物畫下

2008-09-22 16:01:24

一種新穎的ＺＶＺＣＳＰＷＭ全橋變換器

2012-04-08 12:46:49

一種形式新穎的12dB線極化RFID天線設計

制作12 dBi線極化天線最常采用微帶天線組陣，其尺寸較大為580 mm×260 mm×50 mm。而本文采用了一種新穎的形式即單極天線組陣進行設計。

2019-07-23 07:51:50

一種電子系統測試性模型的研究

和可用性有很大影響。在對測試性建模理論進行研究的基礎上,借鑒多信號流圖模型和eXpress信息模型,提出了一種適合電子系統的測試性模型——ESTIM(electrotic system

2010-04-22 11:28:58

范式間區別

范式間區別構造數據庫必須遵循一定的規則。在關系數據庫中，這種規則就是范式。范式是符合某一種級別的關系模式的集合。關系數據庫中的關系必須滿足一定的要求，即滿足不同的范式。目前關系數據庫有六種范式：第一

2008-10-22 11:40:06

HarmonyOS/OpenHarmony應用開發-ArkTS的聲明式開發范式

架構聲明式UI前端****提供了UI開發范式的基礎語言規范，并提供內置的UI組件、布局和動畫，提供了多種狀態管理機制，為應用開發者提供一系列接口支持。語言運行時選用方舟語言運行時，提供了針對UI范式

2023-01-17 15:09:29

HarmonyOS應用開發-關于TS語言的整體理解

。整體架構聲明式UI前端提供了UI開發范式的基礎語言規范，并提供內置的UI組件、布局和動畫，提供了多種狀態管理機制，為應用開發者提供一系列接口支持。語言運行時選用方舟語言運行時，提供了針對UI范式

2021-11-30 11:03:36

H．264解碼器中一種新穎的去塊效應濾波器設計，不看肯定后悔

一種新穎的環路內去塊效應濾波器設計，設計中采用5階流水線的去塊效應模塊，利用混合濾波順序與打亂的存儲更新機制的方法提高了流水線暢順性，濾波一個16×16大小的宏塊僅需要198個時鐘周期。

2021-04-12 06:35:37

LabVIEW圖形化編程語言的編程范式

LabVIEW圖形化語言的事件驅動編程需要提醒大家的是：本節所要討論的是圖形化語言事件驅動的編程范式。但我們不得不先介紹一些有關事件編程的其它知識。我們知道：LabVIEW 6.1推出了基于事件驅動

2015-01-19 16:51:09

OpenHarmony應用開發-ArkUI方舟開發框架簡析

后端引擎和語言運行時是共用的，但是相比類Web開發范式，聲明式開發范式無需JS框架進行頁面DOM管理，渲染更新鏈路更為精簡，占用內存更少，應用性能更佳。發展趨勢：聲明式開發范式后續會作為主推的開發

2023-04-23 09:35:15

OpenHarmony快速入門及開發應用所必備的基礎知識

開發范式（簡稱“類Web開發范式”）和基于TS擴展的聲明式開發范式（簡稱“聲明式開發范式”）。以下是兩種開發范式的簡單對比。開發范式名稱語言生態UI更新方式適用場景適用人群類Web開發范式JS語言數據

2022-05-12 14:11:47

STM32有哪些基本知識？如何去建立一種STM32開發環境？

STM32有哪些基本知識？如何去建立一種STM32開發環境？怎樣去安裝并下載一種keil軟件？

2021-07-05 07:30:13

Verilog HDL語言必須了解的知識有哪些？

VerilogHDL是硬件描述語言的一種，用于數字電子系統設計。它允許設計者用它來進行各種級別的邏輯設計，可以用它進行數字邏輯系統的仿真驗證、時序分析、邏輯綜合。它是目前應用最廣泛的一種硬件描述語言之一。

2019-09-29 08:46:06

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

的獎勵模型，對有監督微調模型對用戶提示詞補全結果的質量進行評估，與語言模型建模目標綜合得到更好的效果。這一階段的難點在于解決強化學習方法穩定性不高、超參數眾多及模型收斂困難等問題。除了大語言模型的構建

2024-03-11 15:16:39

【書籍評測活動NO.31】大語言模型：原理與工程實踐

的視角，以揭示大語言模型的精妙之處。本書的一大特色體現在其知識體系的系統性。我們從數據處理的基礎工作（如數據清洗與去重）講起，逐步深入，探討預訓練、微調技術和強化對齊技術等核心技術環節。同時，書中

2024-03-18 15:49:46

【潤和軟件DAYU200開發板體驗】搭建DAYU200開發板OpenHarmony開發環境

的類Web開發范式（簡稱“類Web開發范式”）。以下是兩種開發范式的簡單對比。[td]開發范式名稱語言生態UI更新方式適用場景適用人群聲明式開發范式ArkTS語言數據驅動更新復雜度較大、團隊合作度較高

2022-11-06 18:51:44

介紹一種多層陶瓷電容器的動態模型

2021-06-08 06:44:41

分享一種數字秒表設計方法

本文介紹了一種基于FPGA利用VHDL硬件描述語言的數字秒表設計方法，

2021-05-11 06:37:32

單片機C語言下LCD多級菜單的一種實現方法

介紹了在C語言環境下,在LCD液晶顯示屏上實現多級嵌套菜單的一種簡便方法,提出了一個結構緊湊、實用的程序模型。

2011-03-03 13:10:31

在KEIL下怎樣去創建一種匯編語言STM32工程呢

在KEIL下怎樣去創建一種匯編語言STM32工程呢？有哪些操作步驟？

2022-01-19 07:02:16

如何利用simulink去設計一種四則運算仿真模型

STM32擴展工具怎樣去安裝并使用呢？如何利用simulink去設計一種四則運算仿真模型？

2021-11-19 06:28:51

如何去實現一種基于C語言與Java的WiFi避障小車的設計

Arduino是什么？如何去實現一種基于C語言與Java的WiFi避障小車的設計？

2021-11-10 07:52:41

如何去實現一種基于磁鏈模型的非線性觀測器設計呢

如何去實現一種基于磁鏈模型的非線性觀測器設計呢？如何對其模型進行仿真？其波形是怎樣的？

2021-11-19 07:34:36

如何去開發一種基于HAL庫的模型并進行仿真呢

STM32為什么使用Matlab/Simulink呢？如何去開發一種基于HAL庫的模型并進行仿真呢？

2021-11-18 07:56:40

如何去搭建一種永磁同步電機的數學模型

永磁同步電機是什么？如何去搭建一種永磁同步電機的數學模型？

2021-08-02 07:42:42

如何在C語言中去創建一種雙向鏈表呢

雙向鏈表的結構是由哪些部分組成的？如何在C語言中去創建一種雙向鏈表呢？

2021-12-24 06:22:06

如何在RKNN上開發并運行一種yolov3 rknn模型呢

如何在RKNN上開發并運行一種yolov3 rknn模型呢？其程序代碼該怎樣去實現呢？

2022-02-15 07:57:46

怎樣使用C語言去制作一種呼吸燈呢

怎樣使用C語言去制作一種呼吸燈呢？C語言是如何控制小燈亮度的呢？

2022-01-20 07:18:02

怎樣使用lua語言去開發一種esp8266？

Lua是什么？nodemcu又是什么？怎樣使用lua語言去開發一種esp8266？

2021-06-15 07:28:27

怎樣去搭建一種PMSM滯環電流控制仿真模型

怎樣去搭建一種PMSM滯環電流控制仿真模型？PMSM滯環電流控制方法是什么？

2021-10-08 07:03:24

怎樣去搭建一種STM32代碼生成模型

怎樣去搭建一種STM32代碼生成模型？要注意哪些問題？

2021-10-11 06:25:26

怎樣去搭建一種基于PI調節器的PMSM矢量控制系統模型？

怎樣去搭建一種SVPWM算法模型？如何對SVPWM算法模型進行仿真？怎樣去搭建一種滯環電流控制模型？如何對滯環電流控制模型進行仿真？怎樣去搭建一種基于PI調節器的PMSM矢量控制系統模型？如何對其進行仿真？

2021-07-27 07:13:15

怎樣去搭建一種基于Simulink的變速恒頻雙饋風力發電模型呢

雙饋風力發電機運行的原理是什么？怎樣去搭建一種基于Simulink的變速恒頻雙饋風力發電模型呢？

2021-10-22 08:20:31

怎樣去搭建一種永磁同步電動機模型

怎樣去搭建一種永磁同步電動機模型？怎樣去搭建一種PMSM電流閉環模型？

2021-10-08 08:08:07

怎樣去搭建一種由轉矩方程計算角度速度的矢量控制模型

怎樣去搭建一種由轉矩方程計算角度速度的矢量控制模型？如何對速度環矢量控制模型進行仿真？

2021-10-11 07:06:39

怎樣去新建一種匯編語言的STM32工程呢

Boot模式有哪幾種呢？怎樣去新建一種匯編語言的STM32工程呢？

2021-11-26 06:00:50

怎樣去編寫一種C語言開發之花樣流水燈程序呢？求解

2021-07-15 11:16:58

怎樣去設計一種基于Allwinner A40i工業級芯片的大型智能網關

基于Allwinner A40i工業級芯片的大型智能網關具備哪些功能？怎樣去設計一種基于Allwinner A40i工業級芯片的大型智能網關？

2021-09-26 08:35:47

怎樣去設計一種基于PLC的知識競賽搶答器

PLC的用途與特點有哪些？怎樣去設計一種基于PLC的知識競賽搶答器？

2021-10-11 06:16:27

怎樣去設計一種采用覆蓋機制的FIFO隊列模型呢

FIFO隊列是什么？怎樣去設計一種采用覆蓋機制的FIFO隊列模型呢？

2021-12-08 06:07:14

有沒有一種方法可以在電機工作臺中微調電機參數呢？

你好！有沒有一種方法可以在電機工作臺中微調電機參數（最終斜坡值、速度斜升...），而無需從電機控制工作臺系統地重新生成代碼然后 Cube-MX 每次我想調整一個參數？更改每個參數可能需要 3 分鐘以上，這使得微調成為一個障礙。

2023-01-03 09:59:35

求一種新穎的MO-OTAS和CCCII相結合的二階多功能電流模式濾波器

MO—OTAS和CCCII士簡介一種新穎的MO-OTAS和CCCII相結合的二階多功能電流模式濾波器

2021-04-14 06:12:08

求一種基于EPCS Flash的遠程在線更新FPGA程序的方法

遠程在線更新FPGA程序系統的硬件結構是怎樣構成的？怎樣去設計一種遠程在線更新FPGA程序系統？

2021-06-18 09:16:18

求一種改進的模型預測直接轉矩控制算法

為什么要提出一種改進的模型預測直接轉矩控制算法？改進的模型預測直接轉矩控制算法有哪些功能？

2021-07-06 07:45:56

程序世界：線性代數是一種特定語言

可以在MATLAB、Mathematica等數學軟件上進行線性代數編程所以，從應用的角度看，線性代數是一種人為設計的領域特定語言(DSL)，它建立了一套模型并通過符號系統完成語法和語義的映射。實際上

2021-04-22 06:30:00

請問怎樣去搭建一種模糊控制器系統的數學模型

模糊PID控制方式與傳統PID控制相比有何優勢？怎樣去搭建一種模糊控制器系統的數學模型？如何對模糊控制器系統的數學模型進行仿真？

2021-08-18 07:35:38

請問怎樣去設計一種單脈沖縫隙陣列天線？

一種新穎的中心開孔單脈沖毫米波縫隙陣列天線的設計

2021-05-14 07:16:41

請問怎樣去設計一種基于MATLAB的小型電力系統模型？

Matlab PSB是什么？Matlab PSB主要由哪幾個子模塊庫組成？怎樣去設計一種基于MATLAB的小型電力系統模型？如何對基于MATLAB的小型電力系統模型進行仿真？仿真結果怎樣？

2021-07-11 07:11:42

請問怎樣去設計一種基于VHDL語言的數字頻率計

什么是測頻法？怎樣去設計一種基于VHDL語言的數字頻率計？如何對基于VHDL語言的數字頻率計進行仿真？

2021-08-17 06:11:41

一種新穎的ZVZCSPWM全橋變換器

一種新穎的ZVZCSPWM全橋變換器摘要：提出了一種新穎的零電流零電壓開關（ZCZVS）PWM全橋變換器，通過增加一個輔助電路的方

2009-07-11 09:37:57

725

一種新穎的三維模型壓縮算法

針對三維（3D）網格模型的存儲與網絡傳輸問題，提出一種新穎的三維模型壓縮算法。該算法基于對網格模型的切片處理，主要由以下三個步驟組成：切片頂點的計算、切片邊界的均勻采樣以及對切片所得圖像的編碼。對于

2017-12-25 16:26:18

如何使用較小的語言模型，并用少量樣本來微調語言模型的權重

景中落地，難度著實不小。現在，針對這個問題，普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出，使用較小的語言模型，并用少量樣本來微調語言模型的權重。并且，實驗證明，這一

2021-01-07 14:27:36

1850

多語言翻譯新范式的工作：機器翻譯界的BERT

今天給大家介紹EMNLP2020的一篇關于多語言翻譯新范式的工作multilingual Random Aligned Substitution Pre-training （mRASP）［1］，核心

2021-03-31 17:24:04

2598

知識圖譜與BERT相結合助力語言模型

with Informative Entities。他們認為現存的預訓練語言模型很少會考慮與知識圖譜（Knowledge Graph： KG）相結合，

2021-05-19 15:47:41

3355

如何向大規模預訓練語言模型中融入知識？

本文關注于向大規模預訓練語言模型（如RoBERTa、BERT等）中融入知識。

2021-06-23 15:07:31

3468

用Megatron-CNTRL為語言模型添加外部知識和可控性

　　我們的工作證明了將大型的、經過訓練的模型與外部知識庫相結合的好處以及生成過程的可控性。我們未來的工作將是使知識檢索器可學習，并為更長的世代引入結構級控制。

2022-04-20 14:31:26

1548

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

KT利用NVIDIA AI平臺訓練大型語言模型

韓國先進的移動運營商構建包含數百億個參數的大型語言模型，并使用 NVIDIA DGX SuperPOD 平臺和 NeMo Megatron 框架訓練該模型。

2022-09-27 09:24:30

915

NVIDIA AI平臺為大型語言模型帶來巨大收益

隨著大型語言模型（ LLM ）的規模和復雜性不斷增長， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高達 30% 的訓練速度。

2022-10-10 15:39:42

644

CogBERT：腦認知指導的預訓練語言模型

另一方面，從語言處理的角度來看，認知神經科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設計了預訓練的模型來捕捉大腦如何表示語言的意義。之前的工作主要是通過明確微調預訓練的模型來預測語言誘導的大腦記錄，從而納入認知信號。

2022-11-03 15:07:08

707

介紹大模型高效訓練所需要的主要技術

隨著BERT、GPT等預訓練模型取得成功，預訓-微調范式已經被運用在自然語言處理、計算機視覺、多模態語言模型等多種場景，越來越多的預訓練模型取得了優異的效果。

2022-11-08 09:57:19

3714

大型語言模型有哪些用途？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下，可用于解決總結文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學習算法，可以

2023-02-23 19:50:04

3887

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。

2023-03-08 13:57:00

6989

GTC23 | 彌補不足：大型語言模型借企業數據之力變得更加智能

NVIDIA NeMo 服務幫助企業將大型語言模型與其專有數據相結合，賦能智能聊天機器人、客戶服務等更多應用。如今的大型語言模型知識淵博，但它們的工作方式有點像時間膠囊——所收集的信息僅限于第一次

2023-03-25 09:10:03

274

有哪些省內存的大語言模型訓練/微調/推理方法？

首先，我們需要了解如何根據參數量估計模型大致所需的 RAM，這在實踐中有很重要的參考意義。我們需要通過估算設置 batch_size，設置模型精度，選擇微調方法和參數分布方法等。

2023-04-10 11:41:46

947

使用LoRA和Hugging Face高效訓練大語言模型

在本文中，我們將展示如何使用大語言模型低秩適配 (Low-Rank Adaptation of Large Language Models，LoRA) 技術在單 GPU 上微調 110 億參數的 FLAN-T5 XXL 模型。

2023-04-14 17:37:40

1503

一套開源的大型語言模型（LLM）—— StableLM

對于任何沒有額外微調和強化學習的預訓練大型語言模型來說，用戶得到的回應質量可能參差不齊，并且可能包括冒犯性的語言和觀點。這有望隨著規模、更好的數據、社區反饋和優化而得到改善。

2023-04-24 10:07:06

2168

利用大語言模型做多模態任務

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。

2023-05-10 16:53:15

701

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

為了解決大型模型的這個問題，部署者往往采用小一些的特定模型來替代。這些小一點的模型用常見范式 —— 微調或是蒸餾來進行訓練。微調使用下游的人類注釋數據升級一個預訓練過的小模型。

2023-05-15 09:35:36

389

研究人員提出了一種全新的語言模型推理框架——「思維樹」（ToT）

那么，這樣一個簡單的機制能否足以建立一個通向「解決通用問題的語言模型」？如果不是，哪些問題會挑戰當前的范式，真正的替代機制應該是什么？

2023-05-24 11:09:05

806

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

確實能學習和表示文本的意義。雖然大型預訓練語言模型（LLM）在一系列下游任務中展現出飛速提升的性能，但它們是否真的理解其使用和生成的文本語義？長期以來，AI社區對這一問題存在很大的分歧。有一種猜測是，純粹基于語言的形式（例

2023-05-25 11:34:11

434

河套IT TALK 86：（原創）談談對陸奇演講中“范式”遷移的理解

：“模型”知識無處不在。并預測下個范式會是“行動”無所不在。那么到底什么是范式（Paradigm）？我之前在很多場合聽到過所謂的第四范式，第五

2023-05-27 19:15:02

634

調教LLaMA類模型沒那么難，LoRA將模型微調縮減到幾小時

工智能領域，以高效和有效的方式使用大型語言模型正變得越來越重要。 LoRA（Low-Rank Adaption，低秩自適應）作為微調 LLMs 一種比較出圈的技術，其額外引入了可訓練的低秩分解矩陣，同時固定住預訓練權重，從而大大減少了下游任務的可訓練參數數量。

2023-05-28 10:58:28

1081

淺析AI大型語言模型研究的發展歷程

大型語言模型研究的發展有三條技術路線：Bert 模式、GPT 模式、混合模式。其中國內大多采用混合模式，多數主流大型語言模型走的是 GPT 技術路線，直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。

2023-06-09 12:34:53

3162

如何將ChatGPT的能力蒸餾到另一個大模型

如何將ChatGPT的能力蒸餾到另一個大模型，是當前許多大模型研發的研發范式。當前許多模型都是采用chatgpt來生成微調數據，如self instruct，然后加以微調，這其實也是一種數據蒸餾

2023-06-12 15:06:19

526

GPT總設計師：大型語言模型的未來

他預計，深度學習和大型語言模型會繼續發展：這個領域的未來可能會有一小部分重大突破，加之許多細微改進，所有這些都將融入到一個龐大而復雜的工程體系。他還給出了一些有趣、可執行的思想實驗。

2023-06-12 16:38:48

262

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內部

2023-06-25 15:08:49

991

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型（LLM）代表著 AI 領域的重大進步，并有望通過習得的知識改變

2023-07-05 10:27:35

1463

單樣本微調給ChatGLM2注入知識

LoRA微調是一種高效的融入學習算法。類似人類把新知識融入現有知識體系的學習過程。學習時無需新知識特別多的樣本，學習后原有的龐大知識和能力可以基本不受影響。

2023-07-18 14:44:39

2543

ChatGPT等大型語言模型的出現會帶來哪些風險

近日，美智庫蘭德公司高級工程師克里斯托弗·莫頓(Christopher Mouton)在C4ISRNET網站撰文，分析ChatGPT等大型語言模型的出現給國家安全帶來的新風險。主要觀點如下：

2023-08-04 11:44:53

304

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

2023-08-25 09:06:57

885

Falcon-7B大型語言模型在心理健康對話數據集上使用QLoRA進行微調

使用領域適應技術對預訓練LLM進行微調可以提高在特定領域任務上的性能。但是，進行完全微調可能會很昂貴，并且可能會導致CUDA內存不足錯誤。當進行完全微調時，可能會發生災難性遺忘，因為許多權重在"知識存儲"的地方發生了變化。

2023-09-19 16:33:19

298

大規模語言模型的基本概念、發展歷程和構建流程

大規模語言模型（Large Language Models，LLM），也稱大規模語言模型或大型語言模型，是一種由包含數百億以上參數的深度神經網絡構建的語言模型，使用自監督學習方法通過大量無標注

2023-12-07 11:40:43

1141

四種微調大模型的方法介紹

全微調（Full Fine-tuning）：全微調是指對整個預訓練模型進行微調，包括所有的模型參數。在這種方法中，預訓練模型的所有層和參數都會被更新和優化，以適應目標任務的需求。

2024-01-03 10:57:21

2301

大語言模型推斷中的批處理效應

隨著開源預訓練大型語言模型（Large Language Model, LLM ）變得更加強大和開放，越來越多的開發者將大語言模型納入到他們的項目中。其中一個關鍵的適應步驟是將領域特定的文檔集成到預訓練模型中，這被稱為微調。

2024-01-04 12:32:39

228

大語言模型中的語言與知識：一種神秘的分離現象

自然語言處理領域存在著一個非常有趣的現象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對齊關系。

2024-02-20 14:53:06

已全部加載完成

搜索歷史

一種新穎的大型語言模型知識更新微調范式

評論