大語言模型Fine-tuning踩坑經驗分享

作者 |?FelixCoder

前言

由于 ChatGPT 和 GPT4 興起，如何讓人人都用上這種大模型，是目前 AI 領域最活躍的事情。當下開源的??LLM（Large language model）非常多，可謂是百模大戰。面對諸多開源本地模型，根據自己的需求，選擇適合自己的基座模型和參數量很重要。選擇完后需要對訓練數據進行預處理，往往這一步就難住很多同學，無從下手，更別說 training。

然后再對模型進行 finetuning 來更好滿足自己的下游任務。那么對于如果要訓練一個專家模型。預訓練也是必不可缺的工作。不管是預訓練還是??finetuning（微調），無論選用何種方案，都避免不了訓練中產生的災難性遺忘問題，那么怎么減少和避免這種情況的發生，也是本文想講的一個重點。對于推理，在 GPU 資源不富裕的情況，如何最小化的利用內存，提升推理效率，也是可以討論的內容。

模型選擇

先看一下最好的模型有哪些，以下數據是最新 LLM 排行，來自?UC 伯克利?[1]

▲ FireShot Capture 015 - Chatbot Arena Leaderboard Week 8_ Introducing MT-Bench and Vicuna-33B_ - lmsys.org.png

當然這里前 3 名都閉源模型，后面開源模型，大多數也都是英文的模型。如果 GPU 資源充足（至少 A100*8），這里也可以基于開源模型做中文的預訓練，最后再 finetuning 。但我們沒有 GPU 資源，我們可以選擇開源的中文模型直接做微調。?

具體有哪些中文模型可以選擇，可以參考這兩個地址?中文語言理解測評基準（CLUE）[2] 和?SuperCLUE 瑯琊榜?[3]。開源領域 ChatGLM，LLAMA，RWKV 主要就是這 3 種模型，中文好一點就是 ChatGLM，潛力最好的就是 LLAMA，RNN 架構決定 RWKV 有很好的推理效率（隨輸入長度內存占比線性自增，而 LLAMA 則是指數增加）和? Length Extrapolation?（關于長度外推性，可以參考蘇神的文章?[4]）。

當然?MPT-7B-StoryWriter-65k+?[5] 模型也有較長的外推能力，主要在于，注意力這塊使用了?ALIBI?[6]。要擁有什么樣的長度，取決你的需求。對于對話模型，往往不需要那么長的外推能力。但對于想做知識庫領域相關的應用，需要模型能夠看更多的內容，是有這個需求的。

這里不做推薦，一切來自你的具體需求和 GPU 資源，不知道怎么樣選擇，可以將您的需求和資源情況留言，我給你做一個選擇。

模型大小選擇

當然對于模型參數的選擇，往往是參數越大效果越好。如果資源充足，當然是推薦 30B 以上的模型。不管是 6B, 7B 和 13B 同樣的訓練數據，同樣訓練參數，模型參數量大效果則優于低參數的模型。那么根據模型參數，如何預估我們的訓練所需的內存開銷，這里有一個簡單的方法比如 6B 模型，60 億規模參數，根據以下公式計算：?

模型參數 + 梯度參數 + 優化器參數 = 6B * 1bytes + 6GB + 2*6GB = 24GB?

以上是全量預訓練，當然如果采用 lora 這種方法，則會有更低內存占用。當然我們還可以對模型進行量化，來提高內存效率。?

注意：參數多量化低的模型要優于參數低量化高的模型，舉例：33B-fb4 模型要優于 13b-fb16 模型.

數據處理

對于 LLM 訓練，數據質量很重要。預訓練時，我們可以將數據先進行預處理，比如對數據進行一定規則的篩選，數據去重，去除一些低質量的數據。同時，我們可能面臨各種類型的數據，PDF，Word，HTML，代碼文件等等，對于這種不同類型的數據我們需要都處理成文本，同時還過濾掉一些干擾項或亂碼的數據。

當然，我們也可以利用一些工具去處理，比如 justext?[7]，trafilatura?[8]，來提取文檔主要內容，減少數據的噪音。對于空的文檔或文檔長度低于 100 進行過濾，進一步減少噪音。

對于一些機器生成的文本或 OCR?識別錯誤的文本，質量不高，由沒有什么邏輯性，雖然比較難以檢測，但是還是會有一些工具能做這樣的事情，比如?ctrl-detector?[9]。當然對于一些有毒的或帶有偏見的數據，可以采用?PerspectiveAPI?[10] 或垃圾郵件檢測的辦法來過濾。

我們還不得不考慮數據的一些隱私風險，也需要考慮，比如身份證號，銀行卡等信息，比如 presidio 和 pii-codex 等工具提供了檢測、分析和處理文本數據中的個人身份信息的能力。

指令微調數據，我們可以使用?PromptSource?[11] 來創建微調數據。當然我們還可以讓 GPT4 給我們標注一些數據，這樣蒸餾知識，可以讓數據質量進一步提升。這里我分享一個我使用的 Prompt 工程：

first_prompt?=?"""
作為一位專業的xxxx，您的任務是從給定的上下文回答問題。
給定的上下文：
"""
last_prompt?=?"""
請綜合上述信息，你給出的回復需要包含以下三個字段：
1.questions:?基于上下文內容，提出與這個內容相關的問題，至少兩個以上。
2.answers:?然后根據問題，分別給出每個問題的答案，請用 markdown 格式。
3.instruction:?給出上下文內容的總結，盡量精簡，用 markdown 格式。
請按照以下JSON格式來回答：
前括號
??????"questions":?[
??????????"<內容相關問題1>",
??????????"<內容相關問題2>"
??????],
??????"answers":?[
???????????"<內容相關問題1的答案>",
???????????"<內容相關問題2的答案>"
??????],
??????instruction:?"<總結性的內容>"
后括號
注意：如果碰到上下文內容信息不夠，無法回答問題的情況，answers和questions可以返回空。
最后強調一下：你的回復將直接用于javascript的JSON.parse解析，所以注意一定要以標準的JSON格式做回答，不要包含任何其他非JSON內容，否則你將被扣分！！！
"""

微調方案

目前對于 LLM 微調方案有很多，我將常用的一些方案和相關資料做一個列舉。?

Prefix-Tuning（P-Tuning v2）[12]

Prompt Tuning?[13]

Lora?/?QLora [14]

根據實際經驗，這里推薦采用 Lora 或 QLora。簡單介紹一下 QLoRA，重點改進是將模型采用 4bit 量化后加載，訓練時把數值反量化到 bf16 后進行訓練，利用 LoRA 可以鎖定原模型參數不參與訓練，只訓練少量 LoRA 參數的特性使得訓練所需的顯存大大減少。例如 33B 的 LLaMA 模型經過這種方式可以在 24GB 的顯卡上訓練，也就是說消費級單卡都可以實現，大大降低了微調的門檻。

英文模型需要做詞表擴充嗎？

對于像 LLaMA 模型的詞表大小是 32K，其主要針對英語進行訓練（具體詳見?LLaMA 論文 [15]），對多語種支持不是特別理想（可以對比一下多語言經典模型 XLM-R 的詞表大小為 250K）。

通過初步統計發現，LLaMA 詞表中僅包含很少的中文字符，所以在切詞時會把中文切地更碎，需要多個 byte token 才能拼成一個完整的漢字，進而導致信息密度降低。比如，在擴展詞表后的模型中，單個漢字傾向于被切成 1 個 token，而在 LLaMA 中可能就需要 2-3 個才能組合成一個漢字，顯著降低模型的推理效率。

如何避免災難遺忘

通常我們有以下方式，可以減少或避免災難性遺忘問題

將重要的權重凍結 - 像 Lora 就是采用的這種方案，只學習部分網絡權重。但這里 Lora 的配置其實是要注意一下，如果你是用 Lora 做預訓練，lora 訓練模塊可以配上 q_proj,v_proj,k_proj,o_proj??如果是微調則只需要訓練? q_proj,v_proj? lora_rank 的設置也有講究，初始設 lora_ran 為 8，訓練存在遺忘時，可以將 lora_rank 改為 64（原因是與原模型數據領域相差較大的話，需要更大的秩，原論文有說明）。

復習 - 跟人一樣，在預訓練或微調時，回看之前訓練的數據。還可以專門把特征圖存起來，量化以后放在一個類似于記憶庫的地方，之后在新任務上訓練的時候從這個記憶庫里重構出記憶和新數據一起訓練。感興趣可以看這篇論文?[16]。?

MoE - 稀疏門控制的專家混合層，最近爆出 GPT4 是由 8 個 220B 的模型組合。關于?Moe 相關資料?[17]?大家自行了解。?

推理加速

對于推理，一般我們采用量化方案，這里有兩個辦法。第一個則是采用 ggml 工具，比如?llama.cpp?[18] 針對 llama 模型，將模型量化運行在 cpu 或 gpu 上，也可以 cpu 和 gpu 一起跑，內存則大大減少，推理速度有極大的提高。?

▲ image.png

這里如果將 llama.cpp 運行在 gpu 上，編譯時一定要加?LLAMA_CUBLAS=1，同時推理的時候，指定? --gpu-layers|-ngl? 來分配運行在 gpu 上的層數，當然越大，占用 gpu 的內存會越多。

如果是 RWKV 模型，則考慮采用?rwkv.cpp?[19]，此方法與?llama.cpp?類似，使用方式也是類似的。

還有 Llama 模型還可以考慮使用?exllama?[20] 純 GPU 的加速，雖然還不夠完善，但也可以值得一試。

另一個，采用?LLM Accelerator?[21]，LLM 存在大量的相似性推理，基于此，可以做一些優化加速推理，具體請看論文。最后采用架構上的調整，faster transformer?[22] 要優于傳統的 transformer 架構。

總結

最后總結幾條原則：?

參數多量化低的模型要優于參數低量化高的模型?

模型質量與訓練數據質量是存在相關性的?

擴充中文詞表有助于提高推理效率?

微調推薦采用 Lora QLora 方案?

模型加速必然需要對模型進行量化

編輯：黃飛

閱讀全文

gpu(126255) gpu(126255)
數據處理(28213) 數據處理(28213)
ChatGPT(3870) ChatGPT(3870)
LLM(229) LLM(229)

嵌入式C語言代碼優化的經驗與方法

在本篇文章中，收集了很多經驗和方法。應用這些經驗和方法，可以幫助我們從執行速度和內存使用等方面來優化C語言代碼。

2023-02-02 09:17:22

215

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個結合了視覺和語言模態的模型？但這到底是什么意思呢？

2023-03-03 09:49:37

665

嵌入式C語言代碼優化的經驗與方法

在本篇文章中，收集了很多經驗和方法。應用這些經驗和方法，可以幫助我們從執行速度和內存使用等方面來優化C語言代碼。

2023-03-08 13:27:00

142

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關系

電子發燒友網報道（文/李彎彎）大語言模型（LLM）是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

Arduino-IDE配置ESP32開發環境的正確方式

Arduino-IDE配置ESP32-CAM開發環境踩過的那些坑Arduino-IDE配置ESP32開發環境踩過的那些坑坑一IDE下載開發版速度慢：坑二get速度慢：坑三編譯出錯：坑N上傳出錯：坑一

2022-01-25 07:40:31

C語言中幾個容易踩的“坑”！

C語言中幾個容易踩的“坑”！今天給大家分享幾個C語言中的坑。一、帶參數的宏展開順序#include #define f(a,b) a##b#define g(a) #a#define h(a

2020-05-06 17:42:45

C語言中的坑有哪些？

總結幾個C語言中的“坑”

2020-12-28 06:11:15

C語言編程的學習經驗和心得體會概括

C語言編程的學習經驗和心得體會有哪些？

2021-11-03 06:03:51

Hi3516開箱貼及踩坑點

` 本帖最后由 PCB00023915 于 2020-11-3 12:25 編輯開箱：排好隊：裝好上電，還好沒冒煙：踩坑點：1.攝像頭的焦距沒有固定，如果發現攝像頭顏色偏紅可以擰動鏡頭

2020-11-03 11:54:28

Linux學習過程踩過的坑與如何解決踩坑

Linux踩坑記錄記錄Linux學習過程踩過的坑與如何解決踩坑1解決方法:F10進入BIOS使能虛擬化技術

2021-11-04 08:44:19

NodeMCU開發板踩坑經歷分享

寫在前面今天入手了一個NodeMCU的板子，準備學習一下物聯網相關的知識。不過由于博主學藝不精，在第一步燒寫固件上就踩坑了，所以就想著把自己的踩坑經歷寫出來分享給大家，希望能有一些幫助~ 材料準備硬件：NodeMCU開發板*1（某寶指導價15.8元！）軟件：

2021-11-01 07:55:20

STC8A8K和LDV7語言模塊的使用

為了電賽準備的，無奈都沒用上，這里分享一下踩過的坑。STC8A8KYS-LDV7語音識別模塊STC是51增強版，開發亦使用keil4(語音模塊也一樣，以下省略)，但是stc頭文件是的大坑，keil4總也找不到=

2022-01-27 06:33:57

STM32F401CCU6踩坑注意事項

STM32F401CCU6踩坑注意事項STM32F401CCU6與STM32F103C8T6相比，引腳基本上完全兼容，但是有一個引腳（PB11）必須注意，否則會引起單片機個工作不穩定，甚至不能正常

2021-08-20 07:28:11

STM32G070CB cubemx串口調試踩過哪些坑呢

使用G070CB時寫的中斷程序是怎樣的？STM32G070CB cubemx串口調試踩過哪些坑呢？

2022-02-18 06:08:10

STM32H7+UCOSIII+LWIP踩坑記錄相關資料推薦

STM32H7+UCOSIII+LWIP踩坑記錄主要功能：單片機作TCP服務器實現PC端多客戶端連接單片機，并發傳輸數據。坑點1、優先級問題：一個客戶端連接就創建一個線程，優先級由高到低遞減，即先

2022-02-18 06:30:02

STM32基礎知識入門避坑指南

一STM32入門踩坑筆記——（2）無敵的我、又回來了。。。。又是元氣滿滿的一天、又是踩坑崩潰的一天。昨晚上連夜把跑馬燈寄存器版本搞定了。這里需要聲明一下。哈哈、首先說我不是水軍或者托兒哈！！我

2021-08-03 07:30:58

STM32編程常踩的坑有哪些？

2021-12-17 06:15:28

Xavier入門踩坑PWM問題解決方法

Xavier入門踩坑PWM問題解決方法GPIO問題解決方法PWM問題由于需要做外部傳感器的觸發同步，所以需要一個方波，考慮用Xavier的PWM，結果折騰了好久發現需要配置內部硬件，折騰了好久也沒

2022-01-10 08:11:23

python2和python3同時安裝的詳細步驟

整理下python2和python3同時安裝詳細步驟希望對大家有幫助坑已踩過（親測可用！！！）

2020-10-27 09:31:54

《電子產品設計寶典可靠性原則2000條》+ 避免踩別人踩過的坑——一本非常由價值的經驗總結分享書

自己去總結，可能需要多年，甚至需要諸多踩坑經歷才可能有所體會，這本書能分享出來，對于初學者來說值得去好好學習思考，理解背后的背景原理。大部分內容個人覺得都是很有價值的經驗，也非常贊同，工作中也

2023-05-13 20:50:39

【EVB-T335開發板試用體驗】2、開發環境搭建+踩坑紀錄

的搭建與踩坑紀錄；主要包括以下內容：一軟件安裝1 VMWare WorkStation虛擬機的安裝2 Ubuntu操作系統的選擇與安裝3 Xshell串口終端的安裝二開發環境1

2017-03-06 21:20:16

【HarmonyOS HiSpark AI Camera】Hi3516開箱貼及踩坑點

原文鏈接：https://bbs.elecfans.com/jishu_2004436_1_1.html開箱：排好隊：裝好上電，還好沒冒煙：踩坑點：1.攝像頭的焦距沒有固定，如果發現攝像頭顏色偏

2020-11-03 16:08:05

【HarmonyOS HiSpark AI Camera試用連載】在CentOS上的編譯工具——踩坑和填坑

--with-universal-archs配置目錄make & make install就安裝好了，在這里，我踩了一個坑Failed to build these modules:_ctypes這個地方

2020-11-17 18:39:32

【HarmonyOS HiSpark AI Camera試用連載】開箱安裝及編譯環境踩坑

到Hi3516-HiTool.zip 接著分享下編譯環境搭建踩的幾個坑我之前已經有搭建好wifi-iot的編譯環境，天真的我以為AI Carmera應該也能直接編譯過吧，然而并不是。1./bin/sh

2021-01-09 20:51:57

【STM32+機智云】機智云手機APP點燈實驗踩坑記錄精選資料分享

【STM32+機智云】機智云手機APP點燈實驗踩坑記錄一、實驗背景因為項目開發需要用到云平臺，所以開始學習機智云平臺，聽說機智云比較容易入門，還有手機APP。因此開始了踩坑之旅，一切的一切開始于一天

2021-08-04 08:30:04

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎，并開展大模型實踐，復旦大學張奇教授團隊結合他們在自然語言處理領域的研究經驗，以及分布式系統和并行計算的教學經驗，在

2024-03-11 15:16:39

【書籍評測活動NO.31】大語言模型：原理與工程實踐

實際操作的指導。為了填補這一空白，我們歷經一年的實踐和探索，決定分享我們的經驗和成果，旨在為大語言模型的初學者和實踐者提供快速入門和應用的途徑。為應對技術的快速演進和信息的日新月異，我們建立了一個

2024-03-18 15:49:46

【國民技術N32項目移植】匯總一下我踩過的那些坑

【國民技術N32項目移植】匯總一下我踩過的那些坑國民技術與電子發燒友聯合舉辦的N32 MCU移植挑戰賽，從10月份開始報名，到現在已經持續好幾個月了，現在馬上就接近最后交作品的日期了，我也要趕在

2023-02-28 16:42:55

一文為大家介紹PCB畫板時常見的鉆孔問題，避免后續踩同樣的坑

的出現。本文為大家介紹PCB畫板時常見的鉆孔問題，避免后續踩同樣的坑。鉆孔分為三類，通孔、盲孔、埋孔。通孔有插件孔（PTH）、螺絲定位孔（NPTH）,盲、埋孔和通孔的過孔（VIA)都是起到多層電氣導

2022-09-23 11:05:20

使用MDK5時出現過的一些error踩過的坑分享

2021-12-17 07:49:07

使用STM32采集電池電壓踩過的那些坑

本文來解析一個盆友在使用STM32采集電池電壓踩過的坑。以STM32F4 的ADC屬于逐次逼近SAR 型ADC為例進行分析，參考STM32F405xxDatasheet，對于如何編寫ADC程序就不做描述了。

2021-03-01 07:39:43

使用樹莓派搭建stm32開發環境踩過的坑以及碰到的問題

使用樹莓派搭建stm32開發環境踩了很多坑，下面主要是記錄一下踩過的坑，以及碰到的問題。##開發方式的選擇1.使用Eclipse+GDB+OpenOCD+STlink這種方式我發現eclipse

2021-08-24 07:47:50

全志V853開發板試用測評報告-二開發板連接踩坑記錄

全志V853開發板試用測評報告二，開發板連接踩坑記因為最近一直在開發嵌入式AI方面的產品，所以很關注高性價比的嵌入式開發平臺，在電子愛好者平臺偶然看到一款全志新推出的非常高性能的具備AI能力的開發板

2022-08-30 15:07:22

關于RK1808板子調試過程踩過的坑記錄

2022-02-16 06:38:27

關于自然語言處理之54 語言模型(自適應)

自然語言處理——54 語言模型(自適應)

2020-04-09 08:20:30

學習C語言的經驗分享

怎么學C語言最快？大學生只會用C語言寫簡單的計算怎么辦？

2021-11-02 08:31:01

建分析模型？自帶分析模型的bi系統了解一下嗎？

個人做數據可視化就算了，但凡上升到部門級的、企業級的，都少不了搭建數據分析模型，但數據分析模型不是那么好搭建的，經驗不足、考慮不周都將影響到后續的數據可視化分析。有些企業用戶就是在搭建分析模型時沒做

2022-05-17 10:03:14

開發STM32 USB HID踩過的坑

記錄一下開發STM32 USB HID踩過的坑一、前言二、代碼配置一、前言MCU: STM32F103C8T6CubeMX: STM32CubeMX 5.3.0二、代碼配置引腳配置時鐘樹配置我

2021-08-24 07:15:32

總結一下GD32F13x移植踩過的坑

奇奇怪怪的問題，下面總結一下踩過的坑。第一次移植GD時，沒有完全移植，只是部分外設移植，導致配置混亂。STM和GD在寄存器命名上有區別，部分寄存器GD專用，導致配置困難，所以，最后進行了完全移植。GD和ST的一些差異執行速度差異GD32采用專利技術，提高了相同工作頻率下的代碼執行速度，這樣一些在S

2022-02-11 07:54:24

是否有PLC5LP的PLL可能性微調輸出頻率分辨率為0.1赫茲？

at 32.768 kHz (standard Quartz oscillator frequency). I need such fine-tuning to syncronize 32.76 kHz signals on two separate devices within approx.

2019-07-26 14:33:11

有沒有關于STM32入門踩坑經驗分享

2021-10-13 06:52:59

電源設計容易踩的坑和線性穩壓選型過程

前文提到了一些線性穩壓的主要特點，本文作者將結合NXP智能車大賽實際案例，說一下電源設計容易踩的坑和線性穩壓選型過程。文章目錄主要參數輸入電壓輸出電壓主要參數在為實際應用電路設計電源的時候，首先要

2021-11-12 07:54:58

移植debian系統踩過的坑

基本的linux系統，板子的交叉編譯器是arm-linux-gnueabihf-gcc,這給我帶來了不少的麻煩，以至于想重新移植一下debian系統。ok，轉入正題，說說這兩天我踩的坑吧。首先...

2021-12-14 08:42:53

自然語言處理的語言模型

自然語言處理——53 語言模型（數據平滑）

2020-04-16 11:11:25

記錄寫SAM4S的bootloader所踩的坑

2022-01-24 07:16:14

輪胎穩態側向半經驗模型的研究

輪胎穩態側向半經驗模型的研究輪胎半經驗模型在汽車的動力學仿真研究中具有至關重要的作用。本文在總結輪胎半經驗模型參數識別的最優方法的基礎上，對側偏側傾聯合工況下的我國郭孔輝院士的統一模型和荷蘭

2009-12-02 12:36:52

鴻蒙OS踩坑之旅（Hi3861開發環境配置）

前幾天在知乎發表了篇記錄文章，今天通過直播得知有鴻蒙社區，故再搬過來趁正式開課前的周末配一波環境，因為熟練度（菜）的問題T T，踩了不少坑，特意記錄一下。參考：https

2020-09-15 21:48:14

Antenna Tuning Approach Aids C

and emerging technologies for efficient antenna tuning in wireless handset devices.

2010-02-25 23:36:01

Hand-Tuning Loops and Control Code on the TMS320C6000

Hand-Tuning Loops and Control Code on the TMS320C6000

2016-08-08 18:27:32

唇語識別中的話題相關語言模型研究_王淵

2017-03-19 11:28:16

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發包有哪些？

2017-12-28 15:42:30

5382

魚與熊掌：Bert應用模式比較與選擇

GPT和Bert則采取了另外一種應用模式：Fine-tuning。意思是：在獲得了預訓練模型以及對應的網絡結構（Transformer）后，第二個階段仍然采用與預訓練過程相同的網絡結構，拿出手頭任務

2019-05-14 09:25:02

3182

如何使用較小的語言模型，并用少量樣本來微調語言模型的權重

名為LM-BFF（better few-shot fine-tuning fo language models）的方法相比

2021-01-07 14:27:36

1850

基于預訓練視覺-語言模型的跨模態Prompt-Tuning

、新加坡國立大學鏈接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要預訓練的視覺語言模型（VL-PTMs）在將自然語言融入圖像數據中顯示出有前景的能力，促進

2021-10-09 15:10:42

2926

當“大”模型遇上“小”數據

Child-Tuning，推薦給大家。” 自BERT火了以后，基本上現在所有NLP領域都all in Pre-training Fine-tuning了吧？但當“大”規模預訓練模型遇上“小”規模標注數據

2021-11-09 15:49:41

1640

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

如何更高效地使用預訓練語言模型

本文對任務低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預訓練模型的參數實在是太多了，很難找到這么多參數的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

935

Transformer的細節和效果如何

在文本理解任務(Natural Language Understanding)上，預訓練模型已經取得了質的飛躍，語言模型預訓練+下游任務fine-tune基本上已經成為標配。

2022-08-30 10:12:28

727

NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA

2022-09-22 10:42:29

742

采用P-Tuning解決非英語下游任務

　　隨著對預訓練大型語言模型（ LLM ）權重訪問需求的增加，圍繞 LLM 共享的環境正在發生變化。最近， Meta 發布了開式預訓練Transformer ，一個具有 1750 億個參數的語言模型。 BigScience 計劃在幾個月內發布具有 1760 億個參數的多語言模型。

2022-10-10 11:46:27

1514

一種基于new concepts的text-to-image生成模型的fine-tuning方法

通過簡單文本prompts，用戶能夠生成前所未有的質量的圖像。這樣的模型可以生成各種各樣的對象、風格和場景，并把它們進行組合排序，這讓現有的圖像生成模型看上去是無所不能的。

2023-01-03 17:08:17

741

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學合作組織，致力于開發大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數

2023-01-17 14:29:53

692

Prompt Tuning相比于Fine Tuning在哪些場景下表現更好？

第三范式：基于「預訓練模型 + finetuning」的范式，如 BERT + finetuning 的NLP任務，相比于第二范式，模型準確度顯著提高，但是模型也隨之變得更大，但小數據集就可訓練出好模型；

2023-02-02 14:36:33

2078

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語言模型生成一些 prompting，它還向人們展示了其解決復雜任務的能力。標準 prompting 方法，即為使用少樣本的問答對或零樣本的指令的一系列方法，已經被證明不足以解決需要多個推理步驟的下游任務（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

嵌入式C語言代碼優化經驗與方法

在本篇文章中，收集了很多經驗和方法。應用這些經驗和方法，可以幫助我們從執行速度和內存使用等方面來優化C語言代碼。簡介在最近的一個項目中，我們需要開發一個運行在移動設備上但不保證圖像高質量的輕量級

2023-02-09 01:21:39

370

詳細解讀ChatGPT 背后的技術重點

通常，基礎模型的語言建模目標不足以讓模型學會以有用的方式遵循用戶的指令。模型創建者使用「指令微調 (Instruction Fine-Tuning，IFT)」方法來達到該目的。

2023-02-09 10:20:39

622

大型語言模型有哪些用途？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下，可用于解決總結文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學習算法，可以

2023-02-23 19:50:04

3887

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。

2023-03-08 13:57:00

6989

各種大語言模型是徹底被解封了

基礎 LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結構，Multi-task 是指 ERNIE 3.0 的模型結構

2023-04-20 11:25:44

1071

自然語言和ChatGPT的大模型調教攻略

指令調整（Instruction Tuning）將多種任務轉化成自然語言表述的形式，再通過seq2seq的監督學習+多任務學習的方式調整大規模語言模型的參數。

2023-04-24 10:28:29

518

AI大語言模型的原理、演進及算力測算專題報告

GPT是基于Transformer架構的大語言模型，近年迭代演進迅速。構建語言模型是自然語言處理中最基本和最重要的任務之一。GPT是基于Transformer架構衍生出的生成式預訓練的單向語言模型，通過對大量語料數據進行無監督學習

2023-04-28 10:01:59

585

PyTorch教程9.3.之語言模型

電子發燒友網站提供《PyTorch教程9.3.之語言模型.pdf》資料免費下載

2023-06-05 09:59:00

PyTorch教程-9.3. 語言模型

9.3. 語言模型? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

268

650億參數，8塊GPU就能全參數微調！邱錫鵬團隊把大模型門檻打下來了！

在上周復旦大學邱錫鵬團隊提交的論文《Full Parameter Fine-tuning for Large Language Models with Limited Resources》中，研究人員提出了一種新的優化器 LOw-Memory Optimization（LOMO）。

2023-06-21 14:00:34

598

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型（LLM）代表著 AI 領域的重大進步，并有望通過習得的知識改變

2023-07-05 10:27:35

1463

達觀曹植大模型正式對外公測！專注于長文本、多語言、垂直化發展

工程實踐經驗，已開發出具有長文本、多語言、垂直化三大特點的專用國產“曹植”大語言模型。7月伊始，達觀正式對外發布“曹植”大語言模型應用公測版，可在達觀數據官網申請試用！申請通道與規則 1?申請通道公司官網申請通道

2023-07-12 15:04:01

552

語言模型的發展歷程基于神經網絡的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務。

2023-07-14 11:45:40

454

自動駕駛中道路異常檢測的方法解析

個fine-tuning過程中, 利用新加入的OoD object來強行增加原本segmentation模型對異常的敏感度, 使得其OoD分割的性能得到了非常大的提升。

2023-08-15 10:43:46

611

清華大學大語言模型綜合性能評估報告發布！哪個模型更優秀？

近日，清華大學新聞與傳播學院發布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進行了全面的綜合評估。近年，大語言模型以其強大的自然語言處理能力，成為AI領域的一大熱點。它們

2023-08-10 08:32:01

607

檢索增強的語言模型方法的詳細剖析

? 本篇內容是對于ACL‘23會議上陳丹琦團隊帶來的Tutorial所進行的學習記錄，以此從問題設置、架構、應用、挑戰等角度全面了解檢索增強的語言模型，作為對后續工作的準備與入門，也希望能給大家帶來

2023-08-21 09:58:01

1234

大語言模型“書生·浦語”多項專業評測拔頭籌

最近，AI大模型測評火熱，尤其在大語言模型領域，“聰明”的上限被不斷刷新。商湯與上海AI實驗室等聯合打造的大語言模型“書生·浦語”（InternLM）也表現出色，分別在智源FlagEval

2023-08-25 13:00:02

315

訓練大語言模型帶來的硬件挑戰

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰，以及GPU和網絡行業如何針對訓練的工作負載不斷優化硬件。

2023-09-01 17:14:56

1046

騰訊發布混元大語言模型

騰訊發布混元大語言模型騰訊全球數字生態大會上騰訊正式發布了混元大語言模型，參數規模超千億，預訓練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創作能力、任務執行

2023-09-07 10:23:54

815

華為提出Sorted LLaMA：SoFT代替SFT，訓練多合一大語言模型

而這一切的背后，是一項名為Sorted Fine-Tuning（SoFT）的新訓練技術。SoFT讓我們可以在一個訓練周期內產出多個子模型，無需任何額外的預訓練步驟。此外，這項技術還揭示了模型的中間層也能夠產生高質量的輸出，這一點在之前的研究中常常被忽視。

2023-09-26 16:26:31

440

揭秘編碼器與解碼器語言模型

Transformer 架構的問世標志著現代語言大模型時代的開啟。自 2018 年以來，各類語言大模型層出不窮。

2023-10-24 11:42:05

337

基于檢索的大語言模型簡介

簡介章節講的是比較基礎的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

282

深度對談：廣告創意領域中AIGC的應用

隨著 AI 能力的提升，人們需要深入使用并掌握它。像 fine-tuning、LangChain 等我不會推薦，我會鼓勵周圍的人去深入使用 AIGC，重點在于使用，好的 AGI 只需要被編譯一次。

2023-11-29 17:14:05

569

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數十億參數（B+）的預訓練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

大語言模型概述

在科技飛速發展的當今時代，人工智能技術成為社會進步的關鍵推動力之一。在廣泛關注的人工智能領域中，大語言模型以其引人注目的特性備受矚目。大語言模型的定義及發展歷史大語言模型是一類基于深度學習技術

2023-12-21 17:53:59

555

大語言模型使用指南

在信息爆炸的時代，我們渴望更智能、更高效的語言處理工具。GPT-3.5等大語言模型的崛起為我們提供了前所未有的機會。這不僅是技術的進步，更是人與機器共舞的一幕。本篇文章將帶你走進這個奇妙的語言王國

2023-12-29 14:18:59

276

四種微調大模型的方法介紹

全微調（Full Fine-tuning）：全微調是指對整個預訓練模型進行微調，包括所有的模型參數。在這種方法中，預訓練模型的所有層和參數都會被更新和優化，以適應目標任務的需求。

2024-01-03 10:57:21

2301

大語言模型中的語言與知識：一種神秘的分離現象

自然語言處理領域存在著一個非常有趣的現象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對齊關系。

2024-02-20 14:53:06

已全部加載完成

搜索歷史

大語言模型Fine-tuning踩坑經驗分享

評論