Meta最近提出了LLaMA(開放和高效的基礎(chǔ)語(yǔ)言模型)模型參數(shù)包括從7B到65B等多個(gè)版本。最值得注意的是,LLaMA-13B的性能優(yōu)于GPT-3,而體積卻小了10倍以上,LLaMA-65B與Chinchilla-70B和PaLM-540B具有競(jìng)爭(zhēng)性。
Meta表示,該模型在數(shù)以萬(wàn)億計(jì)的token上進(jìn)行訓(xùn)練,并表明有可能完全使用公開的數(shù)據(jù)集來(lái)訓(xùn)練最先進(jìn)的模型,而不需要求助于專有的和不可獲取的數(shù)據(jù)集。
特別的,LLaMA-13B在大多數(shù)基準(zhǔn)上超過(guò)了GPT-3(175B),LLaMA-65B與最好的模型Chinchilla-70B和PaLM-540B具有明顯競(jìng)爭(zhēng)力。
為了了解該工作,本文主要通過(guò)研讀該論文,供大家一起參考。
該論文介紹了對(duì)模型架構(gòu)的修改(Vaswani等人,2017),給出了具體的訓(xùn)練方法,并報(bào)告了模型的性能以及在一組標(biāo)準(zhǔn)基準(zhǔn)上與其他LLMs進(jìn)行了比較。
地址:https://github.com/facebookresearch/llama
一、工作簡(jiǎn)介與問(wèn)題的提出
在大量的文本語(yǔ)料庫(kù)中訓(xùn)練的大型語(yǔ)言模型(LLMs)已經(jīng)顯示出它們能夠從文本指令或少數(shù)例子中形成新的任務(wù)(Brown等人,2020)。
在將模型擴(kuò)展到足夠大的規(guī)模時(shí),首次出現(xiàn)了這些少見的特性(Kaplan等人,2020年),從而形成了一個(gè)專注于進(jìn)一步擴(kuò)展這些模型的工作路線(Chowdhery等人,2022年;Rae等人,2021年)。
這些努力都是基于這樣的假設(shè):更多的參數(shù)會(huì)帶來(lái)更好的性能。然而,Hoffmann等人(2022)最近的工作表明,在給定的計(jì)算預(yù)算下,最好的性能不是由最大的模型實(shí)現(xiàn)的,而是由在更多數(shù)據(jù)上訓(xùn)練的較小的模型實(shí)現(xiàn)的。
Hoff-mann等人(2022)的縮放定律的目標(biāo)是確定如何在特定的訓(xùn)練計(jì)算預(yù)算下最佳地?cái)U(kuò)展數(shù)據(jù)集和模型大小。然而,這個(gè)目標(biāo)忽略了推理預(yù)算,而推理預(yù)算在大規(guī)模服務(wù)語(yǔ)言模型時(shí)變得至關(guān)重要。
在這種情況下,給定一個(gè)目標(biāo)性能水平,首選的模型不是訓(xùn)練速度最快的,而是推理速度最快的,盡管訓(xùn)練一個(gè)大的模型以達(dá)到一定的性能水平可能更便宜,但訓(xùn)練時(shí)間較長(zhǎng)的小模型最終會(huì)在推理中更便宜。
例如,Hoffmann等人(2022年)曾建議在200B的token上訓(xùn)練一個(gè)10B的模型,但研究發(fā)現(xiàn)7B的模型的性能甚至在1T的token之后還能繼續(xù)提高。
因此,該工作的重點(diǎn)是訓(xùn)練一系列語(yǔ)言模型,通過(guò)對(duì)比通常使用的更多的token進(jìn)行訓(xùn)練,在不同的推理預(yù)算下達(dá)到最佳的性能。
該工作得到的模型被稱為L(zhǎng)LaMA,參數(shù)范圍從7B到65B,與現(xiàn)有的最佳LLM相比,具有競(jìng)爭(zhēng)力的性能。
盡管LLaMA-13B比GPT-3小10倍,但在大多數(shù)基準(zhǔn)測(cè)試中都超過(guò)了GPT-3。這個(gè)模型將有助于增強(qiáng)對(duì)LLM的訪問(wèn)和研究,因?yàn)樗梢栽趩蝹€(gè)GPU上運(yùn)行。此外,65B參數(shù)模型也可以與最好的大型語(yǔ)言模型(如Chinchilla或PaLM-540B)競(jìng)爭(zhēng)。
特別的,與Chinchilla、PaLM或GPT-3不同的是,該工作只使用公開可用的數(shù)據(jù),這使得工作符合開源原則,而大多數(shù)現(xiàn)有模型所依賴的數(shù)據(jù)要么沒(méi)有公開可用,要么沒(méi)有記錄(例如 "書籍-2TB "或 "社交媒體對(duì)話")。
接下來(lái),我們分別從訓(xùn)練數(shù)據(jù)等方面進(jìn)行介紹。
二、預(yù)訓(xùn)練數(shù)據(jù)的來(lái)源與清洗策略
LLaMA的訓(xùn)練數(shù)據(jù)集由幾個(gè)來(lái)源混合而成,涵蓋了各種不同的領(lǐng)域,如下表所示:
1、英語(yǔ)CommonCrawl,占比67%
由于CommonCraw數(shù)據(jù)較為雜亂,該工作采用CCNet pipleline的方式(Wenzek等人,2020)預(yù)處理了從2017年到2020年的CommonCrawl網(wǎng)頁(yè)。
具體的,
該工作首先在行的層面上對(duì)數(shù)據(jù)進(jìn)行了刪除,用fastText線性分類器進(jìn)行語(yǔ)言識(shí)別,以去除非英語(yǔ)頁(yè)面,并用n-gram語(yǔ)言模型過(guò)濾低質(zhì)量?jī)?nèi)容。
其次,訓(xùn)練了一個(gè)線性模型來(lái)對(duì)維基百科中用作參考的頁(yè)面與隨機(jī)抽樣的頁(yè)面進(jìn)行分類,并丟棄了未被歸類為參考的頁(yè)面。
2、C4 ,占比15%
在探索性實(shí)驗(yàn)中,該工作觀察到,使用不同的預(yù)處理Com-monCrawl數(shù)據(jù)集可以提高性能。
因此,該工作將公開的C4數(shù)據(jù)集(Raffel等人,2020)也納入我們的數(shù)據(jù)。
C4的預(yù)處理也包含重復(fù)數(shù)據(jù)刪除和語(yǔ)言識(shí)別步驟,其與CCNet的主要區(qū)別在于質(zhì)量過(guò)濾,它主要依賴于不存在的標(biāo)點(diǎn)符號(hào)或網(wǎng)頁(yè)中的單詞和句子數(shù)量等判例。
3、Github,占比4.5%
在代碼方面,該工作使用了谷歌BigQuery上的GitHub公共數(shù)據(jù)集,并只保留在Apache、BSD和MIT許可下發(fā)布的項(xiàng)目。
此外,為了提高數(shù)據(jù)質(zhì)量,還用基于行長(zhǎng)或字母數(shù)字字符比例的啟發(fā)式方法過(guò)濾了低質(zhì)量的文件,并用規(guī)范的表達(dá)式刪除了如標(biāo)題在內(nèi)的模板化內(nèi)容。
最后在文件層面上對(duì)結(jié)果數(shù)據(jù)集進(jìn)行重復(fù)計(jì)算,并進(jìn)行精確匹配。
4、維基百科,占比4.5%
該工作添加了2022年6月至8月期間的維基百科轉(zhuǎn)儲(chǔ)數(shù)據(jù),涵蓋20種語(yǔ)言,這些語(yǔ)言使用拉丁字母或西里爾字母,具體是:BG、CA、CS、DA、DE、EN、ES、FR、HR、HU、IT、NL、PL、UP、RO、RU、SL、SR、SV、UK。
此外,該工作對(duì)數(shù)據(jù)進(jìn)行處理,以刪除超鏈接、評(píng)論和其他格式化的模板。
5、GutenbergProject和Books3,占比4.5%
書籍也是重要的語(yǔ)料來(lái)源,該工作的訓(xùn)練數(shù)據(jù)集包括兩個(gè)書籍語(yǔ)料庫(kù):古騰堡計(jì)劃(GutenbergProject)和ThePile(Gao等人,2020)的Books3部分,后者是一個(gè)可用于訓(xùn)練大型語(yǔ)言模型的公開數(shù)據(jù)集。
在數(shù)據(jù)處理上,該工作在書的層面上進(jìn)行了去重處理,刪除了內(nèi)容重疊度超過(guò)90%的書。
6、ArXiv,占比2.5%
科研文獻(xiàn)對(duì)于提升專業(yè)性也有重要作用,該工作對(duì)arXiv的Latex文件進(jìn)行處理,將科學(xué)數(shù)據(jù)添加到預(yù)訓(xùn)練數(shù)據(jù)集中。
按照Lewkowycz等人(2022年)的做法,該工作刪除了第一節(jié)之前的所有內(nèi)容以及書目。
此外,還刪除了.tex文件中的評(píng)論,以及用戶寫的內(nèi)聯(lián)擴(kuò)展定義和宏,以增加論文之間的一致性。
7、Stack Exchange,占比2%
QA數(shù)據(jù)對(duì)于提升垂直的專業(yè)問(wèn)題也有幫助。
該工作還使用了Stack Exchange的開放數(shù)據(jù),Stack Exchange是一個(gè)高質(zhì)量的問(wèn)題和答案的網(wǎng)站,涵蓋了從計(jì)算機(jī)科學(xué)到化學(xué)的不同領(lǐng)域。
具體的,該工作保留了28個(gè)最大的網(wǎng)站的數(shù)據(jù),從文本中去除HTML標(biāo)簽,并按分?jǐn)?shù)(從高到低)對(duì)答案進(jìn)行排序。
值得注意的是,我們將所有數(shù)字拆分為單個(gè)數(shù)字,并退回到字節(jié)來(lái)分解未知的UTF-8字符。
最后,在Tokenizer進(jìn)行切分方面,該工作我們用bytepairencoding(BPE)算法(Sennrich等人,2015)對(duì)數(shù)據(jù)進(jìn)行切分,并使用Sentence-Piece(Kudo和Richardson,2018)進(jìn)行實(shí)現(xiàn)。值得注意的是,該將所有數(shù)字拆分為單個(gè)數(shù)字,并退回到字節(jié)來(lái)分解未知的UTF-8字符。
總的來(lái)說(shuō),我們的整個(gè)訓(xùn)練數(shù)據(jù)集在切分之后包含了大約1.4T的token,如表2所示。
另外,在數(shù)據(jù)采樣方面,對(duì)于大多數(shù)訓(xùn)練數(shù)據(jù),每個(gè)token在訓(xùn)練過(guò)程中只采樣一次,但維基百科和圖書領(lǐng)域除外,對(duì)這些領(lǐng)域進(jìn)行了大約兩個(gè)epochs。
三、訓(xùn)練細(xì)節(jié):架構(gòu)選擇以及優(yōu)化策略
1、架構(gòu)選擇
在架構(gòu)選型上,該工作同樣采用是Transformer架構(gòu)(Vaswani等人,2017),并利用隨后提出的各種改進(jìn),在不同的模型中進(jìn)行使用,如PaLM。這里是與原始架構(gòu)的主要區(qū)別主要包括:
1)Pre-normalization VS GPT3
為了提高訓(xùn)練的穩(wěn)定性,我們對(duì)每個(gè)變換子層的輸入進(jìn)行規(guī)范化,而不是對(duì)輸出進(jìn)行規(guī)范化。
并使用Zhang和Sennrich(2019)介紹的RMSNorm歸一化函數(shù)。
2)SwiGLU activation function VS PaLM
采用SwiGLU激活函數(shù)取代由Shazeer(2020)介紹的ReLU非線性方法,以提高性能。此外,在維度上使用的維度是2/3*4d,而不是PaLM中的4d。
3)Rotary Embeddings VS GPTNeo
在位置編碼上,刪除了絕對(duì)位置嵌入,而在網(wǎng)絡(luò)的每一層增加了Su等人(2021)介紹的旋轉(zhuǎn)位置嵌入(RoPE)。
2、Optimizer設(shè)計(jì)
該模型使用AdamW優(yōu)化器(Loshchilov和Hutter,2017)進(jìn)行訓(xùn)練,超參數(shù)設(shè)置為β1=0.9,β2=0.95。
此外,使用余弦學(xué)習(xí)率方式,使最終學(xué)習(xí)率等于最大學(xué)習(xí)率的10%,并使用0.1的權(quán)重衰減和1.0的梯度剪裁。最并使用2,000個(gè)warm up策略,并根據(jù)模型的大小改變學(xué)習(xí)率和批次大小。
3、 模型加速優(yōu)化
在模型訓(xùn)練加速方面,該工作進(jìn)行了一些優(yōu)化,以提高模型的訓(xùn)練速度。
首先,該工作使用了一個(gè)高效的因果多頭注意力方式的實(shí)現(xiàn),靈感來(lái)自Rabe和Staats(2021)以及Dao等人(2022),這個(gè)實(shí)現(xiàn)可在xformers庫(kù)中找到,可以有效減少了內(nèi)存的使用和計(jì)算。
具體原理為通過(guò)不存儲(chǔ)注意力權(quán)重和不計(jì)算由于語(yǔ)言建模任務(wù)的因果性質(zhì)而被掩蓋的鍵/查詢分?jǐn)?shù)來(lái)實(shí)現(xiàn)的。
其次,為了進(jìn)一步提高訓(xùn)練效率,減少了在check point的后向傳遞中重新計(jì)算的激活量,在實(shí)現(xiàn)上,通過(guò)手動(dòng)實(shí)現(xiàn)trasnformer層的后向函數(shù)來(lái)進(jìn)行操作。為了充分受益于這種優(yōu)化,還通過(guò)如Korthikanti等人(2022)中采用的方法,進(jìn)行使用模型和序列并行來(lái)減少模型的內(nèi)存使用。
最后,該工作還盡可能地重疊激活的計(jì)算和GPU之間在網(wǎng)絡(luò)上的通信。
因此,最終的優(yōu)化性能效果為:當(dāng)訓(xùn)練一個(gè)65B參數(shù)的模型時(shí),代碼在2048A100的GPU上處理大約380個(gè)token/秒/GPU,并耗費(fèi)80GB的內(nèi)存,這意味著對(duì)包含1.4Ttoken的數(shù)據(jù)集進(jìn)行訓(xùn)練大約花費(fèi)了21天。
四、實(shí)驗(yàn)結(jié)果分析:zero shot與few shot性能對(duì)比測(cè)試
按照以前的工作(Brown等人,2020年),該工作選擇了zero-shot和 few-shot的任務(wù),并報(bào)告了總共20個(gè)基準(zhǔn)的結(jié)果,如表4、5所示:
其中:
zero-shot任務(wù)指的是提供了任務(wù)的文字描述和一個(gè)測(cè)試?yán)樱撊蝿?wù)要么使用開放式生成提供一個(gè)答案,要么對(duì)提議的答案進(jìn)行排序。
Few-shot任務(wù)指的是提供任務(wù)的幾個(gè)例子(1到64個(gè)之間)和一個(gè)測(cè)試?yán)印T撊蝿?wù)將這些文本作為輸入,并生成答案或?qū)Σ煌倪x項(xiàng)進(jìn)行排序。
在模型對(duì)比上,將LLaMA與其他基礎(chǔ)模型進(jìn)行比較,包括:公開的語(yǔ)言模型GPT-3(Brown等人,2020)、Gopher(Rae)和Lauren等人。2020)、Gopher(Raeet al.,2021)、Chinchilla(Hoffmann等,2022)和PaLM(Chowdhery等,2022),以及開源的OPT模型(Zhang等,2022)、GPT-J(Wang和Komatsuzaki,2021)和GPTneo(Black等,2022)。
此外,該工作還簡(jiǎn)要比較了LLaMA與OPT-IML(Iyer等人,2022)和Flan-PaLM(Chung等人,2022)等指令微調(diào)模型。
1、Common Sense Reasoning評(píng)測(cè)
該工作選擇了八個(gè)標(biāo)準(zhǔn)的常識(shí)推理基準(zhǔn):BoolQ(Clark等人,2019),PIQA(Bisk等人,2020),SIQA(Sap等人,2019),HellaSwag(Zellers等人,2019),WinoGrande(Sakaguchiet al.,2021),ARC easy and challenge(Clarket al.,2018)和OpenBookQA(Mihaylov等,2018)。
這些數(shù)據(jù)集包括Cloze和Winograd style的任務(wù),以及多選題回答。
如表3所示:
LLaMA-65B在所有報(bào)告的基準(zhǔn)上都優(yōu)于Chinchilla-70B,但BoolQ除外。
該模型除了在BoolQ和WinoGrande上,在其他地方都超過(guò)了PaLM-540B。
也就是說(shuō),LLaMA-13B模型在大多數(shù)基準(zhǔn)上也超過(guò)了GPT-3,盡管它要小10倍。
2、Closed-book Question Answering評(píng)測(cè)
閉卷答題測(cè)評(píng)任務(wù)指的是閉卷情況下的精確匹配性能,即模型不能訪問(wèn)包含回答問(wèn)題的證據(jù)的文件。
表4和表5分別展示了NaturalQuestions以及TriviaQA的性能。
結(jié)果發(fā)現(xiàn):
LLaMA-65B在0-sot和少數(shù)sot設(shè)置中都達(dá)到了最先進(jìn)的性能。更重要的是,LLaMA-13B在這些基準(zhǔn)測(cè)試中與GPT-3和Chinchilla相比也很有競(jìng)爭(zhēng)力,盡管其體積小了5-10倍。
在推理過(guò)程中,該模型在單個(gè)V100 GPU上運(yùn)行。
3、Reading Comprehension評(píng)測(cè)
RACE閱讀理解評(píng)測(cè)指的是從為中國(guó)初中和高中學(xué)生設(shè)計(jì)的英語(yǔ)閱讀理解考試,效果如表6所示:
LLaMA-65B與PaLM-540B具有競(jìng)爭(zhēng)力,LLaMA-13的性能比GPT-3好幾個(gè)百分點(diǎn)。
4、Mathematical reasoning評(píng)測(cè)
為了驗(yàn)證模型的推理能力,該工作在兩個(gè)數(shù)學(xué)推理基準(zhǔn)上MATH(Hendrycks等人,2021)和GSM8k(Cobbe等人,2021)進(jìn)行了測(cè)試。
其中,MATH是一個(gè)用LaTeX編寫的12K初中和高中數(shù)學(xué)問(wèn)題的數(shù)據(jù)集。GSM8k是一套初中數(shù)學(xué)問(wèn)題。
表7顯示了與PaLM和Minerva(Lewkowycz等人,2022)的測(cè)試效果。
Minerva是在從ArXiv和Math網(wǎng)頁(yè)中提取的38.5B個(gè)符號(hào)上進(jìn)行微調(diào)的一系列PaLM模型,而PaLM或LaMA都是在數(shù)學(xué)數(shù)據(jù)上進(jìn)行微調(diào)的。
指標(biāo)maj1@k表示對(duì)每個(gè)問(wèn)題產(chǎn)生k個(gè)樣本并進(jìn)行多數(shù)投票的評(píng)價(jià)(Wanget al., 2022)。在GSM8k上,可以發(fā)現(xiàn),盡管還沒(méi)有在數(shù)學(xué)數(shù)據(jù)上進(jìn)行微調(diào),LLaMA-65B優(yōu)于Minerva-62B。
5、Code generation評(píng)測(cè)
該工作在兩個(gè)基準(zhǔn)上評(píng)估了模型從自然語(yǔ)言描述中寫入代碼的能力,包括HumanEval(Chen等人,2021)和MBPP(Austin等人,2021)兩個(gè)測(cè)評(píng)。
其中,在HumanEval測(cè)試中,它會(huì)收到一個(gè)函數(shù)簽名,提示被格式化為自然碼,并在docstring中提供文本描述和測(cè)試。該模型需要生成一個(gè)符合描述并滿足測(cè)試案例的Python程序。
表8顯示了當(dāng)前模型與現(xiàn)有沒(méi)有經(jīng)過(guò)代碼微調(diào)的語(yǔ)言模型,即PaLM和LaMDA(Thopilan等人,2022)的比較結(jié)果,其中:pass@1的結(jié)果通過(guò)溫度為0.1的采樣,pass@100和pass@80的指標(biāo)通過(guò)溫度為0.8時(shí)得到,性能如下:
對(duì)于類似的參數(shù)數(shù)量,LLaMA優(yōu)于其他通用模型,如LaMDA和PaLM,它們沒(méi)有專門針對(duì)代碼進(jìn)行訓(xùn)練或微調(diào)。
LLaMA在HumanEval和MBPP上以13B以上的參數(shù)優(yōu)于LaMDA 137B。
即使它的訓(xùn)練時(shí)間更長(zhǎng),LLaMA 65B也優(yōu)于PaLM 62B。
6、Massive Multitask Language Understanding評(píng)測(cè)
由Hendryckset al.(2020)介紹的大規(guī)模多任務(wù)語(yǔ)言理解基準(zhǔn),或稱MMLU,由涵蓋各種知識(shí)領(lǐng)域的多項(xiàng)選擇題組成,包括人文、STEM和社會(huì)科學(xué)。
該工作在5-shot的環(huán)境中進(jìn)行了模型評(píng)估,效果如,表9所示:
LLaMA-65B在大多數(shù)領(lǐng)域都比Chinchilla-70B和PaLM-540B平均落后幾個(gè)百分點(diǎn)。
一個(gè)潛在的解釋是,該模型在預(yù)訓(xùn)練數(shù)據(jù)中使用了有限的書籍和學(xué)術(shù)論文,即ArXiv、Gutenberg和Books3,總共只有177GB,而這些模型是在高達(dá)2TB的書籍上訓(xùn)練的。
因此,Gopher、Chinchilla和PaLM所使用的大量書籍可能也解釋了為什么Gopher在這個(gè)基準(zhǔn)上優(yōu)于GPT-3,而在其他基準(zhǔn)上卻不相上下。
7、Evolution of performance during training評(píng)測(cè)
此外。該工作還跟蹤了在訓(xùn)練過(guò)程中,模型在一些問(wèn)題回答和常識(shí)性基準(zhǔn)上的表現(xiàn),并如圖1、2所示:
在大多數(shù)基準(zhǔn)上,性能很快就會(huì)提高,并與模型的訓(xùn)練困惑度相關(guān)。
不過(guò),SIQA和WinoGrande很例外,最值得注意的是,在SIQA上,該工作發(fā)現(xiàn)很多性能上的差異,這可能表明這個(gè)基準(zhǔn)并不可靠。
此外,在WinoGrande上,性能與訓(xùn)練困惑度的相關(guān)性不大:LLaMA-33B和LLaMA-65B在訓(xùn)練期間的性能相似。
五、Instruction Finetuning下帶來(lái)的性能測(cè)試
Instruction Finetuning的實(shí)驗(yàn)表明:
盡管非微調(diào)版本的LLaMA-65B已經(jīng)能夠遵循基本指令,但非常小的微調(diào)就能提高M(jìn)MLU的性能,并進(jìn)一步提高模型遵循指令的能力。
由于這不是本文的重點(diǎn),該工作只進(jìn)行了一次實(shí)驗(yàn),在模型上采用與Chung等人(2022)相同的方法訓(xùn)練一個(gè)指令模型,得到LLaMA-I。
表10顯示了微調(diào)模型LLaMA-I在MMLU評(píng)測(cè)上與現(xiàn)有的中等規(guī)模的指令微調(diào)模型,即OPT-IML(Iyer等人,2022)和Flan-PaLM系列(Chung等人,2022)的結(jié)果。
正如表中所示:
盡管這里使用的指令微調(diào)方法很簡(jiǎn)單,但該模型在MMLU上達(dá)到了68.9%。
LLaMA-I(65B)在MMLU上超過(guò)了現(xiàn)有的中等規(guī)模的指令微調(diào)模型,但離最先進(jìn)的水平有較大的差距,即GPT代碼-DAVINCI-002在MMLU上的表現(xiàn)為77.4%(數(shù)字取自Iyer等人(2022))。
六、Bias, Toxicity and Misinformation上的分析測(cè)試
大型語(yǔ)言模型已被證明可以重現(xiàn)和放大訓(xùn)練數(shù)據(jù)中存在的偏見(Sheng等人,2019年;Kurita等人,2019年),并產(chǎn)生有毒或攻擊性內(nèi)容(Gehman等人,2020年)。
由于該模型訓(xùn)練數(shù)據(jù)集包含了很大一部分來(lái)自網(wǎng)絡(luò)的數(shù)據(jù),因此,評(píng)估模型產(chǎn)生這種內(nèi)容的可能性是至關(guān)重要的。
為了了解LLaMA-65B的潛在危害,該工作在不同的基準(zhǔn)上進(jìn)行評(píng)估,這些基準(zhǔn)衡量了有毒內(nèi)容的產(chǎn)生和刻板印象的檢測(cè)。
1、RealToxicityPrompts毒性測(cè)試
語(yǔ)言模型可以產(chǎn)生有毒的語(yǔ)言,例如,侮辱、仇恨言論或威脅。一個(gè)模型可以產(chǎn)生的有毒內(nèi)容范圍非常大,這使得徹底的評(píng)估具有挑戰(zhàn)性。
最近的一些工作(Zhang等人,2022;Hoffmann等人,2022)已經(jīng)考慮了RealToxicityPrompts基準(zhǔn)(Gehman等人,2020)作為他們的模型的毒性指標(biāo)。
RealToxicityPrompts由模型必須完成的大約10萬(wàn)個(gè)提示組,;然后通過(guò)向PerspectiveAPI 3提出請(qǐng)求來(lái)自動(dòng)評(píng)估毒性分?jǐn)?shù)。
但由于無(wú)法控制第三方PerspectiveAPI使用的流程,因此很難與以前的模型進(jìn)行比較,所以僅進(jìn)行了單一模型實(shí)驗(yàn),每個(gè)提示的得分范圍從0(無(wú)毒)到1(有毒),結(jié)果如表11所示:
可以看到,毒性隨著模型的大小而增加,特別是對(duì)于尊重提示,這在以前的工作中也觀察到了(Zhang等人,2022),但Hoffmann等人(2022)是個(gè)明顯的例外,他們沒(méi)有看到Chinchilla和Gopher之間的差異。
不過(guò),這可以解釋為較大的模型Gopher的性能比Chinchilla差,這表明毒性和模型大小之間的關(guān)系可能只適用于一個(gè)模型系列。
2、CrowS-Pairs社會(huì)偏見評(píng)測(cè)
在偏見測(cè)試上,該工作在CrowSPairs(Nangia等人,2020)上進(jìn)行了評(píng)估。
這個(gè)數(shù)據(jù)集允許測(cè)量9個(gè)類別的偏見:性別、宗教、種族/膚色、性取向、年齡、國(guó)籍、殘疾、外貌和社會(huì)經(jīng)濟(jì)地位。
每個(gè)例子都由一個(gè)刻板印象和一個(gè)反刻板印象組成,該工作在zero-shot場(chǎng)景下使用兩個(gè)句子的復(fù)雜度來(lái)衡量模型對(duì)刻板印象句子的偏好。
表12中顯示了該模型與GPT-3和OPT-175B的對(duì)比結(jié)果:
從表中的結(jié)果我們發(fā)現(xiàn),該模型與這兩個(gè)模型相比,平均來(lái)說(shuō)略勝一籌。
特別的,在宗教類別中特別有偏見(與OPT-175B相比+10),其次是年齡和性別(與最佳模型相比各+6)。
因此,從數(shù)據(jù)的角度上,可以發(fā)展,盡管有多個(gè)過(guò)濾步驟,預(yù)計(jì)這些偏見來(lái)自CommonCrawl,畢竟數(shù)據(jù)太雜了。
3、WinoGender性別偏見評(píng)測(cè)
為了進(jìn)一步研究該模型在性別類別上的偏差,WinoGenderbenchmark(Rudinger等人,2018)數(shù)據(jù)集也作為了測(cè)評(píng)任務(wù)。
WinoGender是由Winogradschema構(gòu)成的,通過(guò)確定模型的共同參考解決性能是否受到代詞性別的影響來(lái)評(píng)估偏見。
更確切地說(shuō),每個(gè)句子有三個(gè)提及:一個(gè) "職業(yè)",一個(gè) "參與者 "和一個(gè) "代詞",其中代詞是共同參考職業(yè)或參與者。
該任務(wù)要求該模型確定共同參照關(guān)系,并根據(jù)句子的上下文來(lái)衡量它是否正確,其目的是揭示與職業(yè)相關(guān)的社會(huì)偏見是否被模型所捕捉。
例如,WinoGender數(shù)據(jù)集中的一個(gè)句子是 "護(hù)士通知病人,他的班將在一小時(shí)后結(jié)束。",后面的 "他的 "是指。然后,我們比較了護(hù)士和病人的連續(xù)性的困惑,用模型進(jìn)行共同參考解決。
具體的,該工作評(píng)估了使用3個(gè)代詞時(shí)的表現(xiàn):"her/her/she","his/him/he "和 "they/them/someone"(不同的選擇對(duì)應(yīng)于代詞的語(yǔ)法功能。
在表13顯示了數(shù)據(jù)集中包含的三個(gè)不同代詞的共同參考得分。
可以看到,該模型在解決 "他們/他們/某人 "代詞的共同參照方面明顯優(yōu)于 "她/她/他 "和 "他/他/他 "代詞,這在以前的工作中也有類似的觀察(Raeet al., 2021; Hoffmann et al., 2022),這可能是性別偏見的表現(xiàn)。
事實(shí)上,在 "她/他 "和 "他/他 "代詞的情況下,模型可能使用職業(yè)的多數(shù)性別來(lái)進(jìn)行共同參考解析,而不是使用句子的證據(jù)。
為了進(jìn)一步研究這一假設(shè),該工作研究了WinoGender數(shù)據(jù)庫(kù)中 "她/他 "和 "他/他 "代詞的 "疑難 "案例。這些情況對(duì)應(yīng)于代詞與職業(yè)的多數(shù)性別不匹配的句子,而職業(yè)是正確答案。
進(jìn)一步的,我們發(fā)現(xiàn),LLaMA-65B在有問(wèn)題的例子上犯了更多的錯(cuò)誤,清楚地表明它捕捉到了與性別和職業(yè)有關(guān)的社會(huì)偏見。"她/她/她 "和 "他/他 "代詞的性能下降,這表明了與性別無(wú)關(guān)的偏見。
4、TruthfulQA可信度評(píng)測(cè)
TruthfulQA(Lin等人,2021)旨在衡量一個(gè)模型的真實(shí)性,即它識(shí)別一個(gè)主張是真的能力。
Lin等人(2021)認(rèn)為 "真實(shí) "的定義是指 "關(guān)于現(xiàn)實(shí)世界的字面意義上的真實(shí)",而不是指在信仰體系或傳統(tǒng)背景下才是真實(shí)的主張。這些問(wèn)題以不同的風(fēng)格寫成,涵蓋了38個(gè)類別,并被設(shè)計(jì)成對(duì)抗性的。
表14顯示了該模型在這兩個(gè)問(wèn)題上的表現(xiàn),以衡量真實(shí)的模型和真實(shí)與信息的交集。
如上表所示:與GPT-3相比,模型在這兩個(gè)類別中得分較高,但正確答案的比率仍然很低,這表明我們的模型很可能會(huì)產(chǎn)生幻覺(jué)的錯(cuò)誤答案?!具@是大模型的一個(gè)通病】
七、Carbon footprint:算力強(qiáng)的消耗
為了進(jìn)一步說(shuō)明模型在訓(xùn)練成本上的消耗,表15對(duì)總的能源消耗和由此產(chǎn)生的碳足跡進(jìn)行了分類。
在計(jì)算方式上,采用Wu等人(2022)的公式來(lái)估計(jì)訓(xùn)練模型所需的瓦特小時(shí),以及碳排放噸數(shù),tCO2eq。
具體的,對(duì)于Wh,使用的公式是:Wh=GPU-h×(GPU功耗)×PUE,其中將電源使用效率(PUE)設(shè)定為1.1。
由此產(chǎn)生的碳排放取決于用于訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)中心的位置。
例如:
BLOOM使用的網(wǎng)格排放0.057千克二氧化碳當(dāng)量/千瓦時(shí),導(dǎo)致27噸二氧化碳當(dāng)量;
OPT的網(wǎng)格排放0.231千克二氧化碳當(dāng)量/千瓦時(shí),導(dǎo)致82噸二氧化碳當(dāng)量。
為了比較這些模型在同一數(shù)據(jù)中心訓(xùn)練時(shí)的碳排放成本,該工作采用了不考慮數(shù)據(jù)中心的位置的數(shù)據(jù),而使用美國(guó)全國(guó)平均碳強(qiáng)度系數(shù)0.385 kg CO2eq/KWh。
碳排放量的以下公式:tCO2eq = MWh × 0.385,
因此,可以對(duì)OPT和BLOOM采用相同的公式進(jìn)行公平比較。
對(duì)于OPT,該工作假設(shè)在992個(gè)A100-80B上訓(xùn)練了34天。
而在llama模型的訓(xùn)練上,使用了2048個(gè)A100-80GB,大約5個(gè)月的時(shí)間的成本,根據(jù)假設(shè),開發(fā)這些模型將花費(fèi)約2638兆瓦時(shí),總排放量為1015噸二氧化碳當(dāng)量。
八、LLaMA在實(shí)際場(chǎng)景的效果案例
1、Generations from LLaMA-65B
下面展示了一些用LLaMA-65B(沒(méi)有指令微調(diào))獲得的世代的例子。prompt提示用粗體字表示。
3、Generations from LLaMA-I
下圖展示了幾個(gè)用LLaMA-I生成的例子,即用Chung等人(2022)的基準(zhǔn)和指令數(shù)據(jù)集微調(diào)的LLaMA-65B。
總結(jié)
Meta最近提出了LLaMA大規(guī)模語(yǔ)言模型,模型參數(shù)包括從7B到65B等多個(gè)版本,根據(jù)論文的描述,其在較小模型參數(shù)上,依舊取得了在諸多任務(wù)上超越GPT3的效果。
值得注意的是,在多個(gè)任務(wù)上,LLaMA-13B的性能優(yōu)于GPT-3,而體積卻小了10倍以上,LLaMA-65B與Chinchilla-70B和PaLM-540B具有競(jìng)爭(zhēng)性,這樣是否意味著小模型參數(shù)使用大規(guī)模數(shù)據(jù)集也是一條可以研究的方向。
與以前的研究不同,該工作通過(guò)完全在公開可用的數(shù)據(jù)上進(jìn)行訓(xùn)練,而不求助于專有數(shù)據(jù)集,是可以達(dá)到最先進(jìn)的性能。
雖然,對(duì)于該工作的代碼和權(quán)重是否開源,開源的程度如何,需要我們?cè)俚鹊瓤?,但其中?duì)于數(shù)據(jù)的處理、選擇和加工等環(huán)節(jié),可以有一定的參考性,比如CCNet的流程。
感興趣的,可以進(jìn)一步研究開放的代碼,進(jìn)一步跟進(jìn)
審核編輯 :李倩
-
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
546瀏覽量
10361 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1211瀏覽量
24890 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8917瀏覽量
137926
原文標(biāo)題:Meta最新語(yǔ)言模型LLaMA論文研讀:小參數(shù)+大數(shù)據(jù)的開放、高效基礎(chǔ)語(yǔ)言模型閱讀筆記
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B
【大語(yǔ)言模型:原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗
【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)
“伶荔”(Linly) 開源大規(guī)模中文語(yǔ)言模型

Meta發(fā)布一款可以使用文本提示生成代碼的大型語(yǔ)言模型Code Llama

大語(yǔ)言模型簡(jiǎn)介:基于大語(yǔ)言模型模型全家桶Amazon Bedrock
LLaMA 2是什么?LLaMA 2背后的研究工作
Llama 3 語(yǔ)言模型應(yīng)用
Llama 3 模型與其他AI工具對(duì)比
用Ollama輕松搞定Llama 3.2 Vision模型本地部署

評(píng)論