ChatGPT的成功帶動(dòng)整個(gè)AIGC產(chǎn)業(yè)的發(fā)展,尤其是LLM(大型語(yǔ)言模型,大語(yǔ)言模型)、NLP、高性能計(jì)算和深度學(xué)習(xí)等領(lǐng)域。LLM的發(fā)展將為全球和中國(guó)AI芯片、AI服務(wù)器市場(chǎng)的增長(zhǎng)提供強(qiáng)勁動(dòng)力,據(jù)估算,LLM將為全球和中國(guó)AI服務(wù)器帶來約891.2億美元和338.2億美元的市場(chǎng)空間。
國(guó)外廠商在LLM領(lǐng)域具有領(lǐng)先優(yōu)勢(shì),但我國(guó)LLM產(chǎn)品也在快速發(fā)展,2023年以來多家廠商推出了自研的通用LLM,國(guó)產(chǎn)LLM在各行業(yè)的應(yīng)用以及生態(tài)建設(shè)也取得積極進(jìn)展。雖然我國(guó)LLM相比GPT-4或仍有一定差距,但在短期內(nèi)達(dá)到或接近ChatGPT的水平是可以預(yù)期的。
值得關(guān)注是 AMD 上周推出 MI300 系列加速卡,旨在與英偉達(dá)展開競(jìng)爭(zhēng)。MI300 系列是 AMD 為 AI 和高性能計(jì)算打造的一系列最新 APU 加速卡,包括MI300A 和 MI300X。其中 MI300A 集成了 CPU 和 GPU,而 MI300X 則是一款專門面向生成式 AI 推出的加速器,對(duì)標(biāo)英偉達(dá) H100。從性能參數(shù)看,MI300系列產(chǎn)品足以比肩甚至超越英偉達(dá)的高端加速卡,但總的來說,短期仍然難以撼動(dòng)英偉達(dá)在該領(lǐng)域的絕對(duì)領(lǐng)先地位。
展望下半年,我國(guó)大模型產(chǎn)品已經(jīng)初步具備商用能力。北上深三地利好通用人工智能發(fā)展政策的發(fā)布,彰顯我國(guó)對(duì)AIGC發(fā)展的重視和支持,同時(shí)將為其他城市發(fā)布類似政策帶來示范效應(yīng)。在政策與技術(shù)的共振下,我國(guó)AIGC產(chǎn)業(yè)未來發(fā)展前景廣闊。
如今,國(guó)內(nèi)在LLM模型相關(guān)技術(shù)方面距離最先進(jìn)技術(shù)的差距進(jìn)一步加大。在Bert出現(xiàn)之后的一到兩年間,國(guó)內(nèi)在這塊的技術(shù)追趕速度很快的同時(shí)也提出了一些很好的改進(jìn)模型。差距拉開的分水嶺應(yīng)該是在 GPT 3.0出來之后,也就是2020年年中左右。在當(dāng)時(shí),其實(shí)只有少數(shù)的人覺察到GPT 3.0它不僅僅是一項(xiàng)具體的技術(shù),更能體現(xiàn)出LLM應(yīng)該往何處去的一個(gè)發(fā)展理念。
大型語(yǔ)言模型(LLM)是一種低成本、高效率的技術(shù),它在自然語(yǔ)言處理(NLP)和人工智能(AI)領(lǐng)域引起了廣泛關(guān)注。其中,ChatGPT作為L(zhǎng)LM的代表,是否帶來了NLP和AI領(lǐng)域的研究范式轉(zhuǎn)變?如果是,將會(huì)產(chǎn)生怎樣的影響?LLM通過從海量數(shù)據(jù)中學(xué)習(xí),積累了豐富的知識(shí)。那么,LLM是如何存取這些知識(shí)的呢?隨著LLM規(guī)模逐步增大,它將對(duì)研究和應(yīng)用產(chǎn)生怎樣的影響?此外,上下文學(xué)習(xí)(In Context Learning)是一項(xiàng)神秘的技術(shù),它與指令(Instruct)有著密切的關(guān)系。LLM是否具備推理能力?思維鏈(CoT)又是如何實(shí)現(xiàn)的呢?接下來,將詳細(xì)介紹以上提到的方面。
LLMs的背景、能力
一、LLM的背景
LLM(大型語(yǔ)言模型,大語(yǔ)言模型)是指使用大量文本數(shù)據(jù)訓(xùn)練的語(yǔ)言模型,包含數(shù)千億或更多的參數(shù)。采用 Transformer 架構(gòu)和語(yǔ)言建模預(yù)訓(xùn)練目標(biāo),但相較于小型模型,LLM 模型大小、預(yù)訓(xùn)練數(shù)據(jù)和總計(jì)算量更大。這使得它們可以更好地理解自然語(yǔ)言,并生成高質(zhì)量的文本。LLM 的容量改進(jìn)可以用標(biāo)度律進(jìn)行部分地描述,但某些能力只有在模型大小超過某個(gè)水平時(shí)才能觀察到。
二、LLM的涌現(xiàn)能力
LLM 的涌現(xiàn)能力是指在小型模型中不存在但在大型模型中出現(xiàn)的能力,是 LLM 與以前的 PLM 區(qū)分的最顯著特征之一。當(dāng)規(guī)模達(dá)到一定水平時(shí),LLM 的性能顯著高于隨機(jī)狀態(tài),這種新模式與物理學(xué)中的相變現(xiàn)象密切相關(guān)。LLM 的涌現(xiàn)能力可以與一些復(fù)雜的任務(wù)有關(guān),人們更關(guān)心的是它的通用能力。
LLM 的三種代表性的涌現(xiàn)能力包括上下文學(xué)習(xí)、指令遵循和循序漸進(jìn)的推理。其中,上下文學(xué)習(xí)能力使得語(yǔ)言模型可以通過完成輸入文本的詞序列來生成測(cè)試實(shí)例的預(yù)期輸出;指令遵循能力使得 LLM 能夠在不使用顯式樣本的情況下通過理解任務(wù)指令來執(zhí)行新任務(wù),從而提高泛化能力;循序漸進(jìn)的推理能力使得 LLM 可以通過利用涉及中間推理步驟的 prompt 機(jī)制來解決復(fù)雜任務(wù)得出最終答案。
NLP研究范式的轉(zhuǎn)換從淺層語(yǔ)義到深層語(yǔ)義的建模
在過去的10年中,NLP領(lǐng)域可能經(jīng)歷了兩次重要的研究范式轉(zhuǎn)換。
一、從深度學(xué)習(xí)到兩階段預(yù)訓(xùn)練模型
NLP領(lǐng)域引入深度學(xué)習(xí)大致從2013年開始,直到GPT 3.0出現(xiàn)之前(2020年5月左右)。在Bert和GPT模型出現(xiàn)之前,NLP領(lǐng)域流行的技術(shù)主要是深度學(xué)習(xí)模型,主要依托于改進(jìn)的LSTM和CNN模型作為特征抽取器,以及Sequence to Sequence+Attention作為總體技術(shù)框架。然而,這些雖然增加了模型層深,但在解決具體任務(wù)上的效果仍然不夠成功。這主要是由于任務(wù)訓(xùn)練數(shù)據(jù)量有限和LSTM/CNN特征抽取器表達(dá)能力不夠強(qiáng)所致。
直到Bert和GPT這兩個(gè)預(yù)訓(xùn)練模型的出現(xiàn),才代表了NLP領(lǐng)域的一個(gè)技術(shù)飛躍,并帶來了整個(gè)領(lǐng)域研究范式的轉(zhuǎn)換。這種范式轉(zhuǎn)換帶來的影響主要體現(xiàn)在兩個(gè)方面:一是部分NLP研究子領(lǐng)域的衰退乃至逐步消亡;二是NLP不同子領(lǐng)域的技術(shù)方法和技術(shù)框架日趨統(tǒng)一,技術(shù)?;臼諗康絻煞N技術(shù)模式中。
1、部分NLP研究子領(lǐng)域的衰退乃至逐步消亡
NLP是一個(gè)宏觀研究領(lǐng)域的統(tǒng)稱,里面有五花八門具體的子領(lǐng)域與子方向,如果仔細(xì)分析,從任務(wù)的性質(zhì)角度,可以把這些任務(wù)分成兩大類:中間任務(wù)和最終任務(wù)。
1)中間任務(wù)
典型的中間任務(wù)主要包括中文分詞、詞性標(biāo)注、NER、句法分析、指代消解、語(yǔ)義Parser等,這類任務(wù)一般并不解決應(yīng)用中的實(shí)際需求,大多數(shù)是作為那些解決實(shí)際需求任務(wù)的中間階段或者輔助階段存在。比如幾乎沒有需求說,要一個(gè)句法Parser,把這個(gè)句子的句法分析樹給用戶看看,用戶不需要看到這些NLP的中間階段處理結(jié)果,只需關(guān)心某個(gè)具體任務(wù)有沒有干好。
2)最終任務(wù)
這類任務(wù)(文本分類、文本相似性計(jì)算、機(jī)器翻譯、文本摘要等)的特點(diǎn)是每個(gè)子領(lǐng)域都解決某個(gè)實(shí)際需求,任務(wù)結(jié)果基本能直接呈現(xiàn)給用戶,比如用戶確實(shí)存在給你一句英文,告訴他中文是什么的需求。
按理說,“中間任務(wù)”不應(yīng)該出現(xiàn),而之所以會(huì)存在的原因是NLP技術(shù)發(fā)展水平不夠高。在技術(shù)發(fā)展早期階段,由于當(dāng)時(shí)技術(shù)相對(duì)落后,很難一步做好有難度的最終任務(wù)。如機(jī)器翻譯,早期技術(shù)要做好機(jī)器翻譯是很困難的,于是科研人員就把難題分而治之,分解成分詞、詞性標(biāo)注、句法分析等各種中間階段,先把每個(gè)中間階段做好,然后再拼起來完成最終任務(wù)。
自從Bert/GPT出現(xiàn)之后,就沒有必要做中間任務(wù)。因?yàn)橥ㄟ^大量數(shù)據(jù)的預(yù)訓(xùn)練,Bert/GPT已經(jīng)把這些中間任務(wù)作為語(yǔ)言學(xué)特征,吸收到Transformer的參數(shù)里,此時(shí)完全可以端到端地直接解決那些最終任務(wù),而無(wú)須對(duì)這種中間過程專門建模。
2、不同研究方向技術(shù)路線的統(tǒng)一
除了“中間任務(wù)”,NLP任務(wù)可以劃分為兩大類型:自然語(yǔ)言理解和自然語(yǔ)言生成。自然語(yǔ)言理解任務(wù)包括文本分類、句子關(guān)系判斷、情感傾向判斷等分類任務(wù),模型根據(jù)輸入文本判斷其屬于哪個(gè)類別。自然語(yǔ)言生成任務(wù)包括聊天機(jī)器人、機(jī)器翻譯、文本摘要、問答系統(tǒng)等生成任務(wù),模型根據(jù)輸入文本生成相應(yīng)輸出文本。
自Bert/GPT模型出現(xiàn)后,NLP領(lǐng)域出現(xiàn)了技術(shù)統(tǒng)一趨向,特征抽取器逐漸從LSTM/CNN統(tǒng)一到Transformer上,多數(shù)任務(wù)采用預(yù)訓(xùn)練+微調(diào)或Zero/Few Shot Prompt模式。自然語(yǔ)言理解任務(wù)采用Bert為代表的雙向語(yǔ)言模型預(yù)訓(xùn)練+Fine-tuning模式,自然語(yǔ)言生成任務(wù)采用GPT 2.0為代表的自回歸語(yǔ)言模型+Zero/Few Shot Prompt模式。這兩種模式背后的發(fā)展思路和未來發(fā)展方向不同,但很多人低估了GPT模式的潛力。GPT模式的自回歸語(yǔ)言模型可以生成高質(zhì)量的文本,能夠應(yīng)用于多個(gè)自然語(yǔ)言生成任務(wù)且具有良好的遷移能力。相比之下,Bert模式在生成任務(wù)上表現(xiàn)較差且Fine-tuning方式需要大量標(biāo)注數(shù)據(jù),不易適應(yīng)新任務(wù)。
二、從預(yù)訓(xùn)練模型走向通用人工智能 (AGI,Artificial General Intelligence)
這次范式轉(zhuǎn)換涵蓋的時(shí)間大致在GPT3.0出現(xiàn)后,從2020年6月左右開始一直持續(xù)到現(xiàn)在。ChatGPT轉(zhuǎn)換的關(guān)鍵節(jié)點(diǎn),但在InstructGPT出現(xiàn)之前,LLM處于范式轉(zhuǎn)換的過渡期。
1、以GPT 3.0為代表的“自回歸語(yǔ)言模型+Prompting”模式占據(jù)統(tǒng)治地位
在預(yù)訓(xùn)練模型發(fā)展的早期,技術(shù)框架收斂到Bert模式和GPT模式這兩種不同的技術(shù)范型,而且人們普遍更看好Bert模式一些,相當(dāng)多數(shù)的后續(xù)技術(shù)改進(jìn),都是沿著Bert那條路走。但是,隨著技術(shù)的繼續(xù)發(fā)展就發(fā)現(xiàn)目前規(guī)模最大的LLM模型,幾乎清一色都是類似GPT 3.0的“自回歸語(yǔ)言模型+Prompting”模式(如GPT-3、PaLM、GLaM、Gopher、Chinchilla、MT-NLG、LaMDA等)。為什么會(huì)這樣呢?背后一定有其必然性,主要源于兩個(gè)原因。
1)Google的T5模型,在形式上統(tǒng)一自然語(yǔ)言理解和自然語(yǔ)言生成任務(wù)的外在表現(xiàn)形式
如上圖所示,T5模型中的文本分類問題和判斷句子相似性的回歸或分類問題,都是典型的自然語(yǔ)言理解問題。在T5模型中,這些自然語(yǔ)言理解問題的輸入輸出形式與生成問題保持一致,可以將分類問題轉(zhuǎn)換成讓LLM模型生成對(duì)應(yīng)類別的字符串,從而實(shí)現(xiàn)理解和生成任務(wù)在表現(xiàn)形式上的完全統(tǒng)一。這表明自然語(yǔ)言生成任務(wù)在表現(xiàn)形式上可以兼容自然語(yǔ)言理解任務(wù),而反過來則很難做到這一點(diǎn)。這樣做的好處是,同一個(gè)LLM生成模型可以解決幾乎所有NLP問題。相比之下,如果仍然采用Bert模式,LLM模型則無(wú)法很好地處理生成任務(wù)。
2)如果要以零示例提示語(yǔ)(zero shot prompting)或少數(shù)示例提示語(yǔ)(few shot prompting)的方式做好任務(wù)就必須要采取GPT模式
研究表明,以fine-tuning方式解決下游任務(wù)時(shí),Bert模式的效果優(yōu)于GPT模式。但是,如果是以zero shot/few shot prompting模式解決下游任務(wù),則GPT模式的效果要優(yōu)于Bert模式。這說明,生成模型更容易完成zero shot/few shot prompting方式的任務(wù),而Bert模式在這種方式下做任務(wù)時(shí)存在劣勢(shì)。
那么問題來了:為什么要追求zero shot/few shot prompting方式來做任務(wù)呢?要解釋清楚這個(gè)問題,首先需要搞清楚另外一個(gè)問題:什么樣的LLM模型最理想的?
對(duì)于LLM模型來說,首先,應(yīng)該具備強(qiáng)大的自主學(xué)習(xí)能力。如果將世界上所有可獲得的文本、圖片等不同類型的數(shù)據(jù)輸入模型中,應(yīng)該能夠自動(dòng)學(xué)習(xí)其中包含的所有知識(shí)點(diǎn),學(xué)習(xí)過程不需要人的介入,并且能夠靈活應(yīng)用所學(xué)知識(shí)來解決實(shí)際問題。由于數(shù)據(jù)量龐大,要吸收所有知識(shí),模型必然需要具備大量的參數(shù)來存儲(chǔ)知識(shí),因此這個(gè)模型必然會(huì)是一個(gè)巨無(wú)霸模型。
其次,LLM模型應(yīng)該能夠解決NLP任何子領(lǐng)域的問題,而不僅限于某個(gè)有限的領(lǐng)域,甚至應(yīng)該能夠響應(yīng)NLP之外的其他領(lǐng)域的問題。此外,當(dāng)使用LLM模型解決某個(gè)具體領(lǐng)域的問題時(shí),應(yīng)該使用人類習(xí)慣的表達(dá)方式,即LLM應(yīng)該理解人類的命令。這體現(xiàn)讓LLM適應(yīng)人類,而不是讓人去適應(yīng)LLM模型。人適應(yīng)LLM的典型例子是,人們會(huì)費(fèi)盡心思地嘗試各種不同的prompt,以試圖找到好的提示語(yǔ),以便更好地解決手頭問題。
為什么要追求zero shot/few shot prompting這種方式來解決任務(wù)?主要有以下兩個(gè)原因。
1)理想中的LLM模型規(guī)模必然非常巨大,只有極少數(shù)機(jī)構(gòu)有能力制作出這個(gè)模型或改動(dòng)模型參數(shù)。任務(wù)需求方卻千千萬(wàn)萬(wàn),其中大多數(shù)是中小機(jī)構(gòu)甚至個(gè)人即使模型開源,也無(wú)法部署這個(gè)模型,更不用說再使用Fine-tuning這種模式去修改模型參數(shù)了。因此應(yīng)該追求不修正模型參數(shù)就能讓任務(wù)需求方完成任務(wù)的方式,即應(yīng)該采取prompt模式完成任務(wù),而非Fine-tuning模式。模型制作方則將LLM作為公用服務(wù),以LLM as Service的模式運(yùn)行。
作為服務(wù)支持方,考慮到用戶需求的多樣性,LLM模型制作方更應(yīng)該追求讓LLM能夠完成盡可能多類型的任務(wù),這是附帶的影響,也是為何超級(jí)大模型一定會(huì)追求走向AGI的現(xiàn)實(shí)因素。
2)zero shot prompting也好,few shot prompting也好,甚至促進(jìn)LLM推理能力的思維鏈(CoT, Chain of Thought)Prompting也好,都是現(xiàn)有技術(shù)中的一種。具體而言,zero shot prompting的初衷是直接用人類常用的任務(wù)表述方式讓LLM做事情,但是發(fā)現(xiàn)LLM并不能很好地理解,效果也不好。經(jīng)過繼續(xù)研究,人們轉(zhuǎn)而發(fā)現(xiàn),對(duì)于某項(xiàng)任務(wù),如果給LLM幾個(gè)示例,用這些示例來代表任務(wù)描述,效果會(huì)比zero shot prompting好,于是都開始研究更好的few shot prompting技術(shù)。
可以理解為,本來希望LLM能夠用人類常用的命令方式來執(zhí)行某個(gè)任務(wù),但是目前技術(shù)還做不到,所以退而求其次,用這些替代技術(shù)來表達(dá)人類的任務(wù)需求。如果理解了上述邏輯,很容易得出如下結(jié)論:few shot prompting(也被稱為In Context Learning)只是一種過渡時(shí)期的技術(shù)。如果能夠更自然地去描述一個(gè)任務(wù),而且LLM可以理解,那么肯定會(huì)毫不猶豫地拋棄這些過渡期的技術(shù),原因很明顯,用這些方法來描述任務(wù)需求,并不符合人類的使用習(xí)慣。
2、讓LLM適配人的新型交互接口
ChatGPT是一種能力強(qiáng)大、善解人意的技術(shù)方法,最接近理想的LLM模型。ChatGPT的強(qiáng)大能力主要得益于GPT 3.5模型,而非人工標(biāo)注數(shù)據(jù)。雖然加入了人工標(biāo)注數(shù)據(jù),但這些數(shù)據(jù)量級(jí)只有數(shù)萬(wàn),對(duì)GPT 3.5的基礎(chǔ)能力增強(qiáng)作用微乎其微。
ChatGPT的最大貢獻(xiàn)在于它基本實(shí)現(xiàn)了理想LLM的接口層,讓LLM適配人的習(xí)慣命令表達(dá)方式,而不是反過來讓人去適配LLM。這增加了LLM的易用性和用戶體驗(yàn),是一種更符合人類表達(dá)習(xí)慣的人和LLM進(jìn)行交互的人機(jī)接口技術(shù)。ChatGPT的技術(shù)貢獻(xiàn)必將啟發(fā)后續(xù)的LLM模型,在易用人機(jī)接口方面繼續(xù)做進(jìn)一步的工作。
3、很多NLP子領(lǐng)域不再具備獨(dú)立研究?jī)r(jià)值
范式轉(zhuǎn)換將會(huì)改變NLP領(lǐng)域的格局,許多獨(dú)立存在的研究領(lǐng)域?qū)⒈籐LM技術(shù)體系所納入,逐步消失。雖然許多“中間任務(wù)”不再需要獨(dú)立存在,但是大多數(shù)“最終任務(wù)”仍將作為獨(dú)立領(lǐng)域存在,只是在“預(yù)訓(xùn)練+fine-tuning”框架下,陸續(xù)提出新的改進(jìn)方案。
研究表明,隨著LLM模型規(guī)模的增大,許多NLP任務(wù)的效果會(huì)得到大幅提升。因此,很多領(lǐng)域所謂“獨(dú)有”的問題,只是因?yàn)槿狈︻I(lǐng)域知識(shí)而表現(xiàn)出來的外在表象。只要提供更多的領(lǐng)域數(shù)據(jù)給LLM,讓它自己學(xué)習(xí)更多知識(shí),這些問題就可以被很好地解決。未來的技術(shù)發(fā)展趨勢(shì)應(yīng)該是追求規(guī)模越來越大的LLM模型,通過增加預(yù)訓(xùn)練數(shù)據(jù)的多樣性,來涵蓋越來越多的領(lǐng)域。研究重心將投入到如何構(gòu)建理想LLM模型,而非解決某個(gè)領(lǐng)域的具體問題。因此,越來越多NLP的子領(lǐng)域?qū)⒈患{入LLM技術(shù)體系,逐步消失。
判斷某個(gè)具體領(lǐng)域是否需要立即停止獨(dú)立研究,可以采取以下兩種方法:一是判斷LLM的研究效果是否超過人類表現(xiàn),對(duì)于那些LLM效果已超過人類表現(xiàn)的研究領(lǐng)域,已無(wú)獨(dú)立研究的必要。二是對(duì)比兩種模式的任務(wù)效果,如果few-shot prompting或instruct-based方法的效果達(dá)到或超過用較大的領(lǐng)域?qū)S脭?shù)據(jù)進(jìn)行Fine-tuning的效果,則意味著這個(gè)領(lǐng)域沒有繼續(xù)獨(dú)立存在的必要性。
如果這個(gè)猜測(cè)成立,將意味著很多NLP領(lǐng)域的研究人員面臨著往何處去的選擇,是繼續(xù)做領(lǐng)域獨(dú)有問題呢?還是放棄這種方式,轉(zhuǎn)而去建設(shè)更好的LLM?
4、更多NLP之外的研究領(lǐng)域?qū)⒈患{入LLM技術(shù)體系
理想中的LLM應(yīng)該是一種通用的人工智能模型,不應(yīng)該被限制在某一個(gè)學(xué)科領(lǐng)域內(nèi)。ChatGPT的出現(xiàn)證明了這種追求AGI的可行性,而現(xiàn)在是拋開“領(lǐng)域?qū)W科”這種思維束縛的時(shí)候了。除展示出在各種NLP任務(wù)中流暢的對(duì)話形式,ChatGPT還具備強(qiáng)大的代碼能力。
LLM技術(shù)正在向外擴(kuò)展,其中一個(gè)自然的方向是圖像處理和多模態(tài)任務(wù)。目前已經(jīng)有一些工作在嘗試將多模態(tài)融入LLM中,以實(shí)現(xiàn)通用人機(jī)接口的功能,例如DeepMind的Flamingo和微軟的“Language Models are General-Purpose Interfaces”。
圖像領(lǐng)域的預(yù)訓(xùn)練模型應(yīng)用到下游任務(wù)的效果收益遠(yuǎn)不如NLP領(lǐng)域的預(yù)訓(xùn)練模型顯著,這可能是因?yàn)閳D像預(yù)處理模型仍需深入探索,以釋放圖像數(shù)據(jù)的潛力。因此,圖像處理領(lǐng)域被融入LLM的時(shí)間可能會(huì)比想象的要慢。當(dāng)然,如果圖像領(lǐng)域的預(yù)訓(xùn)練模型被趟通,它們很可能會(huì)被融入到大型LLM中,直接完成終端任務(wù),類似于NLP領(lǐng)域的局面。
除了圖像和多模態(tài),其他領(lǐng)域也將逐漸被納入到LLM中,這是具備高價(jià)值的研究主題。范式轉(zhuǎn)換的個(gè)人思考表明,LLM技術(shù)的主要技術(shù)進(jìn)展可以分為兩大類:一類是關(guān)于LLM模型如何從數(shù)據(jù)中吸收知識(shí),也包括模型規(guī)模增長(zhǎng)對(duì)LLM吸收知識(shí)能力帶來的影響。第二類是關(guān)于人如何使用LLM內(nèi)在能力來解決任務(wù)的人機(jī)接口,包括In Context Learning和Instruct兩種模式。思維鏈(CoT)prompting這種LLM推理技術(shù),本質(zhì)上也屬于In Context Learning。
從無(wú)盡數(shù)據(jù)導(dǎo)海量知識(shí)
目前的研究結(jié)果表明,Transformer作為一個(gè)特征抽取器已經(jīng)足夠強(qiáng)大,不需要進(jìn)行特別的改進(jìn)。預(yù)訓(xùn)練過程讓Transformer學(xué)到了什么?知識(shí)是如何存儲(chǔ)的?如何修正錯(cuò)誤的知識(shí)?這些問題是當(dāng)前研究的重點(diǎn)。本節(jié)講述這方面的研究進(jìn)展。
一、LLM學(xué)到了什么知識(shí)
LLM通過學(xué)習(xí)海量自由文本,獲得了大量的知識(shí),可以將這些知識(shí)粗略地分為語(yǔ)言類知識(shí)和世界知識(shí)兩大類。語(yǔ)言類知識(shí)包括詞法、詞性、句法和語(yǔ)義等,有助于人類或機(jī)器理解自然語(yǔ)言。研究表明,LLM可以學(xué)習(xí)各種層次類型的語(yǔ)言學(xué)知識(shí),并且這些知識(shí)存儲(chǔ)在Transformer的低層和中層。世界知識(shí)則包括真實(shí)事件(事實(shí)型知識(shí))和常識(shí)性知識(shí)(Common Sense Knowledge)。
研究表明,LLM可以從訓(xùn)練數(shù)據(jù)中吸收大量世界知識(shí),并且這些知識(shí)主要分布在Transformer的中層和高層,隨著模型層數(shù)的增加,能夠?qū)W習(xí)到的知識(shí)數(shù)量逐漸以指數(shù)級(jí)增加。對(duì)于Bert類型的語(yǔ)言模型來說,只用1000萬(wàn)到1億單詞的語(yǔ)料,就能學(xué)好句法語(yǔ)義等語(yǔ)言學(xué)知識(shí),但是要學(xué)習(xí)事實(shí)類知識(shí),則需要更多的訓(xùn)練數(shù)據(jù)。隨著增加訓(xùn)練數(shù)據(jù)量,預(yù)訓(xùn)練模型在各種下游任務(wù)中效果越好,這說明了從增量的訓(xùn)練數(shù)據(jù)中學(xué)到的更主要是世界知識(shí)。
二、LLM如何存取知識(shí)
LLM是一種基于Transformer結(jié)構(gòu)的語(yǔ)言模型,可以從大量的自由文本中學(xué)習(xí)到豐富的語(yǔ)言類和世界知識(shí)。但對(duì)于具體的某條知識(shí),LLM是如何存儲(chǔ)和提取的呢?從Transformer的結(jié)構(gòu)來看,模型參數(shù)由兩部分構(gòu)成:多頭注意力(MHA)部分占了大約參數(shù)總體的三分之一,三分之二的參數(shù)集中在FFN結(jié)構(gòu)中。
FFN的第一層是一個(gè)MLP寬隱層,也就是Key層;第二層是一個(gè)MLP窄隱層,也就是Value層。FFN的輸入層實(shí)際上是某個(gè)單詞對(duì)應(yīng)的MHA的輸出結(jié)果Embedding,也就是通過Self Attention,將整個(gè)句子有關(guān)的輸入上下文集成到一起的Embedding,代表了整個(gè)輸入句子的整體信息。
Key層的每個(gè)神經(jīng)元節(jié)點(diǎn),記載了一對(duì)信息。比如對(duì)于FFN第一個(gè)隱層的第i個(gè)節(jié)點(diǎn)ki,也許就是它記載了<北京,is-capital-of,中國(guó)>這條知識(shí)。ki節(jié)點(diǎn)對(duì)應(yīng)的Key向量,其實(shí)指的是節(jié)點(diǎn)ki和輸入層每個(gè)節(jié)點(diǎn)的權(quán)重向量;而對(duì)應(yīng)的Value向量,指的是節(jié)點(diǎn)ki和FFN第二層的Value層每個(gè)節(jié)點(diǎn)形成連接的權(quán)重向量。
每個(gè)神經(jīng)元的Key向量,用于識(shí)別輸入中的某種語(yǔ)言或者知識(shí)模式,是一種模式探測(cè)器。如果輸入中包含它要檢測(cè)的某種模式,那么輸入向量和ki節(jié)點(diǎn)的key權(quán)重進(jìn)行向量?jī)?nèi)積計(jì)算,加上Relu,形成ki的大數(shù)值響應(yīng),意味著ki檢測(cè)到了這個(gè)模式,于是再把這個(gè)響應(yīng)值,通過ki節(jié)點(diǎn)的Value權(quán)重向量向FFN第二層傳播。這等價(jià)于將Value向量的值,用響應(yīng)值加權(quán),然后傳遞并體現(xiàn)到第二層Value層每個(gè)節(jié)點(diǎn)的輸出上。
這樣,F(xiàn)FN的正向傳播計(jì)算過程,看起來就像是通過Key檢測(cè)到某種知識(shí)模式,然后取出對(duì)應(yīng)的Value,并把Value體現(xiàn)在FFN的第二層輸出上。當(dāng)然,F(xiàn)FN第二層每個(gè)節(jié)點(diǎn),會(huì)收集FFN的Key層所有節(jié)點(diǎn)信息,所以是一種混合響應(yīng),而Value層所有節(jié)點(diǎn)的混合響應(yīng),可以解讀為代表輸出單詞的概率分布信息。把FFN看成Key-Value存儲(chǔ)器這種思路,雖然可能不是最終的正確答案,但是距離最終正確答案的距離,估計(jì)也不太遠(yuǎn)。
三、如何修正LLM里存儲(chǔ)的知識(shí)
當(dāng)使用LLM進(jìn)行自然語(yǔ)言處理時(shí),可能會(huì)遇到一些過時(shí)或錯(cuò)誤的知識(shí)。為了解決這個(gè)問題,可以使用三種不同的方法來修正LLM中存儲(chǔ)的知識(shí)。
1、從訓(xùn)練數(shù)據(jù)的源頭開始修正知識(shí)
通過追蹤某條知識(shí)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)源頭定位到是哪些數(shù)據(jù)導(dǎo)致LLM學(xué)會(huì)知識(shí)。然后刪除數(shù)據(jù)源,重新預(yù)訓(xùn)練整個(gè)LLM模型,以達(dá)到刪除LLM中相關(guān)知識(shí)的目的。但這種方法在少量多次的常規(guī)知識(shí)修正場(chǎng)景中不適用。
2、通過fine-tuning來修正知識(shí)
根據(jù)要修正成的新知識(shí)來構(gòu)建訓(xùn)練數(shù)據(jù),讓LLM模型在練數(shù)據(jù)上做fine-tuning,以指導(dǎo)LLM記住新的知識(shí),遺忘舊知識(shí)。但是會(huì)有忘掉該忘的知識(shí),還會(huì)忘掉不該忘的知識(shí)現(xiàn)象存在,導(dǎo)致這么做之后有些下游任務(wù)效果下降。此外成本也相當(dāng)高。
3、直接修改LLM的模型參數(shù)來修正知識(shí)
通過定位存儲(chǔ)知識(shí)的具體位置,強(qiáng)行調(diào)整FFN中對(duì)應(yīng)的模型參數(shù),將舊知識(shí)替換成新的知識(shí)。然而,這種方法需要解決兩個(gè)關(guān)鍵問題。首先需要知道如何在LLM參數(shù)空間中定位某條知識(shí)的具體存儲(chǔ)位置。其次需要知道如何修正模型參數(shù),以實(shí)現(xiàn)舊知識(shí)到新知識(shí)的修正。
理解修正LLM知識(shí)的過程對(duì)于更深入理解LLM的內(nèi)部運(yùn)作機(jī)制是很有幫助的。雖然三種方法各有優(yōu)缺點(diǎn),但都可以幫助修正LLM中的過時(shí)或錯(cuò)誤的知識(shí),提高LLM在自然語(yǔ)言處理任務(wù)中的表現(xiàn)。
當(dāng)LLM越來越大時(shí)會(huì)發(fā)生什么
近年來,LLM模型規(guī)模不斷增長(zhǎng),目前效果最好的LLM模型,其參數(shù)規(guī)模大都超過了千億(100B)參數(shù)規(guī)模。如OpenAI的GPT-3規(guī)模為175B,Google的LaMDA規(guī)模為137B,PaLM的規(guī)模為540B,DeepMind的Gogher規(guī)模為280B等。國(guó)內(nèi)也有中文巨型模型,比如清華&智譜GLM規(guī)模130B,華為“盤古”規(guī)模200B,百度“文心”規(guī)模260B,浪潮“源1.0”規(guī)模245B。
那么問題來了,隨著LLM模型規(guī)模的不斷增長(zhǎng)會(huì)發(fā)生些什么呢?預(yù)訓(xùn)練模型的應(yīng)用往往是兩階段的:預(yù)訓(xùn)練階段和具體場(chǎng)景應(yīng)用階段。在預(yù)訓(xùn)練階段,LLM模型的優(yōu)化目標(biāo)是交叉熵,對(duì)于像GPT這種自回歸語(yǔ)言模型來說,也就是看LLM是否正確預(yù)測(cè)下一個(gè)單詞。而在場(chǎng)景應(yīng)用階段,一般要看具體場(chǎng)景的評(píng)價(jià)指標(biāo)。通常,LLM模型在預(yù)訓(xùn)練階段的指標(biāo)越好解決下游任務(wù)的能力就越強(qiáng)。然而,事實(shí)并非完全如此。
現(xiàn)有研究表明,預(yù)訓(xùn)練階段的優(yōu)化指標(biāo)確實(shí)和下游任務(wù)表現(xiàn)出正相關(guān)關(guān)系,但并非完全正相關(guān)。也就是說,僅僅看預(yù)訓(xùn)練階段的指標(biāo)來判斷一個(gè)LLM模型是否夠好是不夠的。因此需要在模型的預(yù)訓(xùn)練階段和應(yīng)用階段都進(jìn)行充分的評(píng)估和測(cè)試。
在預(yù)訓(xùn)練階段,OpenAI和DeepMind的研究表明,同時(shí)增加訓(xùn)練數(shù)據(jù)量和模型參數(shù)是最優(yōu)的選擇,而只單獨(dú)增加其中某一個(gè)是不夠好的。DeepMind認(rèn)為,訓(xùn)練數(shù)據(jù)量和模型參數(shù)是同等重要的,因此應(yīng)該同比例地增加。比如,如果用于訓(xùn)練LLM的算力總預(yù)算增加了10倍,那么應(yīng)該增加3.3倍的模型參數(shù)量,3.3倍的訓(xùn)練數(shù)據(jù)量,這樣模型效果才最好。而對(duì)于Chinchilla模型,它選擇增加4倍的訓(xùn)練數(shù)據(jù),但是將模型參數(shù)降低為Gopher的四分之一,大約為70B。這樣做的結(jié)果是,Chinchilla的預(yù)訓(xùn)練指標(biāo)和許多下游任務(wù)指標(biāo)都要優(yōu)于規(guī)模更大的Gopher。這表明,可以選擇放大訓(xùn)練數(shù)據(jù),并同比例地減少LLM模型參數(shù),以達(dá)到在不降低模型效果的前提下,極大縮小模型規(guī)模的目的。
從LLM解決下游具體任務(wù)效果的角度來看,隨著模型規(guī)模增大,不同類型的任務(wù)有不同的表現(xiàn)。比如,對(duì)于簡(jiǎn)單的任務(wù),如語(yǔ)言模型的困惑度,隨著模型規(guī)模增大,模型效果會(huì)不斷提升。在OpenAI的研究中,當(dāng)訓(xùn)練數(shù)據(jù)量從12B增加到800B時(shí),GPT-3模型的困惑度從3.15降低到1.28。
對(duì)于中等難度的任務(wù),如問答、文本分類等,隨著模型規(guī)模增大,模型效果會(huì)先提升后趨于平穩(wěn)。在OpenAI的研究中,當(dāng)訓(xùn)練數(shù)據(jù)量從12B增加到800B時(shí),GPT-3模型在LAMBADA和SuperGLUE等任務(wù)上的表現(xiàn)都有所提升,但是提升幅度逐漸減小。對(duì)于復(fù)雜的任務(wù),如機(jī)器翻譯、語(yǔ)義理解等,隨著模型規(guī)模增大,模型效果會(huì)先提升后出現(xiàn)飽和現(xiàn)象或者略微下降。在Google的研究中,當(dāng)模型參數(shù)量從1558M增加到137B時(shí),BLEU分?jǐn)?shù)從36.8提高到37.5,但是隨著模型規(guī)模進(jìn)一步增大,BLEU分?jǐn)?shù)反而略微下降。因此,在選擇LLM模型規(guī)模時(shí),需要根據(jù)具體任務(wù)的難度和要求,綜合考慮各種因素,以獲得最佳的模型性能。
第一類任務(wù)展現(xiàn)了LLM模型的scaling law,即隨著模型規(guī)模的增大,任務(wù)的表現(xiàn)越來越好。這類任務(wù)通常是知識(shí)密集型任務(wù),LLM模型包含的知識(shí)量越多,任務(wù)表現(xiàn)越好。研究表明,更大的LLM模型學(xué)習(xí)效率越高,相同訓(xùn)練數(shù)據(jù)量,大模型可以學(xué)到更多的知識(shí)點(diǎn)。傳統(tǒng)的自然語(yǔ)言理解類任務(wù)大多屬于這種類型,近兩年這些任務(wù)的效果有了極大的提升,很可能是因?yàn)長(zhǎng)LM模型的規(guī)模增長(zhǎng)所帶來的。
第二類任務(wù)展現(xiàn)出LLM具備某種“涌現(xiàn)能力”,當(dāng)模型規(guī)模達(dá)到某個(gè)閥值時(shí),LLM模型對(duì)此類任務(wù)的效果會(huì)出現(xiàn)突然的性能增長(zhǎng)。這種“涌現(xiàn)能力”是LLM模型規(guī)模增長(zhǎng)的關(guān)鍵,隨著模型規(guī)模越來越大,LLM模型會(huì)逐漸解鎖新的能力。這種現(xiàn)象很神奇,因?yàn)榧词筁LM模型現(xiàn)在還不能很好地解決某些任務(wù),但如果繼續(xù)推大模型,也許某一天它的這項(xiàng)能力就被突然解鎖了。這些任務(wù)一般由多步驟構(gòu)成,需要先解決多個(gè)中間步驟,邏輯推理能力在最終解決這類任務(wù)中發(fā)揮重要作用。思維鏈Prompting是一種典型的增強(qiáng)LLM推理能力的技術(shù),能大幅提升此類任務(wù)的效果。關(guān)于為何LLM會(huì)出現(xiàn)這種“涌現(xiàn)能力”現(xiàn)象,目前還需要進(jìn)一步的研究。
還有一部分任務(wù)的效果曲線呈現(xiàn)出U形特性,即隨著模型規(guī)模的增大,任務(wù)效果逐漸變差,但當(dāng)模型規(guī)模進(jìn)一步增大時(shí),效果開始變好,呈現(xiàn)出U形增長(zhǎng)趨勢(shì)。這些任務(wù)內(nèi)部隱含了兩種不同類型的子任務(wù),一種是真正的任務(wù),另一種是“干擾任務(wù)”。當(dāng)模型規(guī)模小的時(shí)候,無(wú)法識(shí)別任意一種子任務(wù),所以模型的表現(xiàn)跟隨機(jī)選擇答案差不多。
當(dāng)模型增長(zhǎng)到中等規(guī)模時(shí),主要執(zhí)行的是干擾任務(wù),所以對(duì)真正的任務(wù)效果有負(fù)面影響,體現(xiàn)為真正任務(wù)效果的下降。當(dāng)進(jìn)一步增加模型規(guī)模時(shí),LLM可以忽略干擾任務(wù),執(zhí)行真正的任務(wù),效果開始增長(zhǎng)。如果采用思維鏈(CoT)Prompting,則部分任務(wù)的表現(xiàn)轉(zhuǎn)換為遵循Scaling law,即模型規(guī)模越大效果越好,而其他任務(wù)則轉(zhuǎn)換為U形增長(zhǎng)曲線。這說明此類任務(wù)應(yīng)屬于推理類型的任務(wù),加入CoT后任務(wù)表現(xiàn)會(huì)發(fā)生質(zhì)的變化。
從In Context Learning到Instruct理解
一般常提到的人和LLM的接口技術(shù)包括:Instruct和In Context Learning。Instruct是ChatGPT的接口方式,人以自然語(yǔ)言給出任務(wù)的描述,例如“把這個(gè)句子從中文翻譯成英文”。而In Context Learning和few shot prompting意思類似,給LLM幾個(gè)示例作為范本,然后讓LLM解決新問題。
雖然這些技術(shù)都是描述任務(wù)的方式,但其實(shí)思路是不同的。Instruct是一種抽象的描述方式,而In Context Learning是一種例子示范的說明法。盡管叫法有些混亂,但這兩種技術(shù)是最為常見的人和LLM的接口技術(shù)。下面將重點(diǎn)介紹Instruct和In Context Learning,而不再提及zero shot和few shot。
一、神秘的In Context Learning
In Context Learning是一項(xiàng)非常神奇的技術(shù)。它之所以神奇,是因?yàn)橹恍枰峁㎜LM幾個(gè)樣本示例,....,然后給一個(gè)新的輸入xn+1,LLM就能成功預(yù)測(cè)對(duì)應(yīng)的輸出yn+1。這聽起來有些類似于Fine-tuning,但實(shí)際上更為復(fù)雜。
Fine-tuning和In Context Learning看似都提供了一些示例給LLM,但兩者之間存在著質(zhì)的不同。Fine-tuning使用這些示例作為訓(xùn)練數(shù)據(jù),通過反向傳播來修正LLM的模型參數(shù),從而實(shí)現(xiàn)了LLM從示例中學(xué)習(xí)的過程。而In Context Learning只是簡(jiǎn)單地展示示例,然后要求LLM去預(yù)測(cè)新的示例,沒有使用反向傳播來修正模型參數(shù),這意味著它貌似沒有經(jīng)歷學(xué)習(xí)的過程。但是,In Context Learning卻能夠僅憑一眼就預(yù)測(cè)出新的示例。
目前,有一些研究對(duì)這個(gè)問題提出了不同的看法,但是它們之間存在著相互矛盾的結(jié)論。對(duì)于這個(gè)問題的真相,目前仍是未解之謎。有些研究認(rèn)為In Context Learning并沒有從示例中學(xué)習(xí)映射函數(shù),而是通過輸入和輸出的分布來實(shí)現(xiàn)預(yù)測(cè)。而另一些研究則認(rèn)為L(zhǎng)LM仍然從示例中學(xué)習(xí)了映射函數(shù),只是這個(gè)過程是隱式的。
二、神奇的Instruct理解
Instruct是一種為了方便人類理解的任務(wù)表述?;谶@個(gè)前提,目前的Instruct研究可以分為兩類:一種是偏向?qū)W術(shù)研究的Instruct,另一種則是關(guān)注于人類真實(shí)需求描述的Instruct。
首先,來看偏向?qū)W術(shù)研究的Instruct。該領(lǐng)域的核心研究主題是LLM模型在多任務(wù)場(chǎng)景下對(duì)Instruct理解的泛化能力。這種方法使用多個(gè)NLP任務(wù),每個(gè)任務(wù)都有一個(gè)或多個(gè)Prompt模版作為Instruct,并用訓(xùn)練數(shù)據(jù)對(duì)LLM模型進(jìn)行微調(diào),使其能夠同時(shí)學(xué)習(xí)多個(gè)任務(wù)。
訓(xùn)練好模型后,給LLM模型一個(gè)全新的任務(wù)Instruct,然后讓LLM解決zero shot任務(wù),從而判斷LLM模型是否具有對(duì)Instruct的泛化能力。目前的研究表明,增加多任務(wù)的數(shù)量、增加LLM模型的大小、提供CoT Prompting以及增加任務(wù)的多樣性等因素可以有效地增加LLM模型對(duì)Instruct的理解能力。
第二種是面向人類真實(shí)需求的Instruct,這類研究以InstructGPT和ChatGPT為代表。這種方法同樣基于多任務(wù),但與偏向?qū)W術(shù)研究的方法最大的不同在于它是面向真實(shí)需求的。它使用從大量用戶提交的真實(shí)請(qǐng)求中抽樣而來的任務(wù)描述Prompt進(jìn)行LLM多任務(wù)訓(xùn)練,而不是固定好研究任務(wù)的范圍,然后讓研究人員來編寫任務(wù)描述prompt。
這種方法的優(yōu)勢(shì)在于可以涵蓋更多樣化的任務(wù)類型,更符合用戶的真實(shí)需求;同時(shí),任務(wù)的prompt描述來自用戶提交的請(qǐng)求,反映了用戶在表達(dá)任務(wù)需求時(shí)的真實(shí)表述方式。因此,這種方法訓(xùn)練出的LLM模型可以更好地滿足用戶需求。InstructGPT論文還將該方法與偏向?qū)W術(shù)研究的FLAN方法進(jìn)行了比較。結(jié)果表明,F(xiàn)LAN方法的效果距離InstructGPT有很大差距。這是因?yàn)镕LAN方法涉及的任務(wù)領(lǐng)域相對(duì)較少,而InstructGPT使用的任務(wù)類型更加多樣化,更符合用戶的真實(shí)需求。因此,從用戶數(shù)據(jù)中收集真實(shí)需求對(duì)于提高LLM模型的效果是非常重要的。
三、In Context Learning和Instruct的聯(lián)系
可以將In Context Learning看作是通過一些具體的例子來表達(dá)任務(wù)命令,而Instruct則是更符合人類習(xí)慣的抽象任務(wù)描述。這引發(fā)了一個(gè)自然的問題:這兩種方法之間是否存在聯(lián)系?例如,是否可以提供一些具體的示例,讓LLM找出對(duì)應(yīng)的自然語(yǔ)言描述的Instruct命令來完成某個(gè)任務(wù)?
目前有些研究工作在探索具象任務(wù)示例和自然語(yǔ)言命令之間的聯(lián)系,并且這個(gè)方向具有很高的研究?jī)r(jià)值。在這個(gè)問題上,答案是肯定的:LLM確實(shí)可以實(shí)現(xiàn)這個(gè)任務(wù)。最近的一項(xiàng)研究使用了GPT-3和InstructGPT作為基礎(chǔ)模型,讓LLM通過一些具體的示例生成自然語(yǔ)言命令來描述某項(xiàng)任務(wù),然后再用這個(gè)描述測(cè)試任務(wù)效果。這項(xiàng)技術(shù)的加持使得LLM生成的Instruct效果大大提升,甚至在一些任務(wù)上超過了人類的表現(xiàn)。這表明了具象任務(wù)示例和自然語(yǔ)言命令之間存在一種神秘的內(nèi)在聯(lián)系,但我們目前還無(wú)法確定這種聯(lián)系的具體本質(zhì)。
如何增強(qiáng)LLM的推理能力
目前,許多研究表明LLM具有強(qiáng)大的記憶能力,但通常不會(huì)因?yàn)橐粋€(gè)人記憶能力強(qiáng)就認(rèn)為他/她很聰明,因?yàn)橥评砟芰ν桥袛嘁粋€(gè)人是否聰明的重要標(biāo)準(zhǔn)。因此,對(duì)于LLM而言,強(qiáng)大的推理能力也是必不可少的。在過去一年中,LLM的推理能力已成為最重要和熱門的研究領(lǐng)域之一。目前的研究表明,當(dāng)模型規(guī)模足夠大時(shí),LLM本身具備推理能力,在簡(jiǎn)單推理問題上已經(jīng)達(dá)到了很好的能力,但在復(fù)雜推理問題上仍需要更深入的研究。
LLM推理能力的研究可以歸為兩大類分別是基于Prompt的方法和引入程序代碼的方法。基于Prompt的方法通過合適的提示語(yǔ)或提示樣本來激發(fā)LLM本身具備的推理能力,Google在這個(gè)方向做了很多有成效的工作。而引入程序代碼的方法則在預(yù)訓(xùn)練過程中將代碼和文本一起參與預(yù)訓(xùn)練,以此進(jìn)一步增強(qiáng)LLM的推理能力,這是OpenAI實(shí)踐出的思路。這兩種方法的大方向是迥異的:前者是通過提供多樣性的訓(xùn)練數(shù)據(jù)來直接增強(qiáng)LLM推理能力,而后者則是讓LLM在解決問題過程中更好地展示出推理能力的技術(shù)方法。雖然這兩種方法互補(bǔ),但從長(zhǎng)遠(yuǎn)來看,治本的方法更為重要。
歸納一下大致可以分為三條技術(shù)路線。
一、直接在問題上追加輔助推理Prompt
在各個(gè)領(lǐng)域,基于Prompt的方法都被證明是一種有效的方法來增強(qiáng)LLM的推理能力。這種方法非常簡(jiǎn)單,直接在問題上追加輔助推理Prompt即可。其中,Zero-shot CoT是一種被廣泛應(yīng)用的方法,它通過在提問的問題上追加“Let’s think step by step”這句提示語(yǔ)來激發(fā)LLM本身具備的推理能力。
具體而言,分為兩個(gè)階段,第一階段在問題上追加提示語(yǔ),LLM會(huì)輸出具體的推理過程;第二階段,拼接LLM輸出的具體推理過程,并再追加Prompt,此時(shí)LLM會(huì)給出答案。這種簡(jiǎn)單的操作可以大幅增加LLM在各項(xiàng)推理任務(wù)中的效果。目前,關(guān)于LLM為什么會(huì)具備推理能力的原因尚無(wú)定論,但可能是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)中存在大量以“Let’s think step by step”開頭的數(shù)據(jù),LLM在預(yù)訓(xùn)練的時(shí)候記住了這些模式。
因此,當(dāng)我們輸入這個(gè)提示語(yǔ)的時(shí)候,LLM會(huì)模仿這些例子進(jìn)行步驟推理并給出答案。當(dāng)然,Zero-shot CoT的效果比標(biāo)準(zhǔn)CoT差一些,因?yàn)榭縇LM回憶示例,精準(zhǔn)性估計(jì)不會(huì)太高。但無(wú)論是Zero-shot CoT還是標(biāo)準(zhǔn)CoT,都說明了一個(gè)道理,就是LLM本身是具備推理能力的,只是我們沒有辦法把它的這種能力激發(fā)出來而已。
二、基于示例的思維鏈(few-shot CoT,Chain of Thought)Prompting
目前,基于Prompt的方法是LLM推理研究的主要方向,很多工作都是在這個(gè)思路上展開的。在這個(gè)方向上,有幾個(gè)代表性的工作取得了顯著的效果,這些工作基本能代表CoT技術(shù)發(fā)展的方向。
CoT的主體思想非常簡(jiǎn)單明了,為了讓LLM模型學(xué)會(huì)推理,需要給出一些人工寫好的推理示例,示例中詳細(xì)說明得到最終答案前的具體推理步驟,而這些人工寫的詳細(xì)推理過程就是思維鏈Prompting。CoT的目的是讓LLM模型明白在推理過程中,步子不要邁得太大,需要化大問題為小問題,步步為營(yíng),積小勝為大勝。最早明確提出CoT這個(gè)概念的文章是“Chain of thought prompting elicits reasoning in large language models”,該論文于2022年1月份發(fā)布。盡管CoT的做法很簡(jiǎn)單,但應(yīng)用CoT后LLM模型的推理能力得到了巨大提升,GSM8K數(shù)學(xué)推理測(cè)試集準(zhǔn)確率提高到了約60.1%。值得一提的是,這種給出詳細(xì)推理步驟和中間過程的思想,并非CoT最早提出的。更早一些的“scratchpad”技術(shù)就采用了類似的思路。
CoT提出不久,隨后在2022年3月份,一項(xiàng)名為“Self-Consistency”的改進(jìn)技術(shù)迅速問世,將GSM8K測(cè)試集準(zhǔn)確率提高到了74.4%。這項(xiàng)改進(jìn)技術(shù)的思路也很簡(jiǎn)單明了,首先利用CoT給出幾個(gè)寫了推理過程的示例,然后要求LLM對(duì)給定的問題進(jìn)行推理,但不同于CoT的是,“Self-Consistency”要求LLM輸出多個(gè)不同的推理過程和答案,并采用投票的方式選出最佳答案。這種思路教導(dǎo)LLM學(xué)會(huì)這樣一個(gè)道理:一個(gè)數(shù)學(xué)題的正確解法可以有很多種,每個(gè)不同的推導(dǎo)過程都指向最終的答案。簡(jiǎn)單的方法往往蘊(yùn)含著深刻的哲學(xué)含義。之后,“On the Advance of Making Language Models Better Reasoners”這個(gè)工作在“Self-Consistency”的基礎(chǔ)上,進(jìn)一步集成了“從一個(gè)Prompt問題拓展到多個(gè)Prompt問題、檢查推理中間步驟的正確性以及對(duì)多個(gè)輸出的回答加權(quán)投票”這三個(gè)改進(jìn)點(diǎn),將GSM8K測(cè)試集準(zhǔn)確率提高到了約83%。
三、分治算法
核心思想是將一個(gè)復(fù)雜的推理問題分解成若干個(gè)容易解決的子問題,解決這些子問題,再?gòu)淖訂栴}的答案推導(dǎo)出復(fù)雜問題的答案。這種思路可能是揭示問題本質(zhì)、最終解決LLM復(fù)雜推理問題的正宗道路。以“Least-to-most prompting”技術(shù)為例,它分為兩個(gè)階段。在第一個(gè)階段,我們從原始問題中得到最終要問的問題,然后構(gòu)造一個(gè)Prompt模板,填充“如果要解決Final Q問題,那么我需要先解決”的內(nèi)容,讓LLM模型回答,得到前置子問題Sub Q。在第二個(gè)階段,讓LLM先回答子問題Sub Q,并得到對(duì)應(yīng)的答案,然后將原始問題與子問題Sub Q及對(duì)應(yīng)答案拼接在一起,再去問LLM最終問題Final Q,此時(shí)LLM會(huì)給出最終的答案。這種思路體現(xiàn)了拆解子問題,并從子問題的答案逐步找出最終答案的思路,類似于分治算法的思想。
代碼預(yù)訓(xùn)練增強(qiáng)LLM推理能力
上面提到了當(dāng)前利用Prompt激發(fā)LLM模型推理能力的三種主流方法,同時(shí)還觀察到了一個(gè)有趣而費(fèi)解的現(xiàn)象:除了文本之外,將程序代碼與文本一起參與模型的預(yù)訓(xùn)練可以顯著提高LLM模型的推理能力。
在論文“On the Advance of Making Language Models Better Reasoners”中,通過實(shí)驗(yàn)數(shù)據(jù)展示了一個(gè)有趣的現(xiàn)象:將程序代碼與文本一起參與模型預(yù)訓(xùn)練,可以顯著提升LLM模型的推理能力。實(shí)驗(yàn)結(jié)果表明,僅僅是從純文本預(yù)訓(xùn)練模型切換到文本和Code混合預(yù)訓(xùn)練模型,就可以在幾乎所有測(cè)試數(shù)據(jù)集合上,將模型推理能力提升20到50個(gè)百分點(diǎn)。
此外研究還發(fā)現(xiàn),GPT 3這種純文本預(yù)訓(xùn)練模型,其實(shí)具備相當(dāng)程度的推理能力,只是需要采用合適的方法來激發(fā)。而加入instruct fine-tuning會(huì)損害LLM模型的推理能力,但會(huì)在一定程度上提升自然語(yǔ)言理解能力。至于為何預(yù)訓(xùn)練模型可以從代碼的預(yù)訓(xùn)練中獲得額外的推理能力,目前尚未得到確切的原因,但可能是因?yàn)榇a訓(xùn)練本質(zhì)上是<文本,Code>兩種數(shù)據(jù)的多模態(tài)對(duì)齊工作,其中包含相當(dāng)比例的數(shù)學(xué)或邏輯推理類的數(shù)據(jù),對(duì)于解決下游數(shù)學(xué)推理問題是有幫助的。這些結(jié)論啟發(fā)了后續(xù)進(jìn)一步的思考和探索。
關(guān)于LLM推理能力的思考
最近一年來,關(guān)于激發(fā)LLM的推理能力的技術(shù)進(jìn)展很快,但總體感覺距離接觸到真正的問題本質(zhì)還有一段距離,需要更深入的思考和探索。對(duì)于復(fù)雜的推理問題,將其拆解成若干簡(jiǎn)單的子問題,因?yàn)樽訂栴}對(duì)于LLM來說回答正確的概率更高。受到“Least-to-most prompting”技術(shù)的啟發(fā),LLM推理本質(zhì)上可能是不斷和LLM進(jìn)行交互的圖上推理問題,或者是不斷和LLM進(jìn)行交互的程序流程圖執(zhí)行問題。
假設(shè)我們能夠?qū)?fù)雜問題拆解成由子問題或子步驟構(gòu)成的圖結(jié)構(gòu),其中節(jié)點(diǎn)代表子問題或子步驟,邊表示子問題之間的依賴關(guān)系。我們可以根據(jù)依賴關(guān)系,引導(dǎo)LLM一步一步回答必須首先回答的子問題,直到推導(dǎo)出最終答案。圖中可能存在循環(huán)結(jié)構(gòu),即需要反復(fù)執(zhí)行某些子步驟。如果我們能夠得到上述子問題拆解圖,那么就能夠有效地引導(dǎo)LLM進(jìn)行推理。
假設(shè)我們能夠?qū)?fù)雜問題拆解成子問題或子步驟,并生成一個(gè)類似程序流程圖的結(jié)構(gòu),其中有循環(huán)結(jié)構(gòu)和條件分支。我們可以在執(zhí)行每個(gè)子步驟時(shí),與LLM進(jìn)行交互,得到子步驟的答案,并按照流程不斷執(zhí)行,直到輸出最終答案。這種多模態(tài)預(yù)訓(xùn)練模型可以增強(qiáng)LLM模型從文本構(gòu)建出隱含的流程圖并按照流程圖執(zhí)行的能力,從而增強(qiáng)其推理能力。
然而,如何根據(jù)文本描述得到圖結(jié)構(gòu)或流程圖結(jié)構(gòu)仍然是一個(gè)難點(diǎn)。一種可能的思路是通過增強(qiáng)文本和更高質(zhì)量的代碼預(yù)訓(xùn)練來隱式學(xué)習(xí)內(nèi)部隱含結(jié)構(gòu)。目前的CoT技術(shù)是試圖根據(jù)最后一個(gè)圖節(jié)點(diǎn),倒推出圖結(jié)構(gòu)或程序流程圖,但目前的方法限制了它的倒推深度,只能推導(dǎo)出簡(jiǎn)單的圖結(jié)構(gòu),這是其能力受限的原因。
LLM研究趨勢(shì)及值得研究的重點(diǎn)方向
這里列出一些比較重要的LLM研究領(lǐng)域或值得深入探索的研究方向。
一、探索LLM模型的規(guī)模天花板
雖然LLM模型的規(guī)模看似沒有技術(shù)含量,但其實(shí)這個(gè)事情異常重要。自Bert問世以來,到GPT 3和ChatGPT給人印象深刻的關(guān)鍵技術(shù)突破,核心貢獻(xiàn)都來自于LLM模型規(guī)模的增長(zhǎng),而非某項(xiàng)具體技術(shù)。這說明對(duì)于知識(shí)密集型的任務(wù),隨著模型規(guī)模越大,各種任務(wù)的效果會(huì)越來越好。而對(duì)于很多推理類型的有難度的任務(wù),加上CoT Prompting后,其效果也呈現(xiàn)出遵循Scaling law的趨向。因此,很自然的一個(gè)問題就是:對(duì)于這些任務(wù),LLM的規(guī)模效應(yīng),能將這些任務(wù)解決到何種程度?
考慮到LLM具備的神奇的“涌現(xiàn)能力”,如果繼續(xù)增加模型規(guī)模,將會(huì)解鎖哪些意想不到的新能力呢?這也是很有意思的問題。因此,需要不斷增大模型規(guī)模,看看模型規(guī)模對(duì)解決各類任務(wù)的天花板在哪里。當(dāng)然,這種事情也就只能說說,對(duì)99.99%的從業(yè)者來說,是沒有機(jī)會(huì)和能力做這個(gè)事情的。
要做這個(gè)事情,對(duì)研究機(jī)構(gòu)的財(cái)力及投入意愿、工程能力、技術(shù)熱情,都有極高的要求,缺一不可。能做這事情的機(jī)構(gòu),粗估下來,國(guó)外不超過5家,國(guó)內(nèi)不超過3家。這是因?yàn)樽龀笠?guī)模的LLM模型對(duì)技術(shù)團(tuán)隊(duì)的工程實(shí)現(xiàn)能力要求非常高,需要有非常強(qiáng)的硬件和軟件支持。因此,這是具有技術(shù)含量的工作。
盡管如此,繼續(xù)推大LLM模型規(guī)模的研究意義仍然非常重要。除探究LLM的規(guī)模效應(yīng)對(duì)各種任務(wù)的效果影響到何種程度,還可以探索LLM模型規(guī)模增大后會(huì)解鎖哪些新的能力。這些問題的答案將有助于更好地理解LLM模型的性質(zhì)和行為,為未來的研究和應(yīng)用提供重要的參考。因此,對(duì)于有能力的研究機(jī)構(gòu)來說,繼續(xù)推大LLM模型規(guī)模的研究是非常有價(jià)值的。
二、增強(qiáng)LLM的復(fù)雜推理能力
正如之前對(duì)LLM推理能力的敘述,盡管LLM在最近一年的推理能力方面取得了很大進(jìn)展,但是仍然存在一些限制。例如,許多研究表明,LLM仍然無(wú)法很好地解決復(fù)雜推理問題,特別是當(dāng)涉及到長(zhǎng)字符串或數(shù)字時(shí),LLM的推理能力會(huì)顯著下降。因此,加強(qiáng)LLM的復(fù)雜推理能力應(yīng)該成為未來研究的重點(diǎn)之一。
在前文中,我們提到了一種直接增強(qiáng)LLM推理能力的方法,即將代碼加入到預(yù)訓(xùn)練中。雖然這種方法已經(jīng)得到了一些實(shí)踐的總結(jié),但是需要深入探索背后的原理,并引入更多類型的新型數(shù)據(jù)來增強(qiáng)LLM的推理能力。這可能是更本質(zhì)的提升LLM推理能力的方向,而不僅僅局限于代碼的加入。
三、LLM納入NLP之外更多其它研究領(lǐng)域
當(dāng)前的ChatGPT是一個(gè)在自然語(yǔ)言處理(NLP)和編程任務(wù)方面表現(xiàn)出色的模型。作為通向人工通用智能(AGI)的前沿研究之一,將圖像、視頻、音頻等多媒體數(shù)據(jù)與語(yǔ)言模型相結(jié)合,并進(jìn)一步將AI應(yīng)用到科學(xué)研究、機(jī)器人控制等其他領(lǐng)域,是實(shí)現(xiàn)更大范圍應(yīng)用和差異化發(fā)展的重要途徑。雖然這個(gè)研究方向仍處于初級(jí)階段,但卻具有極高的研究?jī)r(jià)值。
四、更易用的人和LLM的交互接口
正如前面所討論的那樣,ChatGPT的主要技術(shù)貢獻(xiàn)在于其在特定領(lǐng)域,如NLP和編程任務(wù)方面的出色表現(xiàn)。然而,我們也意識(shí)到當(dāng)前的技術(shù)仍有不完善之處,存在許多命令和指令LLM無(wú)法理解的情況。因此,一個(gè)非常有前景和嶄新的技術(shù)方向是尋找更好的方法,使得LLM能夠理解人類使用自己習(xí)慣的命令表達(dá)方式。這個(gè)方向的探索將為我們創(chuàng)造新的機(jī)會(huì),并為改善LLM的技術(shù)水平提供更多的潛在解決方案。
五、建設(shè)高難度的綜合任務(wù)評(píng)測(cè)數(shù)據(jù)集
一個(gè)優(yōu)秀的評(píng)測(cè)數(shù)據(jù)集是推動(dòng)技術(shù)不斷進(jìn)步的基礎(chǔ)。隨著LLM模型不斷擴(kuò)大,任務(wù)效果迅速提升,許多經(jīng)典測(cè)試集很快就變得太容易,無(wú)法有效評(píng)估當(dāng)前技術(shù)的缺陷和盲點(diǎn)。因此,構(gòu)建具有高難度的測(cè)試數(shù)據(jù)集對(duì)于推動(dòng)LLM技術(shù)的進(jìn)步至關(guān)重要。目前,業(yè)界已經(jīng)出現(xiàn)了一些新的測(cè)試集,例如BIGBench和OPT-IML等。這些測(cè)試集具有一定的難度,綜合了多種任務(wù)類型的要求,并能更好地反映當(dāng)前LLM技術(shù)的挑戰(zhàn)。
受到ChatGPT的啟發(fā),除了測(cè)試集的難度和多樣性之外,還應(yīng)該考慮體現(xiàn)真實(shí)用戶需求的因素。也就是說,這些任務(wù)應(yīng)該是由真實(shí)用戶提出的,只有這樣構(gòu)建出來的LLM模型才能真正解決用戶的實(shí)際需求。此外,LLM將迅速擴(kuò)展其能力到NLP以外的領(lǐng)域,因此需要提前考慮如何將更多其他領(lǐng)域的評(píng)測(cè)數(shù)據(jù)融入其中。這將有助于進(jìn)一步提高LLM模型的廣泛適應(yīng)性。
六、高質(zhì)量數(shù)據(jù)工程
數(shù)據(jù)是預(yù)訓(xùn)練模型的核心,預(yù)訓(xùn)練過程是從數(shù)據(jù)中獲取知識(shí)的過程。因此,需要更加注重挖掘、收集和清洗高質(zhì)量數(shù)據(jù)。數(shù)據(jù)質(zhì)量和數(shù)量是兩個(gè)關(guān)鍵方面。根據(jù)T5的實(shí)驗(yàn)比較,可以得出結(jié)論:在質(zhì)量和數(shù)量之間,質(zhì)量應(yīng)優(yōu)先考慮。因此,正確的做法是在確保數(shù)據(jù)質(zhì)量的前提下增加數(shù)據(jù)規(guī)模。數(shù)據(jù)質(zhì)量方面,需要考慮數(shù)據(jù)的信息含量和多樣性等多個(gè)標(biāo)準(zhǔn)。例如,維基百科是信息含量極高的高質(zhì)量數(shù)據(jù)。增加數(shù)據(jù)類型的多樣性對(duì)于激發(fā)LLM的各種新能力至關(guān)重要。例如,加入問答網(wǎng)站的數(shù)據(jù)對(duì)于提升LLM的問答能力具有直接幫助。多樣化的數(shù)據(jù)賦予LLM更好解決各種類型任務(wù)的能力,因此多樣性是數(shù)據(jù)質(zhì)量中最關(guān)鍵的標(biāo)準(zhǔn)。
關(guān)于數(shù)據(jù)數(shù)量,原則上可以納入預(yù)訓(xùn)練模型的是互聯(lián)網(wǎng)上公開發(fā)布的數(shù)據(jù)。然而,數(shù)據(jù)的數(shù)量也存在一定的極限。一項(xiàng)研究對(duì)數(shù)據(jù)量的擴(kuò)展性進(jìn)行了估算,并得出結(jié)論:到2026年左右,高質(zhì)量的NLP數(shù)據(jù)將耗盡,低質(zhì)量的NLP數(shù)據(jù)將在2030年至2050年之間耗盡,低質(zhì)量圖像數(shù)據(jù)將在2030年至2060年之間耗盡。這說明要么需要開發(fā)新類型的數(shù)據(jù)來源,要么必須提高LLM模型對(duì)數(shù)據(jù)的利用效率。否則,當(dāng)前依賴數(shù)據(jù)驅(qū)動(dòng)的模型優(yōu)化方式將停止進(jìn)步或收益減少。因此需要尋求新的解決方案,以應(yīng)對(duì)數(shù)據(jù)的極限問題。
七、超大LLM模型Transformer的稀疏化
LLM中存在一些最大規(guī)模模型,如GPT 3、PaLM、GLaM等,采用了稀疏結(jié)構(gòu)。使用稀疏化模型的主要優(yōu)點(diǎn)是可以極大地減少訓(xùn)練和推理時(shí)間。相比于密集模型,稀疏模型在相同算力預(yù)算下,訓(xùn)練速度可以提升4倍到7倍。這是因?yàn)楸M管稀疏模型擁有巨大的參數(shù)量,但對(duì)于每個(gè)訓(xùn)練實(shí)例,稀疏模型通過路由機(jī)制只使用其中一小部分參數(shù)參與訓(xùn)練和推理,所以速度更快。
未來的超大規(guī)模LLM模型很可能會(huì)趨向于稀疏模型,主要有兩個(gè)原因。首先,研究顯示標(biāo)準(zhǔn)的密集模型在訓(xùn)練和推理過程中本身也呈現(xiàn)稀疏的激活,即只有部分參數(shù)會(huì)被激活,大部分參數(shù)沒有參與訓(xùn)練和推理?;谶@一點(diǎn),遷移到稀疏模型是合理的選擇。其次,LLM模型的規(guī)模將繼續(xù)增大,而高昂的訓(xùn)練成本是其擴(kuò)大模型規(guī)模的主要障礙。使用稀疏模型可以顯著降低超大模型的訓(xùn)練成本,因此隨著模型規(guī)模的增加,稀疏模型的好處將更加明顯。鑒于這些原因,未來更大規(guī)模的LLM模型很可能采用稀疏模型方案。
然而,目前其他大規(guī)模模型尚未采用稀疏模型的原因是稀疏模型存在訓(xùn)練不穩(wěn)定和容易過擬合等問題,很難訓(xùn)練得好。因此,解決稀疏模型面臨的問題,設(shè)計(jì)出更易于訓(xùn)練的稀疏模型,是未來研究的重要方向。
復(fù)刻ChatGPT時(shí)要注意些什么?
要復(fù)刻類似ChatGPT這種令人驚艷的LLM模型,我們需要在技術(shù)選型時(shí)權(quán)衡以下問題。
一、關(guān)于預(yù)訓(xùn)練模式,可以選擇GPT這種自回歸語(yǔ)言模型、Bert這種雙向語(yǔ)言模型,或者T5這種混合模式。基于本文的分析,選用GPT自回歸語(yǔ)言模型可能是更好的選擇。然而,目前似乎許多國(guó)內(nèi)LLM項(xiàng)目選擇了Bert雙向語(yǔ)言模型或T5混合語(yǔ)言模型,這可能導(dǎo)致方向有所偏移。
二、強(qiáng)大的推理能力是用戶認(rèn)可LLM的重要基礎(chǔ),為了實(shí)現(xiàn)這一目標(biāo),根據(jù)當(dāng)前經(jīng)驗(yàn),預(yù)訓(xùn)練階段最好引入大量代碼和文本,同時(shí)進(jìn)行LLM訓(xùn)練。前文中也有相應(yīng)的分析對(duì)此進(jìn)行了解釋。
三、如果希望模型參數(shù)規(guī)模不過于龐大但依然具備良好效果,有兩個(gè)選項(xiàng)。一是加強(qiáng)高層的特征抽取和表示能力,通過更深層次的網(wǎng)絡(luò)結(jié)構(gòu)或者更復(fù)雜的特征提取方法來實(shí)現(xiàn)。二是采用文本檢索模型與LLM相結(jié)合的方式,通過文本檢索模型提供初步的篩選和匹配,再由LLM進(jìn)行進(jìn)一步的生成和推理,這樣可以極大地減小LLM模型的參數(shù)規(guī)模。
四、由于超級(jí)大模型的訓(xùn)練成本過高,很少有機(jī)構(gòu)有能力去實(shí)施。因此,降低LLM的訓(xùn)練成本是非常重要的。其中,一種有效的技術(shù)選擇是將LLM的特征抽取器進(jìn)行Sparse化,這可以有效降低模型的訓(xùn)練和推理成本。因此,隨著模型規(guī)模的增大,LLM模型的Sparse化是一個(gè)應(yīng)該考慮的選項(xiàng)。
五、目前最接近理想LLM的技術(shù)方案是ChatGPT,理想中的LLM應(yīng)該是一個(gè)幾乎無(wú)所不能的通用大模型,可以支持各種任務(wù)類型。為了實(shí)現(xiàn)這一目標(biāo),可以通過增加LLM的預(yù)訓(xùn)練數(shù)據(jù)的多樣性來支持更多的任務(wù)類型。數(shù)據(jù)的多樣性越好,LLM能夠支持的任務(wù)類型就越豐富。因此,應(yīng)該重視通過增加數(shù)據(jù)多樣性來增強(qiáng)LLM的能力。
六、易用的人機(jī)操作接口也是非常重要。LLM需要能夠理解人類用自己習(xí)慣的方式來描述任務(wù)的真實(shí)含義。同時(shí),也需要根據(jù)最終用戶的需求收集任務(wù)表述方式,而不是依靠研發(fā)人員的臆想或猜測(cè)。ChatGPT在這方面給了我很大的啟發(fā),因此,是否使用增強(qiáng)學(xué)習(xí)并不重要,其他替代技術(shù)也能夠?qū)崿F(xiàn)類似的效果。
要復(fù)刻類似ChatGPT這種令人驚艷的LLM模型,需要在技術(shù)選型上權(quán)衡預(yù)訓(xùn)練模式、推理能力、模型規(guī)模、訓(xùn)練成本、數(shù)據(jù)多樣性和人機(jī)操作接口等因素,并選擇最合適的方法來實(shí)現(xiàn)目標(biāo)。
LLM訓(xùn)練所需因素
當(dāng)訓(xùn)練大型語(yǔ)言模型時(shí)會(huì)面臨多個(gè)挑戰(zhàn),可以歸納為以下六個(gè)方面:硬件需求、健康檢查、編排技術(shù)、數(shù)據(jù)處理、模型規(guī)模擴(kuò)展和成本管理。每個(gè)方面都對(duì)模型訓(xùn)練的效果和效率產(chǎn)生重要影響。
在訓(xùn)練大型語(yǔ)言模型時(shí),我們會(huì)面臨多個(gè)挑戰(zhàn)。首先是硬件方面。使用最新的硬件可以提供更好的性能,而沒有充分利用最新硬件的優(yōu)勢(shì)會(huì)導(dǎo)致訓(xùn)練時(shí)間延長(zhǎng),無(wú)法達(dá)到最佳結(jié)果。
藍(lán)海大腦高性能LLM大模型訓(xùn)練平臺(tái)利用工作流體作為中間熱量傳輸?shù)拿浇椋瑢崃坑蔁釁^(qū)傳遞到遠(yuǎn)處再進(jìn)行冷卻。支持多種硬件加速器,包括CPU、GPU、FPGA和AI等,能夠滿足大規(guī)模數(shù)據(jù)處理和復(fù)雜計(jì)算任務(wù)的需求。采用分布式計(jì)算架構(gòu),高效地處理大規(guī)模數(shù)據(jù)和復(fù)雜計(jì)算任務(wù),為深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練、大型語(yǔ)言模型(LLM)算法的研究和開發(fā)提供強(qiáng)大的算力支持。具有高度的靈活性和可擴(kuò)展性,能夠根據(jù)不同的應(yīng)用場(chǎng)景和需求進(jìn)行定制化配置??梢钥焖俨渴鸷凸芾砀鞣N計(jì)算任務(wù),提高了計(jì)算資源的利用率和效率。
另一個(gè)挑戰(zhàn)是健康檢查,確保硬件正常運(yùn)行,減少干擾。此外還需要考慮編排,以確保團(tuán)隊(duì)中的工作負(fù)載不會(huì)互相干擾,同時(shí)保持網(wǎng)絡(luò)和安全配置良好。處理大規(guī)模數(shù)據(jù)集也是一項(xiàng)挑戰(zhàn),需要高效的存儲(chǔ)、處理和加載方法。擴(kuò)展基礎(chǔ)設(shè)施和設(shè)計(jì)算法以克服限制性問題也是一項(xiàng)重要任務(wù)。這些模型通常不適用于單個(gè)GPU,所以需要考慮如何將模型拆分到多個(gè)GPU上。
最后,成本管理是不可忽視的因素。訓(xùn)練大型模型的成本可能很高,應(yīng)該充分利用機(jī)器學(xué)習(xí)團(tuán)隊(duì)的時(shí)間,讓其專注于創(chuàng)造新的模型,而不是花費(fèi)過多時(shí)間在基礎(chǔ)架構(gòu)上。
審核編輯黃宇
-
人工智能
+關(guān)注
關(guān)注
1805文章
48843瀏覽量
247419 -
Agi
+關(guān)注
關(guān)注
0文章
91瀏覽量
10449 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1589瀏覽量
8857 -
LLM
+關(guān)注
關(guān)注
1文章
322瀏覽量
723
發(fā)布評(píng)論請(qǐng)先 登錄
2023北京智源大會(huì)亮點(diǎn)回顧 | 高性能計(jì)算、深度學(xué)習(xí)和大模型:打造通用人工智能AGI的金三角

大模型應(yīng)用之路:從提示詞到通用人工智能(AGI)

評(píng)論