古风,小说排行榜完结版,盗墓笔记小说全集

ChatGPT的成功帶動(dòng)整個(gè)AIGC產(chǎn)業(yè)的發(fā)展，尤其是LLM（大型語(yǔ)言模型，大語(yǔ)言模型）、NLP、高性能計(jì)算和深度學(xué)習(xí)等領(lǐng)域。LLM的發(fā)展將為全球和中國(guó)AI芯片、AI服務(wù)器市場(chǎng)的增長(zhǎng)提供強(qiáng)勁動(dòng)力，據(jù)估算，LLM將為全球和中國(guó)AI服務(wù)器帶來約891.2億美元和338.2億美元的市場(chǎng)空間。

國(guó)外廠商在LLM領(lǐng)域具有領(lǐng)先優(yōu)勢(shì)，但我國(guó)LLM產(chǎn)品也在快速發(fā)展，2023年以來多家廠商推出了自研的通用LLM，國(guó)產(chǎn)LLM在各行業(yè)的應(yīng)用以及生態(tài)建設(shè)也取得積極進(jìn)展。雖然我國(guó)LLM相比GPT-4或仍有一定差距，但在短期內(nèi)達(dá)到或接近ChatGPT的水平是可以預(yù)期的。

值得關(guān)注是 AMD 上周推出 MI300 系列加速卡，旨在與英偉達(dá)展開競(jìng)爭(zhēng)。MI300 系列是 AMD 為 AI 和高性能計(jì)算打造的一系列最新 APU 加速卡，包括MI300A 和 MI300X。其中 MI300A 集成了 CPU 和 GPU，而 MI300X 則是一款專門面向生成式 AI 推出的加速器，對(duì)標(biāo)英偉達(dá) H100。從性能參數(shù)看，MI300系列產(chǎn)品足以比肩甚至超越英偉達(dá)的高端加速卡，但總的來說，短期仍然難以撼動(dòng)英偉達(dá)在該領(lǐng)域的絕對(duì)領(lǐng)先地位。

展望下半年，我國(guó)大模型產(chǎn)品已經(jīng)初步具備商用能力。北上深三地利好通用人工智能發(fā)展政策的發(fā)布，彰顯我國(guó)對(duì)AIGC發(fā)展的重視和支持，同時(shí)將為其他城市發(fā)布類似政策帶來示范效應(yīng)。在政策與技術(shù)的共振下，我國(guó)AIGC產(chǎn)業(yè)未來發(fā)展前景廣闊。

如今，國(guó)內(nèi)在LLM模型相關(guān)技術(shù)方面距離最先進(jìn)技術(shù)的差距進(jìn)一步加大。在Bert出現(xiàn)之后的一到兩年間，國(guó)內(nèi)在這塊的技術(shù)追趕速度很快的同時(shí)也提出了一些很好的改進(jìn)模型。差距拉開的分水嶺應(yīng)該是在 GPT 3.0出來之后，也就是2020年年中左右。在當(dāng)時(shí)，其實(shí)只有少數(shù)的人覺察到GPT 3.0它不僅僅是一項(xiàng)具體的技術(shù)，更能體現(xiàn)出LLM應(yīng)該往何處去的一個(gè)發(fā)展理念。

大型語(yǔ)言模型（LLM）是一種低成本、高效率的技術(shù)，它在自然語(yǔ)言處理（NLP）和人工智能（AI）領(lǐng)域引起了廣泛關(guān)注。其中，ChatGPT作為L(zhǎng)LM的代表，是否帶來了NLP和AI領(lǐng)域的研究范式轉(zhuǎn)變？如果是，將會(huì)產(chǎn)生怎樣的影響？LLM通過從海量數(shù)據(jù)中學(xué)習(xí)，積累了豐富的知識(shí)。那么，LLM是如何存取這些知識(shí)的呢？隨著LLM規(guī)模逐步增大，它將對(duì)研究和應(yīng)用產(chǎn)生怎樣的影響？此外，上下文學(xué)習(xí)（In Context Learning）是一項(xiàng)神秘的技術(shù)，它與指令（Instruct）有著密切的關(guān)系。LLM是否具備推理能力？思維鏈（CoT）又是如何實(shí)現(xiàn)的呢？接下來，將詳細(xì)介紹以上提到的方面。

LLMs的背景、能力

一、LLM的背景

LLM（大型語(yǔ)言模型，大語(yǔ)言模型）是指使用大量文本數(shù)據(jù)訓(xùn)練的語(yǔ)言模型，包含數(shù)千億或更多的參數(shù)。采用 Transformer 架構(gòu)和語(yǔ)言建模預(yù)訓(xùn)練目標(biāo)，但相較于小型模型，LLM 模型大小、預(yù)訓(xùn)練數(shù)據(jù)和總計(jì)算量更大。這使得它們可以更好地理解自然語(yǔ)言，并生成高質(zhì)量的文本。LLM 的容量改進(jìn)可以用標(biāo)度律進(jìn)行部分地描述，但某些能力只有在模型大小超過某個(gè)水平時(shí)才能觀察到。

二、LLM的涌現(xiàn)能力

LLM 的涌現(xiàn)能力是指在小型模型中不存在但在大型模型中出現(xiàn)的能力，是 LLM 與以前的 PLM 區(qū)分的最顯著特征之一。當(dāng)規(guī)模達(dá)到一定水平時(shí)，LLM 的性能顯著高于隨機(jī)狀態(tài)，這種新模式與物理學(xué)中的相變現(xiàn)象密切相關(guān)。LLM 的涌現(xiàn)能力可以與一些復(fù)雜的任務(wù)有關(guān)，人們更關(guān)心的是它的通用能力。

LLM 的三種代表性的涌現(xiàn)能力包括上下文學(xué)習(xí)、指令遵循和循序漸進(jìn)的推理。其中，上下文學(xué)習(xí)能力使得語(yǔ)言模型可以通過完成輸入文本的詞序列來生成測(cè)試實(shí)例的預(yù)期輸出；指令遵循能力使得 LLM 能夠在不使用顯式樣本的情況下通過理解任務(wù)指令來執(zhí)行新任務(wù)，從而提高泛化能力；循序漸進(jìn)的推理能力使得 LLM 可以通過利用涉及中間推理步驟的 prompt 機(jī)制來解決復(fù)雜任務(wù)得出最終答案。

NLP研究范式的轉(zhuǎn)換從淺層語(yǔ)義到深層語(yǔ)義的建模

在過去的10年中，NLP領(lǐng)域可能經(jīng)歷了兩次重要的研究范式轉(zhuǎn)換。

一、從深度學(xué)習(xí)到兩階段預(yù)訓(xùn)練模型

NLP領(lǐng)域引入深度學(xué)習(xí)大致從2013年開始，直到GPT 3.0出現(xiàn)之前（2020年5月左右）。在Bert和GPT模型出現(xiàn)之前，NLP領(lǐng)域流行的技術(shù)主要是深度學(xué)習(xí)模型，主要依托于改進(jìn)的LSTM和CNN模型作為特征抽取器，以及Sequence to Sequence+Attention作為總體技術(shù)框架。然而，這些雖然增加了模型層深，但在解決具體任務(wù)上的效果仍然不夠成功。這主要是由于任務(wù)訓(xùn)練數(shù)據(jù)量有限和LSTM/CNN特征抽取器表達(dá)能力不夠強(qiáng)所致。

直到Bert和GPT這兩個(gè)預(yù)訓(xùn)練模型的出現(xiàn)，才代表了NLP領(lǐng)域的一個(gè)技術(shù)飛躍，并帶來了整個(gè)領(lǐng)域研究范式的轉(zhuǎn)換。這種范式轉(zhuǎn)換帶來的影響主要體現(xiàn)在兩個(gè)方面：一是部分NLP研究子領(lǐng)域的衰退乃至逐步消亡；二是NLP不同子領(lǐng)域的技術(shù)方法和技術(shù)框架日趨統(tǒng)一，技術(shù)?；臼諗康絻煞N技術(shù)模式中。

1、部分NLP研究子領(lǐng)域的衰退乃至逐步消亡

NLP是一個(gè)宏觀研究領(lǐng)域的統(tǒng)稱，里面有五花八門具體的子領(lǐng)域與子方向，如果仔細(xì)分析，從任務(wù)的性質(zhì)角度，可以把這些任務(wù)分成兩大類：中間任務(wù)和最終任務(wù)。

1）中間任務(wù)

典型的中間任務(wù)主要包括中文分詞、詞性標(biāo)注、NER、句法分析、指代消解、語(yǔ)義Parser等，這類任務(wù)一般并不解決應(yīng)用中的實(shí)際需求，大多數(shù)是作為那些解決實(shí)際需求任務(wù)的中間階段或者輔助階段存在。比如幾乎沒有需求說，要一個(gè)句法Parser，把這個(gè)句子的句法分析樹給用戶看看，用戶不需要看到這些NLP的中間階段處理結(jié)果，只需關(guān)心某個(gè)具體任務(wù)有沒有干好。

2）最終任務(wù)

這類任務(wù)（文本分類、文本相似性計(jì)算、機(jī)器翻譯、文本摘要等）的特點(diǎn)是每個(gè)子領(lǐng)域都解決某個(gè)實(shí)際需求，任務(wù)結(jié)果基本能直接呈現(xiàn)給用戶，比如用戶確實(shí)存在給你一句英文，告訴他中文是什么的需求。

按理說，“中間任務(wù)”不應(yīng)該出現(xiàn)，而之所以會(huì)存在的原因是NLP技術(shù)發(fā)展水平不夠高。在技術(shù)發(fā)展早期階段，由于當(dāng)時(shí)技術(shù)相對(duì)落后，很難一步做好有難度的最終任務(wù)。如機(jī)器翻譯，早期技術(shù)要做好機(jī)器翻譯是很困難的，于是科研人員就把難題分而治之，分解成分詞、詞性標(biāo)注、句法分析等各種中間階段，先把每個(gè)中間階段做好，然后再拼起來完成最終任務(wù)。

自從Bert／GPT出現(xiàn)之后，就沒有必要做中間任務(wù)。因?yàn)橥ㄟ^大量數(shù)據(jù)的預(yù)訓(xùn)練，Bert／GPT已經(jīng)把這些中間任務(wù)作為語(yǔ)言學(xué)特征，吸收到Transformer的參數(shù)里，此時(shí)完全可以端到端地直接解決那些最終任務(wù)，而無(wú)須對(duì)這種中間過程專門建模。

2、不同研究方向技術(shù)路線的統(tǒng)一

除了“中間任務(wù)”，NLP任務(wù)可以劃分為兩大類型：自然語(yǔ)言理解和自然語(yǔ)言生成。自然語(yǔ)言理解任務(wù)包括文本分類、句子關(guān)系判斷、情感傾向判斷等分類任務(wù)，模型根據(jù)輸入文本判斷其屬于哪個(gè)類別。自然語(yǔ)言生成任務(wù)包括聊天機(jī)器人、機(jī)器翻譯、文本摘要、問答系統(tǒng)等生成任務(wù)，模型根據(jù)輸入文本生成相應(yīng)輸出文本。

自Bert/GPT模型出現(xiàn)后，NLP領(lǐng)域出現(xiàn)了技術(shù)統(tǒng)一趨向，特征抽取器逐漸從LSTM/CNN統(tǒng)一到Transformer上，多數(shù)任務(wù)采用預(yù)訓(xùn)練+微調(diào)或Zero/Few Shot Prompt模式。自然語(yǔ)言理解任務(wù)采用Bert為代表的雙向語(yǔ)言模型預(yù)訓(xùn)練+Fine-tuning模式，自然語(yǔ)言生成任務(wù)采用GPT 2.0為代表的自回歸語(yǔ)言模型+Zero/Few Shot Prompt模式。這兩種模式背后的發(fā)展思路和未來發(fā)展方向不同，但很多人低估了GPT模式的潛力。GPT模式的自回歸語(yǔ)言模型可以生成高質(zhì)量的文本，能夠應(yīng)用于多個(gè)自然語(yǔ)言生成任務(wù)且具有良好的遷移能力。相比之下，Bert模式在生成任務(wù)上表現(xiàn)較差且Fine-tuning方式需要大量標(biāo)注數(shù)據(jù)，不易適應(yīng)新任務(wù)。

二、從預(yù)訓(xùn)練模型走向通用人工智能（AGI，Artificial General Intelligence）

這次范式轉(zhuǎn)換涵蓋的時(shí)間大致在GPT3.0出現(xiàn)后，從2020年6月左右開始一直持續(xù)到現(xiàn)在。ChatGPT轉(zhuǎn)換的關(guān)鍵節(jié)點(diǎn)，但在InstructGPT出現(xiàn)之前，LLM處于范式轉(zhuǎn)換的過渡期。

1、以GPT 3.0為代表的“自回歸語(yǔ)言模型+Prompting”模式占據(jù)統(tǒng)治地位

在預(yù)訓(xùn)練模型發(fā)展的早期，技術(shù)框架收斂到Bert模式和GPT模式這兩種不同的技術(shù)范型，而且人們普遍更看好Bert模式一些，相當(dāng)多數(shù)的后續(xù)技術(shù)改進(jìn)，都是沿著Bert那條路走。但是，隨著技術(shù)的繼續(xù)發(fā)展就發(fā)現(xiàn)目前規(guī)模最大的LLM模型，幾乎清一色都是類似GPT 3.0的“自回歸語(yǔ)言模型+Prompting”模式（如GPT-3、PaLM、GLaM、Gopher、Chinchilla、MT-NLG、LaMDA等）。為什么會(huì)這樣呢？背后一定有其必然性，主要源于兩個(gè)原因。

1）Google的T5模型，在形式上統(tǒng)一自然語(yǔ)言理解和自然語(yǔ)言生成任務(wù)的外在表現(xiàn)形式

如上圖所示，T5模型中的文本分類問題和判斷句子相似性的回歸或分類問題，都是典型的自然語(yǔ)言理解問題。在T5模型中，這些自然語(yǔ)言理解問題的輸入輸出形式與生成問題保持一致，可以將分類問題轉(zhuǎn)換成讓LLM模型生成對(duì)應(yīng)類別的字符串，從而實(shí)現(xiàn)理解和生成任務(wù)在表現(xiàn)形式上的完全統(tǒng)一。這表明自然語(yǔ)言生成任務(wù)在表現(xiàn)形式上可以兼容自然語(yǔ)言理解任務(wù)，而反過來則很難做到這一點(diǎn)。這樣做的好處是，同一個(gè)LLM生成模型可以解決幾乎所有NLP問題。相比之下，如果仍然采用Bert模式，LLM模型則無(wú)法很好地處理生成任務(wù)。

2）如果要以零示例提示語(yǔ)（zero shot prompting）或少數(shù)示例提示語(yǔ)（few shot prompting）的方式做好任務(wù)就必須要采取GPT模式

研究表明，以fine-tuning方式解決下游任務(wù)時(shí)，Bert模式的效果優(yōu)于GPT模式。但是，如果是以zero shot/few shot prompting模式解決下游任務(wù)，則GPT模式的效果要優(yōu)于Bert模式。這說明，生成模型更容易完成zero shot/few shot prompting方式的任務(wù)，而Bert模式在這種方式下做任務(wù)時(shí)存在劣勢(shì)。

那么問題來了：為什么要追求zero shot/few shot prompting方式來做任務(wù)呢？要解釋清楚這個(gè)問題，首先需要搞清楚另外一個(gè)問題：什么樣的LLM模型最理想的？

對(duì)于LLM模型來說，首先，應(yīng)該具備強(qiáng)大的自主學(xué)習(xí)能力。如果將世界上所有可獲得的文本、圖片等不同類型的數(shù)據(jù)輸入模型中，應(yīng)該能夠自動(dòng)學(xué)習(xí)其中包含的所有知識(shí)點(diǎn)，學(xué)習(xí)過程不需要人的介入，并且能夠靈活應(yīng)用所學(xué)知識(shí)來解決實(shí)際問題。由于數(shù)據(jù)量龐大，要吸收所有知識(shí)，模型必然需要具備大量的參數(shù)來存儲(chǔ)知識(shí)，因此這個(gè)模型必然會(huì)是一個(gè)巨無(wú)霸模型。

其次，LLM模型應(yīng)該能夠解決NLP任何子領(lǐng)域的問題，而不僅限于某個(gè)有限的領(lǐng)域，甚至應(yīng)該能夠響應(yīng)NLP之外的其他領(lǐng)域的問題。此外，當(dāng)使用LLM模型解決某個(gè)具體領(lǐng)域的問題時(shí)，應(yīng)該使用人類習(xí)慣的表達(dá)方式，即LLM應(yīng)該理解人類的命令。這體現(xiàn)讓LLM適應(yīng)人類，而不是讓人去適應(yīng)LLM模型。人適應(yīng)LLM的典型例子是，人們會(huì)費(fèi)盡心思地嘗試各種不同的prompt，以試圖找到好的提示語(yǔ)，以便更好地解決手頭問題。

為什么要追求zero shot/few shot prompting這種方式來解決任務(wù)？主要有以下兩個(gè)原因。

1）理想中的LLM模型規(guī)模必然非常巨大，只有極少數(shù)機(jī)構(gòu)有能力制作出這個(gè)模型或改動(dòng)模型參數(shù)。任務(wù)需求方卻千千萬(wàn)萬(wàn)，其中大多數(shù)是中小機(jī)構(gòu)甚至個(gè)人即使模型開源，也無(wú)法部署這個(gè)模型，更不用說再使用Fine-tuning這種模式去修改模型參數(shù)了。因此應(yīng)該追求不修正模型參數(shù)就能讓任務(wù)需求方完成任務(wù)的方式，即應(yīng)該采取prompt模式完成任務(wù)，而非Fine-tuning模式。模型制作方則將LLM作為公用服務(wù)，以LLM as Service的模式運(yùn)行。

作為服務(wù)支持方，考慮到用戶需求的多樣性，LLM模型制作方更應(yīng)該追求讓LLM能夠完成盡可能多類型的任務(wù)，這是附帶的影響，也是為何超級(jí)大模型一定會(huì)追求走向AGI的現(xiàn)實(shí)因素。

2）zero shot prompting也好，few shot prompting也好，甚至促進(jìn)LLM推理能力的思維鏈（CoT, Chain of Thought）Prompting也好，都是現(xiàn)有技術(shù)中的一種。具體而言，zero shot prompting的初衷是直接用人類常用的任務(wù)表述方式讓LLM做事情，但是發(fā)現(xiàn)LLM并不能很好地理解，效果也不好。經(jīng)過繼續(xù)研究，人們轉(zhuǎn)而發(fā)現(xiàn)，對(duì)于某項(xiàng)任務(wù)，如果給LLM幾個(gè)示例，用這些示例來代表任務(wù)描述，效果會(huì)比zero shot prompting好，于是都開始研究更好的few shot prompting技術(shù)。

可以理解為，本來希望LLM能夠用人類常用的命令方式來執(zhí)行某個(gè)任務(wù)，但是目前技術(shù)還做不到，所以退而求其次，用這些替代技術(shù)來表達(dá)人類的任務(wù)需求。如果理解了上述邏輯，很容易得出如下結(jié)論：few shot prompting（也被稱為In Context Learning）只是一種過渡時(shí)期的技術(shù)。如果能夠更自然地去描述一個(gè)任務(wù)，而且LLM可以理解，那么肯定會(huì)毫不猶豫地拋棄這些過渡期的技術(shù)，原因很明顯，用這些方法來描述任務(wù)需求，并不符合人類的使用習(xí)慣。

2、讓LLM適配人的新型交互接口

ChatGPT是一種能力強(qiáng)大、善解人意的技術(shù)方法，最接近理想的LLM模型。ChatGPT的強(qiáng)大能力主要得益于GPT 3.5模型，而非人工標(biāo)注數(shù)據(jù)。雖然加入了人工標(biāo)注數(shù)據(jù)，但這些數(shù)據(jù)量級(jí)只有數(shù)萬(wàn)，對(duì)GPT 3.5的基礎(chǔ)能力增強(qiáng)作用微乎其微。

ChatGPT的最大貢獻(xiàn)在于它基本實(shí)現(xiàn)了理想LLM的接口層，讓LLM適配人的習(xí)慣命令表達(dá)方式，而不是反過來讓人去適配LLM。這增加了LLM的易用性和用戶體驗(yàn)，是一種更符合人類表達(dá)習(xí)慣的人和LLM進(jìn)行交互的人機(jī)接口技術(shù)。ChatGPT的技術(shù)貢獻(xiàn)必將啟發(fā)后續(xù)的LLM模型，在易用人機(jī)接口方面繼續(xù)做進(jìn)一步的工作。

3、很多NLP子領(lǐng)域不再具備獨(dú)立研究?jī)r(jià)值

范式轉(zhuǎn)換將會(huì)改變NLP領(lǐng)域的格局，許多獨(dú)立存在的研究領(lǐng)域?qū)⒈籐LM技術(shù)體系所納入，逐步消失。雖然許多“中間任務(wù)”不再需要獨(dú)立存在，但是大多數(shù)“最終任務(wù)”仍將作為獨(dú)立領(lǐng)域存在，只是在“預(yù)訓(xùn)練+fine-tuning”框架下，陸續(xù)提出新的改進(jìn)方案。

研究表明，隨著LLM模型規(guī)模的增大，許多NLP任務(wù)的效果會(huì)得到大幅提升。因此，很多領(lǐng)域所謂“獨(dú)有”的問題，只是因?yàn)槿狈︻I(lǐng)域知識(shí)而表現(xiàn)出來的外在表象。只要提供更多的領(lǐng)域數(shù)據(jù)給LLM，讓它自己學(xué)習(xí)更多知識(shí)，這些問題就可以被很好地解決。未來的技術(shù)發(fā)展趨勢(shì)應(yīng)該是追求規(guī)模越來越大的LLM模型，通過增加預(yù)訓(xùn)練數(shù)據(jù)的多樣性，來涵蓋越來越多的領(lǐng)域。研究重心將投入到如何構(gòu)建理想LLM模型，而非解決某個(gè)領(lǐng)域的具體問題。因此，越來越多NLP的子領(lǐng)域?qū)⒈患{入LLM技術(shù)體系，逐步消失。

判斷某個(gè)具體領(lǐng)域是否需要立即停止獨(dú)立研究，可以采取以下兩種方法：一是判斷LLM的研究效果是否超過人類表現(xiàn)，對(duì)于那些LLM效果已超過人類表現(xiàn)的研究領(lǐng)域，已無(wú)獨(dú)立研究的必要。二是對(duì)比兩種模式的任務(wù)效果，如果few-shot prompting或instruct-based方法的效果達(dá)到或超過用較大的領(lǐng)域?qū)Ｓ脭?shù)據(jù)進(jìn)行Fine-tuning的效果，則意味著這個(gè)領(lǐng)域沒有繼續(xù)獨(dú)立存在的必要性。

如果這個(gè)猜測(cè)成立，將意味著很多NLP領(lǐng)域的研究人員面臨著往何處去的選擇，是繼續(xù)做領(lǐng)域獨(dú)有問題呢？還是放棄這種方式，轉(zhuǎn)而去建設(shè)更好的LLM？

4、更多NLP之外的研究領(lǐng)域?qū)⒈患{入LLM技術(shù)體系

理想中的LLM應(yīng)該是一種通用的人工智能模型，不應(yīng)該被限制在某一個(gè)學(xué)科領(lǐng)域內(nèi)。ChatGPT的出現(xiàn)證明了這種追求AGI的可行性，而現(xiàn)在是拋開“領(lǐng)域?qū)W科”這種思維束縛的時(shí)候了。除展示出在各種NLP任務(wù)中流暢的對(duì)話形式，ChatGPT還具備強(qiáng)大的代碼能力。

LLM技術(shù)正在向外擴(kuò)展，其中一個(gè)自然的方向是圖像處理和多模態(tài)任務(wù)。目前已經(jīng)有一些工作在嘗試將多模態(tài)融入LLM中，以實(shí)現(xiàn)通用人機(jī)接口的功能，例如DeepMind的Flamingo和微軟的“Language Models are General-Purpose Interfaces”。

圖像領(lǐng)域的預(yù)訓(xùn)練模型應(yīng)用到下游任務(wù)的效果收益遠(yuǎn)不如NLP領(lǐng)域的預(yù)訓(xùn)練模型顯著，這可能是因?yàn)閳D像預(yù)處理模型仍需深入探索，以釋放圖像數(shù)據(jù)的潛力。因此，圖像處理領(lǐng)域被融入LLM的時(shí)間可能會(huì)比想象的要慢。當(dāng)然，如果圖像領(lǐng)域的預(yù)訓(xùn)練模型被趟通，它們很可能會(huì)被融入到大型LLM中，直接完成終端任務(wù)，類似于NLP領(lǐng)域的局面。

除了圖像和多模態(tài)，其他領(lǐng)域也將逐漸被納入到LLM中，這是具備高價(jià)值的研究主題。范式轉(zhuǎn)換的個(gè)人思考表明，LLM技術(shù)的主要技術(shù)進(jìn)展可以分為兩大類：一類是關(guān)于LLM模型如何從數(shù)據(jù)中吸收知識(shí)，也包括模型規(guī)模增長(zhǎng)對(duì)LLM吸收知識(shí)能力帶來的影響。第二類是關(guān)于人如何使用LLM內(nèi)在能力來解決任務(wù)的人機(jī)接口，包括In Context Learning和Instruct兩種模式。思維鏈（CoT）prompting這種LLM推理技術(shù)，本質(zhì)上也屬于In Context Learning。

從無(wú)盡數(shù)據(jù)導(dǎo)海量知識(shí)

目前的研究結(jié)果表明，Transformer作為一個(gè)特征抽取器已經(jīng)足夠強(qiáng)大，不需要進(jìn)行特別的改進(jìn)。預(yù)訓(xùn)練過程讓Transformer學(xué)到了什么？知識(shí)是如何存儲(chǔ)的？如何修正錯(cuò)誤的知識(shí)？這些問題是當(dāng)前研究的重點(diǎn)。本節(jié)講述這方面的研究進(jìn)展。

一、LLM學(xué)到了什么知識(shí)

LLM通過學(xué)習(xí)海量自由文本，獲得了大量的知識(shí)，可以將這些知識(shí)粗略地分為語(yǔ)言類知識(shí)和世界知識(shí)兩大類。語(yǔ)言類知識(shí)包括詞法、詞性、句法和語(yǔ)義等，有助于人類或機(jī)器理解自然語(yǔ)言。研究表明，LLM可以學(xué)習(xí)各種層次類型的語(yǔ)言學(xué)知識(shí)，并且這些知識(shí)存儲(chǔ)在Transformer的低層和中層。世界知識(shí)則包括真實(shí)事件（事實(shí)型知識(shí)）和常識(shí)性知識(shí)（Common Sense Knowledge）。

研究表明，LLM可以從訓(xùn)練數(shù)據(jù)中吸收大量世界知識(shí)，并且這些知識(shí)主要分布在Transformer的中層和高層，隨著模型層數(shù)的增加，能夠?qū)W習(xí)到的知識(shí)數(shù)量逐漸以指數(shù)級(jí)增加。對(duì)于Bert類型的語(yǔ)言模型來說，只用1000萬(wàn)到1億單詞的語(yǔ)料，就能學(xué)好句法語(yǔ)義等語(yǔ)言學(xué)知識(shí)，但是要學(xué)習(xí)事實(shí)類知識(shí)，則需要更多的訓(xùn)練數(shù)據(jù)。隨著增加訓(xùn)練數(shù)據(jù)量，預(yù)訓(xùn)練模型在各種下游任務(wù)中效果越好，這說明了從增量的訓(xùn)練數(shù)據(jù)中學(xué)到的更主要是世界知識(shí)。

二、LLM如何存取知識(shí)

LLM是一種基于Transformer結(jié)構(gòu)的語(yǔ)言模型，可以從大量的自由文本中學(xué)習(xí)到豐富的語(yǔ)言類和世界知識(shí)。但對(duì)于具體的某條知識(shí)，LLM是如何存儲(chǔ)和提取的呢？從Transformer的結(jié)構(gòu)來看，模型參數(shù)由兩部分構(gòu)成：多頭注意力（MHA）部分占了大約參數(shù)總體的三分之一，三分之二的參數(shù)集中在FFN結(jié)構(gòu)中。

FFN的第一層是一個(gè)MLP寬隱層，也就是Key層；第二層是一個(gè)MLP窄隱層，也就是Value層。FFN的輸入層實(shí)際上是某個(gè)單詞對(duì)應(yīng)的MHA的輸出結(jié)果Embedding，也就是通過Self Attention，將整個(gè)句子有關(guān)的輸入上下文集成到一起的Embedding，代表了整個(gè)輸入句子的整體信息。

Key層的每個(gè)神經(jīng)元節(jié)點(diǎn)，記載了一對(duì)信息。比如對(duì)于FFN第一個(gè)隱層的第i個(gè)節(jié)點(diǎn)ki，也許就是它記載了<北京，is-capital-of，中國(guó)>這條知識(shí)。ki節(jié)點(diǎn)對(duì)應(yīng)的Key向量，其實(shí)指的是節(jié)點(diǎn)ki和輸入層每個(gè)節(jié)點(diǎn)的權(quán)重向量；而對(duì)應(yīng)的Value向量，指的是節(jié)點(diǎn)ki和FFN第二層的Value層每個(gè)節(jié)點(diǎn)形成連接的權(quán)重向量。

每個(gè)神經(jīng)元的Key向量，用于識(shí)別輸入中的某種語(yǔ)言或者知識(shí)模式，是一種模式探測(cè)器。如果輸入中包含它要檢測(cè)的某種模式，那么輸入向量和ki節(jié)點(diǎn)的key權(quán)重進(jìn)行向量?jī)?nèi)積計(jì)算，加上Relu，形成ki的大數(shù)值響應(yīng)，意味著ki檢測(cè)到了這個(gè)模式，于是再把這個(gè)響應(yīng)值，通過ki節(jié)點(diǎn)的Value權(quán)重向量向FFN第二層傳播。這等價(jià)于將Value向量的值，用響應(yīng)值加權(quán)，然后傳遞并體現(xiàn)到第二層Value層每個(gè)節(jié)點(diǎn)的輸出上。

這樣，F(xiàn)FN的正向傳播計(jì)算過程，看起來就像是通過Key檢測(cè)到某種知識(shí)模式，然后取出對(duì)應(yīng)的Value，并把Value體現(xiàn)在FFN的第二層輸出上。當(dāng)然，F(xiàn)FN第二層每個(gè)節(jié)點(diǎn)，會(huì)收集FFN的Key層所有節(jié)點(diǎn)信息，所以是一種混合響應(yīng)，而Value層所有節(jié)點(diǎn)的混合響應(yīng)，可以解讀為代表輸出單詞的概率分布信息。把FFN看成Key-Value存儲(chǔ)器這種思路，雖然可能不是最終的正確答案，但是距離最終正確答案的距離，估計(jì)也不太遠(yuǎn)。

三、如何修正LLM里存儲(chǔ)的知識(shí)

當(dāng)使用LLM進(jìn)行自然語(yǔ)言處理時(shí)，可能會(huì)遇到一些過時(shí)或錯(cuò)誤的知識(shí)。為了解決這個(gè)問題，可以使用三種不同的方法來修正LLM中存儲(chǔ)的知識(shí)。

1、從訓(xùn)練數(shù)據(jù)的源頭開始修正知識(shí)

通過追蹤某條知識(shí)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)源頭定位到是哪些數(shù)據(jù)導(dǎo)致LLM學(xué)會(huì)知識(shí)。然后刪除數(shù)據(jù)源，重新預(yù)訓(xùn)練整個(gè)LLM模型，以達(dá)到刪除LLM中相關(guān)知識(shí)的目的。但這種方法在少量多次的常規(guī)知識(shí)修正場(chǎng)景中不適用。

2、通過fine-tuning來修正知識(shí)

根據(jù)要修正成的新知識(shí)來構(gòu)建訓(xùn)練數(shù)據(jù)，讓LLM模型在練數(shù)據(jù)上做fine-tuning，以指導(dǎo)LLM記住新的知識(shí)，遺忘舊知識(shí)。但是會(huì)有忘掉該忘的知識(shí)，還會(huì)忘掉不該忘的知識(shí)現(xiàn)象存在，導(dǎo)致這么做之后有些下游任務(wù)效果下降。此外成本也相當(dāng)高。

3、直接修改LLM的模型參數(shù)來修正知識(shí)

通過定位存儲(chǔ)知識(shí)的具體位置，強(qiáng)行調(diào)整FFN中對(duì)應(yīng)的模型參數(shù)，將舊知識(shí)替換成新的知識(shí)。然而，這種方法需要解決兩個(gè)關(guān)鍵問題。首先需要知道如何在LLM參數(shù)空間中定位某條知識(shí)的具體存儲(chǔ)位置。其次需要知道如何修正模型參數(shù)，以實(shí)現(xiàn)舊知識(shí)到新知識(shí)的修正。

理解修正LLM知識(shí)的過程對(duì)于更深入理解LLM的內(nèi)部運(yùn)作機(jī)制是很有幫助的。雖然三種方法各有優(yōu)缺點(diǎn)，但都可以幫助修正LLM中的過時(shí)或錯(cuò)誤的知識(shí)，提高LLM在自然語(yǔ)言處理任務(wù)中的表現(xiàn)。

當(dāng)LLM越來越大時(shí)會(huì)發(fā)生什么

近年來，LLM模型規(guī)模不斷增長(zhǎng)，目前效果最好的LLM模型，其參數(shù)規(guī)模大都超過了千億（100B）參數(shù)規(guī)模。如OpenAI的GPT-3規(guī)模為175B，Google的LaMDA規(guī)模為137B，PaLM的規(guī)模為540B，DeepMind的Gogher規(guī)模為280B等。國(guó)內(nèi)也有中文巨型模型，比如清華&智譜GLM規(guī)模130B，華為“盤古”規(guī)模200B，百度“文心”規(guī)模260B，浪潮“源1.0”規(guī)模245B。

那么問題來了，隨著LLM模型規(guī)模的不斷增長(zhǎng)會(huì)發(fā)生些什么呢？預(yù)訓(xùn)練模型的應(yīng)用往往是兩階段的：預(yù)訓(xùn)練階段和具體場(chǎng)景應(yīng)用階段。在預(yù)訓(xùn)練階段，LLM模型的優(yōu)化目標(biāo)是交叉熵，對(duì)于像GPT這種自回歸語(yǔ)言模型來說，也就是看LLM是否正確預(yù)測(cè)下一個(gè)單詞。而在場(chǎng)景應(yīng)用階段，一般要看具體場(chǎng)景的評(píng)價(jià)指標(biāo)。通常，LLM模型在預(yù)訓(xùn)練階段的指標(biāo)越好解決下游任務(wù)的能力就越強(qiáng)。然而，事實(shí)并非完全如此。

現(xiàn)有研究表明，預(yù)訓(xùn)練階段的優(yōu)化指標(biāo)確實(shí)和下游任務(wù)表現(xiàn)出正相關(guān)關(guān)系，但并非完全正相關(guān)。也就是說，僅僅看預(yù)訓(xùn)練階段的指標(biāo)來判斷一個(gè)LLM模型是否夠好是不夠的。因此需要在模型的預(yù)訓(xùn)練階段和應(yīng)用階段都進(jìn)行充分的評(píng)估和測(cè)試。

在預(yù)訓(xùn)練階段，OpenAI和DeepMind的研究表明，同時(shí)增加訓(xùn)練數(shù)據(jù)量和模型參數(shù)是最優(yōu)的選擇，而只單獨(dú)增加其中某一個(gè)是不夠好的。DeepMind認(rèn)為，訓(xùn)練數(shù)據(jù)量和模型參數(shù)是同等重要的，因此應(yīng)該同比例地增加。比如，如果用于訓(xùn)練LLM的算力總預(yù)算增加了10倍，那么應(yīng)該增加3.3倍的模型參數(shù)量，3.3倍的訓(xùn)練數(shù)據(jù)量，這樣模型效果才最好。而對(duì)于Chinchilla模型，它選擇增加4倍的訓(xùn)練數(shù)據(jù)，但是將模型參數(shù)降低為Gopher的四分之一，大約為70B。這樣做的結(jié)果是，Chinchilla的預(yù)訓(xùn)練指標(biāo)和許多下游任務(wù)指標(biāo)都要優(yōu)于規(guī)模更大的Gopher。這表明，可以選擇放大訓(xùn)練數(shù)據(jù)，并同比例地減少LLM模型參數(shù)，以達(dá)到在不降低模型效果的前提下，極大縮小模型規(guī)模的目的。

從LLM解決下游具體任務(wù)效果的角度來看，隨著模型規(guī)模增大，不同類型的任務(wù)有不同的表現(xiàn)。比如，對(duì)于簡(jiǎn)單的任務(wù)，如語(yǔ)言模型的困惑度，隨著模型規(guī)模增大，模型效果會(huì)不斷提升。在OpenAI的研究中，當(dāng)訓(xùn)練數(shù)據(jù)量從12B增加到800B時(shí)，GPT-3模型的困惑度從3.15降低到1.28。

對(duì)于中等難度的任務(wù)，如問答、文本分類等，隨著模型規(guī)模增大，模型效果會(huì)先提升后趨于平穩(wěn)。在OpenAI的研究中，當(dāng)訓(xùn)練數(shù)據(jù)量從12B增加到800B時(shí)，GPT-3模型在LAMBADA和SuperGLUE等任務(wù)上的表現(xiàn)都有所提升，但是提升幅度逐漸減小。對(duì)于復(fù)雜的任務(wù)，如機(jī)器翻譯、語(yǔ)義理解等，隨著模型規(guī)模增大，模型效果會(huì)先提升后出現(xiàn)飽和現(xiàn)象或者略微下降。在Google的研究中，當(dāng)模型參數(shù)量從1558M增加到137B時(shí)，BLEU分?jǐn)?shù)從36.8提高到37.5，但是隨著模型規(guī)模進(jìn)一步增大，BLEU分?jǐn)?shù)反而略微下降。因此，在選擇LLM模型規(guī)模時(shí)，需要根據(jù)具體任務(wù)的難度和要求，綜合考慮各種因素，以獲得最佳的模型性能。

第一類任務(wù)展現(xiàn)了LLM模型的scaling law，即隨著模型規(guī)模的增大，任務(wù)的表現(xiàn)越來越好。這類任務(wù)通常是知識(shí)密集型任務(wù)，LLM模型包含的知識(shí)量越多，任務(wù)表現(xiàn)越好。研究表明，更大的LLM模型學(xué)習(xí)效率越高，相同訓(xùn)練數(shù)據(jù)量，大模型可以學(xué)到更多的知識(shí)點(diǎn)。傳統(tǒng)的自然語(yǔ)言理解類任務(wù)大多屬于這種類型，近兩年這些任務(wù)的效果有了極大的提升，很可能是因?yàn)長(zhǎng)LM模型的規(guī)模增長(zhǎng)所帶來的。

第二類任務(wù)展現(xiàn)出LLM具備某種“涌現(xiàn)能力”，當(dāng)模型規(guī)模達(dá)到某個(gè)閥值時(shí)，LLM模型對(duì)此類任務(wù)的效果會(huì)出現(xiàn)突然的性能增長(zhǎng)。這種“涌現(xiàn)能力”是LLM模型規(guī)模增長(zhǎng)的關(guān)鍵，隨著模型規(guī)模越來越大，LLM模型會(huì)逐漸解鎖新的能力。這種現(xiàn)象很神奇，因?yàn)榧词筁LM模型現(xiàn)在還不能很好地解決某些任務(wù)，但如果繼續(xù)推大模型，也許某一天它的這項(xiàng)能力就被突然解鎖了。這些任務(wù)一般由多步驟構(gòu)成，需要先解決多個(gè)中間步驟，邏輯推理能力在最終解決這類任務(wù)中發(fā)揮重要作用。思維鏈Prompting是一種典型的增強(qiáng)LLM推理能力的技術(shù)，能大幅提升此類任務(wù)的效果。關(guān)于為何LLM會(huì)出現(xiàn)這種“涌現(xiàn)能力”現(xiàn)象，目前還需要進(jìn)一步的研究。

還有一部分任務(wù)的效果曲線呈現(xiàn)出U形特性，即隨著模型規(guī)模的增大，任務(wù)效果逐漸變差，但當(dāng)模型規(guī)模進(jìn)一步增大時(shí)，效果開始變好，呈現(xiàn)出U形增長(zhǎng)趨勢(shì)。這些任務(wù)內(nèi)部隱含了兩種不同類型的子任務(wù)，一種是真正的任務(wù)，另一種是“干擾任務(wù)”。當(dāng)模型規(guī)模小的時(shí)候，無(wú)法識(shí)別任意一種子任務(wù)，所以模型的表現(xiàn)跟隨機(jī)選擇答案差不多。

當(dāng)模型增長(zhǎng)到中等規(guī)模時(shí)，主要執(zhí)行的是干擾任務(wù)，所以對(duì)真正的任務(wù)效果有負(fù)面影響，體現(xiàn)為真正任務(wù)效果的下降。當(dāng)進(jìn)一步增加模型規(guī)模時(shí)，LLM可以忽略干擾任務(wù)，執(zhí)行真正的任務(wù)，效果開始增長(zhǎng)。如果采用思維鏈（CoT）Prompting，則部分任務(wù)的表現(xiàn)轉(zhuǎn)換為遵循Scaling law，即模型規(guī)模越大效果越好，而其他任務(wù)則轉(zhuǎn)換為U形增長(zhǎng)曲線。這說明此類任務(wù)應(yīng)屬于推理類型的任務(wù)，加入CoT后任務(wù)表現(xiàn)會(huì)發(fā)生質(zhì)的變化。

從In Context Learning到Instruct理解

一般常提到的人和LLM的接口技術(shù)包括：Instruct和In Context Learning。Instruct是ChatGPT的接口方式，人以自然語(yǔ)言給出任務(wù)的描述，例如“把這個(gè)句子從中文翻譯成英文”。而In Context Learning和few shot prompting意思類似，給LLM幾個(gè)示例作為范本，然后讓LLM解決新問題。

雖然這些技術(shù)都是描述任務(wù)的方式，但其實(shí)思路是不同的。Instruct是一種抽象的描述方式，而In Context Learning是一種例子示范的說明法。盡管叫法有些混亂，但這兩種技術(shù)是最為常見的人和LLM的接口技術(shù)。下面將重點(diǎn)介紹Instruct和In Context Learning，而不再提及zero shot和few shot。

一、神秘的In Context Learning

In Context Learning是一項(xiàng)非常神奇的技術(shù)。它之所以神奇，是因?yàn)橹恍枰峁㎜LM幾個(gè)樣本示例,....，然后給一個(gè)新的輸入xn+1，LLM就能成功預(yù)測(cè)對(duì)應(yīng)的輸出yn+1。這聽起來有些類似于Fine-tuning，但實(shí)際上更為復(fù)雜。

Fine-tuning和In Context Learning看似都提供了一些示例給LLM，但兩者之間存在著質(zhì)的不同。Fine-tuning使用這些示例作為訓(xùn)練數(shù)據(jù)，通過反向傳播來修正LLM的模型參數(shù)，從而實(shí)現(xiàn)了LLM從示例中學(xué)習(xí)的過程。而In Context Learning只是簡(jiǎn)單地展示示例，然后要求LLM去預(yù)測(cè)新的示例，沒有使用反向傳播來修正模型參數(shù)，這意味著它貌似沒有經(jīng)歷學(xué)習(xí)的過程。但是，In Context Learning卻能夠僅憑一眼就預(yù)測(cè)出新的示例。

目前，有一些研究對(duì)這個(gè)問題提出了不同的看法，但是它們之間存在著相互矛盾的結(jié)論。對(duì)于這個(gè)問題的真相，目前仍是未解之謎。有些研究認(rèn)為In Context Learning并沒有從示例中學(xué)習(xí)映射函數(shù)，而是通過輸入和輸出的分布來實(shí)現(xiàn)預(yù)測(cè)。而另一些研究則認(rèn)為L(zhǎng)LM仍然從示例中學(xué)習(xí)了映射函數(shù)，只是這個(gè)過程是隱式的。

二、神奇的Instruct理解

Instruct是一種為了方便人類理解的任務(wù)表述?；谶@個(gè)前提，目前的Instruct研究可以分為兩類：一種是偏向?qū)W術(shù)研究的Instruct，另一種則是關(guān)注于人類真實(shí)需求描述的Instruct。

首先，來看偏向?qū)W術(shù)研究的Instruct。該領(lǐng)域的核心研究主題是LLM模型在多任務(wù)場(chǎng)景下對(duì)Instruct理解的泛化能力。這種方法使用多個(gè)NLP任務(wù)，每個(gè)任務(wù)都有一個(gè)或多個(gè)Prompt模版作為Instruct，并用訓(xùn)練數(shù)據(jù)對(duì)LLM模型進(jìn)行微調(diào)，使其能夠同時(shí)學(xué)習(xí)多個(gè)任務(wù)。

訓(xùn)練好模型后，給LLM模型一個(gè)全新的任務(wù)Instruct，然后讓LLM解決zero shot任務(wù)，從而判斷LLM模型是否具有對(duì)Instruct的泛化能力。目前的研究表明，增加多任務(wù)的數(shù)量、增加LLM模型的大小、提供CoT Prompting以及增加任務(wù)的多樣性等因素可以有效地增加LLM模型對(duì)Instruct的理解能力。

第二種是面向人類真實(shí)需求的Instruct，這類研究以InstructGPT和ChatGPT為代表。這種方法同樣基于多任務(wù)，但與偏向?qū)W術(shù)研究的方法最大的不同在于它是面向真實(shí)需求的。它使用從大量用戶提交的真實(shí)請(qǐng)求中抽樣而來的任務(wù)描述Prompt進(jìn)行LLM多任務(wù)訓(xùn)練，而不是固定好研究任務(wù)的范圍，然后讓研究人員來編寫任務(wù)描述prompt。

這種方法的優(yōu)勢(shì)在于可以涵蓋更多樣化的任務(wù)類型，更符合用戶的真實(shí)需求；同時(shí)，任務(wù)的prompt描述來自用戶提交的請(qǐng)求，反映了用戶在表達(dá)任務(wù)需求時(shí)的真實(shí)表述方式。因此，這種方法訓(xùn)練出的LLM模型可以更好地滿足用戶需求。InstructGPT論文還將該方法與偏向?qū)W術(shù)研究的FLAN方法進(jìn)行了比較。結(jié)果表明，F(xiàn)LAN方法的效果距離InstructGPT有很大差距。這是因?yàn)镕LAN方法涉及的任務(wù)領(lǐng)域相對(duì)較少，而InstructGPT使用的任務(wù)類型更加多樣化，更符合用戶的真實(shí)需求。因此，從用戶數(shù)據(jù)中收集真實(shí)需求對(duì)于提高LLM模型的效果是非常重要的。

三、In Context Learning和Instruct的聯(lián)系

可以將In Context Learning看作是通過一些具體的例子來表達(dá)任務(wù)命令，而Instruct則是更符合人類習(xí)慣的抽象任務(wù)描述。這引發(fā)了一個(gè)自然的問題：這兩種方法之間是否存在聯(lián)系？例如，是否可以提供一些具體的示例，讓LLM找出對(duì)應(yīng)的自然語(yǔ)言描述的Instruct命令來完成某個(gè)任務(wù)？

目前有些研究工作在探索具象任務(wù)示例和自然語(yǔ)言命令之間的聯(lián)系，并且這個(gè)方向具有很高的研究?jī)r(jià)值。在這個(gè)問題上，答案是肯定的：LLM確實(shí)可以實(shí)現(xiàn)這個(gè)任務(wù)。最近的一項(xiàng)研究使用了GPT-3和InstructGPT作為基礎(chǔ)模型，讓LLM通過一些具體的示例生成自然語(yǔ)言命令來描述某項(xiàng)任務(wù)，然后再用這個(gè)描述測(cè)試任務(wù)效果。這項(xiàng)技術(shù)的加持使得LLM生成的Instruct效果大大提升，甚至在一些任務(wù)上超過了人類的表現(xiàn)。這表明了具象任務(wù)示例和自然語(yǔ)言命令之間存在一種神秘的內(nèi)在聯(lián)系，但我們目前還無(wú)法確定這種聯(lián)系的具體本質(zhì)。

如何增強(qiáng)LLM的推理能力

目前，許多研究表明LLM具有強(qiáng)大的記憶能力，但通常不會(huì)因?yàn)橐粋€(gè)人記憶能力強(qiáng)就認(rèn)為他/她很聰明，因?yàn)橥评砟芰ν桥袛嘁粋€(gè)人是否聰明的重要標(biāo)準(zhǔn)。因此，對(duì)于LLM而言，強(qiáng)大的推理能力也是必不可少的。在過去一年中，LLM的推理能力已成為最重要和熱門的研究領(lǐng)域之一。目前的研究表明，當(dāng)模型規(guī)模足夠大時(shí)，LLM本身具備推理能力，在簡(jiǎn)單推理問題上已經(jīng)達(dá)到了很好的能力，但在復(fù)雜推理問題上仍需要更深入的研究。

LLM推理能力的研究可以歸為兩大類分別是基于Prompt的方法和引入程序代碼的方法。基于Prompt的方法通過合適的提示語(yǔ)或提示樣本來激發(fā)LLM本身具備的推理能力，Google在這個(gè)方向做了很多有成效的工作。而引入程序代碼的方法則在預(yù)訓(xùn)練過程中將代碼和文本一起參與預(yù)訓(xùn)練，以此進(jìn)一步增強(qiáng)LLM的推理能力，這是OpenAI實(shí)踐出的思路。這兩種方法的大方向是迥異的：前者是通過提供多樣性的訓(xùn)練數(shù)據(jù)來直接增強(qiáng)LLM推理能力，而后者則是讓LLM在解決問題過程中更好地展示出推理能力的技術(shù)方法。雖然這兩種方法互補(bǔ)，但從長(zhǎng)遠(yuǎn)來看，治本的方法更為重要。

歸納一下大致可以分為三條技術(shù)路線。

一、直接在問題上追加輔助推理Prompt

在各個(gè)領(lǐng)域，基于Prompt的方法都被證明是一種有效的方法來增強(qiáng)LLM的推理能力。這種方法非常簡(jiǎn)單，直接在問題上追加輔助推理Prompt即可。其中，Zero-shot CoT是一種被廣泛應(yīng)用的方法，它通過在提問的問題上追加“Let’s think step by step”這句提示語(yǔ)來激發(fā)LLM本身具備的推理能力。

具體而言，分為兩個(gè)階段，第一階段在問題上追加提示語(yǔ)，LLM會(huì)輸出具體的推理過程；第二階段，拼接LLM輸出的具體推理過程，并再追加Prompt，此時(shí)LLM會(huì)給出答案。這種簡(jiǎn)單的操作可以大幅增加LLM在各項(xiàng)推理任務(wù)中的效果。目前，關(guān)于LLM為什么會(huì)具備推理能力的原因尚無(wú)定論，但可能是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)中存在大量以“Let’s think step by step”開頭的數(shù)據(jù)，LLM在預(yù)訓(xùn)練的時(shí)候記住了這些模式。

因此，當(dāng)我們輸入這個(gè)提示語(yǔ)的時(shí)候，LLM會(huì)模仿這些例子進(jìn)行步驟推理并給出答案。當(dāng)然，Zero-shot CoT的效果比標(biāo)準(zhǔn)CoT差一些，因?yàn)榭縇LM回憶示例，精準(zhǔn)性估計(jì)不會(huì)太高。但無(wú)論是Zero-shot CoT還是標(biāo)準(zhǔn)CoT，都說明了一個(gè)道理，就是LLM本身是具備推理能力的，只是我們沒有辦法把它的這種能力激發(fā)出來而已。

二、基于示例的思維鏈（few-shot CoT,Chain of Thought）Prompting

目前，基于Prompt的方法是LLM推理研究的主要方向，很多工作都是在這個(gè)思路上展開的。在這個(gè)方向上，有幾個(gè)代表性的工作取得了顯著的效果，這些工作基本能代表CoT技術(shù)發(fā)展的方向。

CoT的主體思想非常簡(jiǎn)單明了，為了讓LLM模型學(xué)會(huì)推理，需要給出一些人工寫好的推理示例，示例中詳細(xì)說明得到最終答案前的具體推理步驟，而這些人工寫的詳細(xì)推理過程就是思維鏈Prompting。CoT的目的是讓LLM模型明白在推理過程中，步子不要邁得太大，需要化大問題為小問題，步步為營(yíng)，積小勝為大勝。最早明確提出CoT這個(gè)概念的文章是“Chain of thought prompting elicits reasoning in large language models”，該論文于2022年1月份發(fā)布。盡管CoT的做法很簡(jiǎn)單，但應(yīng)用CoT后LLM模型的推理能力得到了巨大提升，GSM8K數(shù)學(xué)推理測(cè)試集準(zhǔn)確率提高到了約60.1%。值得一提的是，這種給出詳細(xì)推理步驟和中間過程的思想，并非CoT最早提出的。更早一些的“scratchpad”技術(shù)就采用了類似的思路。

CoT提出不久，隨后在2022年3月份，一項(xiàng)名為“Self-Consistency”的改進(jìn)技術(shù)迅速問世，將GSM8K測(cè)試集準(zhǔn)確率提高到了74.4%。這項(xiàng)改進(jìn)技術(shù)的思路也很簡(jiǎn)單明了，首先利用CoT給出幾個(gè)寫了推理過程的示例，然后要求LLM對(duì)給定的問題進(jìn)行推理，但不同于CoT的是，“Self-Consistency”要求LLM輸出多個(gè)不同的推理過程和答案，并采用投票的方式選出最佳答案。這種思路教導(dǎo)LLM學(xué)會(huì)這樣一個(gè)道理：一個(gè)數(shù)學(xué)題的正確解法可以有很多種，每個(gè)不同的推導(dǎo)過程都指向最終的答案。簡(jiǎn)單的方法往往蘊(yùn)含著深刻的哲學(xué)含義。之后，“On the Advance of Making Language Models Better Reasoners”這個(gè)工作在“Self-Consistency”的基礎(chǔ)上，進(jìn)一步集成了“從一個(gè)Prompt問題拓展到多個(gè)Prompt問題、檢查推理中間步驟的正確性以及對(duì)多個(gè)輸出的回答加權(quán)投票”這三個(gè)改進(jìn)點(diǎn)，將GSM8K測(cè)試集準(zhǔn)確率提高到了約83%。

三、分治算法

核心思想是將一個(gè)復(fù)雜的推理問題分解成若干個(gè)容易解決的子問題，解決這些子問題，再?gòu)淖訂栴}的答案推導(dǎo)出復(fù)雜問題的答案。這種思路可能是揭示問題本質(zhì)、最終解決LLM復(fù)雜推理問題的正宗道路。以“Least-to-most prompting”技術(shù)為例，它分為兩個(gè)階段。在第一個(gè)階段，我們從原始問題中得到最終要問的問題，然后構(gòu)造一個(gè)Prompt模板，填充“如果要解決Final Q問題，那么我需要先解決”的內(nèi)容，讓LLM模型回答，得到前置子問題Sub Q。在第二個(gè)階段，讓LLM先回答子問題Sub Q，并得到對(duì)應(yīng)的答案，然后將原始問題與子問題Sub Q及對(duì)應(yīng)答案拼接在一起，再去問LLM最終問題Final Q，此時(shí)LLM會(huì)給出最終的答案。這種思路體現(xiàn)了拆解子問題，并從子問題的答案逐步找出最終答案的思路，類似于分治算法的思想。

代碼預(yù)訓(xùn)練增強(qiáng)LLM推理能力

上面提到了當(dāng)前利用Prompt激發(fā)LLM模型推理能力的三種主流方法，同時(shí)還觀察到了一個(gè)有趣而費(fèi)解的現(xiàn)象：除了文本之外，將程序代碼與文本一起參與模型的預(yù)訓(xùn)練可以顯著提高LLM模型的推理能力。

在論文“On the Advance of Making Language Models Better Reasoners”中，通過實(shí)驗(yàn)數(shù)據(jù)展示了一個(gè)有趣的現(xiàn)象：將程序代碼與文本一起參與模型預(yù)訓(xùn)練，可以顯著提升LLM模型的推理能力。實(shí)驗(yàn)結(jié)果表明，僅僅是從純文本預(yù)訓(xùn)練模型切換到文本和Code混合預(yù)訓(xùn)練模型，就可以在幾乎所有測(cè)試數(shù)據(jù)集合上，將模型推理能力提升20到50個(gè)百分點(diǎn)。

此外研究還發(fā)現(xiàn)，GPT 3這種純文本預(yù)訓(xùn)練模型，其實(shí)具備相當(dāng)程度的推理能力，只是需要采用合適的方法來激發(fā)。而加入instruct fine-tuning會(huì)損害LLM模型的推理能力，但會(huì)在一定程度上提升自然語(yǔ)言理解能力。至于為何預(yù)訓(xùn)練模型可以從代碼的預(yù)訓(xùn)練中獲得額外的推理能力，目前尚未得到確切的原因，但可能是因?yàn)榇a訓(xùn)練本質(zhì)上是<文本,Code>兩種數(shù)據(jù)的多模態(tài)對(duì)齊工作，其中包含相當(dāng)比例的數(shù)學(xué)或邏輯推理類的數(shù)據(jù)，對(duì)于解決下游數(shù)學(xué)推理問題是有幫助的。這些結(jié)論啟發(fā)了后續(xù)進(jìn)一步的思考和探索。

關(guān)于LLM推理能力的思考

最近一年來，關(guān)于激發(fā)LLM的推理能力的技術(shù)進(jìn)展很快，但總體感覺距離接觸到真正的問題本質(zhì)還有一段距離，需要更深入的思考和探索。對(duì)于復(fù)雜的推理問題，將其拆解成若干簡(jiǎn)單的子問題，因?yàn)樽訂栴}對(duì)于LLM來說回答正確的概率更高。受到“Least-to-most prompting”技術(shù)的啟發(fā)，LLM推理本質(zhì)上可能是不斷和LLM進(jìn)行交互的圖上推理問題，或者是不斷和LLM進(jìn)行交互的程序流程圖執(zhí)行問題。

假設(shè)我們能夠?qū)?fù)雜問題拆解成由子問題或子步驟構(gòu)成的圖結(jié)構(gòu)，其中節(jié)點(diǎn)代表子問題或子步驟，邊表示子問題之間的依賴關(guān)系。我們可以根據(jù)依賴關(guān)系，引導(dǎo)LLM一步一步回答必須首先回答的子問題，直到推導(dǎo)出最終答案。圖中可能存在循環(huán)結(jié)構(gòu)，即需要反復(fù)執(zhí)行某些子步驟。如果我們能夠得到上述子問題拆解圖，那么就能夠有效地引導(dǎo)LLM進(jìn)行推理。

假設(shè)我們能夠?qū)?fù)雜問題拆解成子問題或子步驟，并生成一個(gè)類似程序流程圖的結(jié)構(gòu)，其中有循環(huán)結(jié)構(gòu)和條件分支。我們可以在執(zhí)行每個(gè)子步驟時(shí)，與LLM進(jìn)行交互，得到子步驟的答案，并按照流程不斷執(zhí)行，直到輸出最終答案。這種多模態(tài)預(yù)訓(xùn)練模型可以增強(qiáng)LLM模型從文本構(gòu)建出隱含的流程圖并按照流程圖執(zhí)行的能力，從而增強(qiáng)其推理能力。

然而，如何根據(jù)文本描述得到圖結(jié)構(gòu)或流程圖結(jié)構(gòu)仍然是一個(gè)難點(diǎn)。一種可能的思路是通過增強(qiáng)文本和更高質(zhì)量的代碼預(yù)訓(xùn)練來隱式學(xué)習(xí)內(nèi)部隱含結(jié)構(gòu)。目前的CoT技術(shù)是試圖根據(jù)最后一個(gè)圖節(jié)點(diǎn)，倒推出圖結(jié)構(gòu)或程序流程圖，但目前的方法限制了它的倒推深度，只能推導(dǎo)出簡(jiǎn)單的圖結(jié)構(gòu)，這是其能力受限的原因。

LLM研究趨勢(shì)及值得研究的重點(diǎn)方向

這里列出一些比較重要的LLM研究領(lǐng)域或值得深入探索的研究方向。

一、探索LLM模型的規(guī)模天花板

雖然LLM模型的規(guī)模看似沒有技術(shù)含量，但其實(shí)這個(gè)事情異常重要。自Bert問世以來，到GPT 3和ChatGPT給人印象深刻的關(guān)鍵技術(shù)突破，核心貢獻(xiàn)都來自于LLM模型規(guī)模的增長(zhǎng)，而非某項(xiàng)具體技術(shù)。這說明對(duì)于知識(shí)密集型的任務(wù)，隨著模型規(guī)模越大，各種任務(wù)的效果會(huì)越來越好。而對(duì)于很多推理類型的有難度的任務(wù)，加上CoT Prompting后，其效果也呈現(xiàn)出遵循Scaling law的趨向。因此，很自然的一個(gè)問題就是：對(duì)于這些任務(wù)，LLM的規(guī)模效應(yīng)，能將這些任務(wù)解決到何種程度？

考慮到LLM具備的神奇的“涌現(xiàn)能力”，如果繼續(xù)增加模型規(guī)模，將會(huì)解鎖哪些意想不到的新能力呢？這也是很有意思的問題。因此，需要不斷增大模型規(guī)模，看看模型規(guī)模對(duì)解決各類任務(wù)的天花板在哪里。當(dāng)然，這種事情也就只能說說，對(duì)99.99%的從業(yè)者來說，是沒有機(jī)會(huì)和能力做這個(gè)事情的。

要做這個(gè)事情，對(duì)研究機(jī)構(gòu)的財(cái)力及投入意愿、工程能力、技術(shù)熱情，都有極高的要求，缺一不可。能做這事情的機(jī)構(gòu)，粗估下來，國(guó)外不超過5家，國(guó)內(nèi)不超過3家。這是因?yàn)樽龀笠?guī)模的LLM模型對(duì)技術(shù)團(tuán)隊(duì)的工程實(shí)現(xiàn)能力要求非常高，需要有非常強(qiáng)的硬件和軟件支持。因此，這是具有技術(shù)含量的工作。

盡管如此，繼續(xù)推大LLM模型規(guī)模的研究意義仍然非常重要。除探究LLM的規(guī)模效應(yīng)對(duì)各種任務(wù)的效果影響到何種程度，還可以探索LLM模型規(guī)模增大后會(huì)解鎖哪些新的能力。這些問題的答案將有助于更好地理解LLM模型的性質(zhì)和行為，為未來的研究和應(yīng)用提供重要的參考。因此，對(duì)于有能力的研究機(jī)構(gòu)來說，繼續(xù)推大LLM模型規(guī)模的研究是非常有價(jià)值的。

二、增強(qiáng)LLM的復(fù)雜推理能力

正如之前對(duì)LLM推理能力的敘述，盡管LLM在最近一年的推理能力方面取得了很大進(jìn)展，但是仍然存在一些限制。例如，許多研究表明，LLM仍然無(wú)法很好地解決復(fù)雜推理問題，特別是當(dāng)涉及到長(zhǎng)字符串或數(shù)字時(shí)，LLM的推理能力會(huì)顯著下降。因此，加強(qiáng)LLM的復(fù)雜推理能力應(yīng)該成為未來研究的重點(diǎn)之一。

在前文中，我們提到了一種直接增強(qiáng)LLM推理能力的方法，即將代碼加入到預(yù)訓(xùn)練中。雖然這種方法已經(jīng)得到了一些實(shí)踐的總結(jié)，但是需要深入探索背后的原理，并引入更多類型的新型數(shù)據(jù)來增強(qiáng)LLM的推理能力。這可能是更本質(zhì)的提升LLM推理能力的方向，而不僅僅局限于代碼的加入。

三、LLM納入NLP之外更多其它研究領(lǐng)域

當(dāng)前的ChatGPT是一個(gè)在自然語(yǔ)言處理（NLP）和編程任務(wù)方面表現(xiàn)出色的模型。作為通向人工通用智能（AGI）的前沿研究之一，將圖像、視頻、音頻等多媒體數(shù)據(jù)與語(yǔ)言模型相結(jié)合，并進(jìn)一步將AI應(yīng)用到科學(xué)研究、機(jī)器人控制等其他領(lǐng)域，是實(shí)現(xiàn)更大范圍應(yīng)用和差異化發(fā)展的重要途徑。雖然這個(gè)研究方向仍處于初級(jí)階段，但卻具有極高的研究?jī)r(jià)值。

四、更易用的人和LLM的交互接口

正如前面所討論的那樣，ChatGPT的主要技術(shù)貢獻(xiàn)在于其在特定領(lǐng)域，如NLP和編程任務(wù)方面的出色表現(xiàn)。然而，我們也意識(shí)到當(dāng)前的技術(shù)仍有不完善之處，存在許多命令和指令LLM無(wú)法理解的情況。因此，一個(gè)非常有前景和嶄新的技術(shù)方向是尋找更好的方法，使得LLM能夠理解人類使用自己習(xí)慣的命令表達(dá)方式。這個(gè)方向的探索將為我們創(chuàng)造新的機(jī)會(huì)，并為改善LLM的技術(shù)水平提供更多的潛在解決方案。

五、建設(shè)高難度的綜合任務(wù)評(píng)測(cè)數(shù)據(jù)集

一個(gè)優(yōu)秀的評(píng)測(cè)數(shù)據(jù)集是推動(dòng)技術(shù)不斷進(jìn)步的基礎(chǔ)。隨著LLM模型不斷擴(kuò)大，任務(wù)效果迅速提升，許多經(jīng)典測(cè)試集很快就變得太容易，無(wú)法有效評(píng)估當(dāng)前技術(shù)的缺陷和盲點(diǎn)。因此，構(gòu)建具有高難度的測(cè)試數(shù)據(jù)集對(duì)于推動(dòng)LLM技術(shù)的進(jìn)步至關(guān)重要。目前，業(yè)界已經(jīng)出現(xiàn)了一些新的測(cè)試集，例如BIGBench和OPT-IML等。這些測(cè)試集具有一定的難度，綜合了多種任務(wù)類型的要求，并能更好地反映當(dāng)前LLM技術(shù)的挑戰(zhàn)。

受到ChatGPT的啟發(fā)，除了測(cè)試集的難度和多樣性之外，還應(yīng)該考慮體現(xiàn)真實(shí)用戶需求的因素。也就是說，這些任務(wù)應(yīng)該是由真實(shí)用戶提出的，只有這樣構(gòu)建出來的LLM模型才能真正解決用戶的實(shí)際需求。此外，LLM將迅速擴(kuò)展其能力到NLP以外的領(lǐng)域，因此需要提前考慮如何將更多其他領(lǐng)域的評(píng)測(cè)數(shù)據(jù)融入其中。這將有助于進(jìn)一步提高LLM模型的廣泛適應(yīng)性。

六、高質(zhì)量數(shù)據(jù)工程

數(shù)據(jù)是預(yù)訓(xùn)練模型的核心，預(yù)訓(xùn)練過程是從數(shù)據(jù)中獲取知識(shí)的過程。因此，需要更加注重挖掘、收集和清洗高質(zhì)量數(shù)據(jù)。數(shù)據(jù)質(zhì)量和數(shù)量是兩個(gè)關(guān)鍵方面。根據(jù)T5的實(shí)驗(yàn)比較，可以得出結(jié)論：在質(zhì)量和數(shù)量之間，質(zhì)量應(yīng)優(yōu)先考慮。因此，正確的做法是在確保數(shù)據(jù)質(zhì)量的前提下增加數(shù)據(jù)規(guī)模。數(shù)據(jù)質(zhì)量方面，需要考慮數(shù)據(jù)的信息含量和多樣性等多個(gè)標(biāo)準(zhǔn)。例如，維基百科是信息含量極高的高質(zhì)量數(shù)據(jù)。增加數(shù)據(jù)類型的多樣性對(duì)于激發(fā)LLM的各種新能力至關(guān)重要。例如，加入問答網(wǎng)站的數(shù)據(jù)對(duì)于提升LLM的問答能力具有直接幫助。多樣化的數(shù)據(jù)賦予LLM更好解決各種類型任務(wù)的能力，因此多樣性是數(shù)據(jù)質(zhì)量中最關(guān)鍵的標(biāo)準(zhǔn)。

關(guān)于數(shù)據(jù)數(shù)量，原則上可以納入預(yù)訓(xùn)練模型的是互聯(lián)網(wǎng)上公開發(fā)布的數(shù)據(jù)。然而，數(shù)據(jù)的數(shù)量也存在一定的極限。一項(xiàng)研究對(duì)數(shù)據(jù)量的擴(kuò)展性進(jìn)行了估算，并得出結(jié)論：到2026年左右，高質(zhì)量的NLP數(shù)據(jù)將耗盡，低質(zhì)量的NLP數(shù)據(jù)將在2030年至2050年之間耗盡，低質(zhì)量圖像數(shù)據(jù)將在2030年至2060年之間耗盡。這說明要么需要開發(fā)新類型的數(shù)據(jù)來源，要么必須提高LLM模型對(duì)數(shù)據(jù)的利用效率。否則，當(dāng)前依賴數(shù)據(jù)驅(qū)動(dòng)的模型優(yōu)化方式將停止進(jìn)步或收益減少。因此需要尋求新的解決方案，以應(yīng)對(duì)數(shù)據(jù)的極限問題。

七、超大LLM模型Transformer的稀疏化

LLM中存在一些最大規(guī)模模型，如GPT 3、PaLM、GLaM等，采用了稀疏結(jié)構(gòu)。使用稀疏化模型的主要優(yōu)點(diǎn)是可以極大地減少訓(xùn)練和推理時(shí)間。相比于密集模型，稀疏模型在相同算力預(yù)算下，訓(xùn)練速度可以提升4倍到7倍。這是因?yàn)楸M管稀疏模型擁有巨大的參數(shù)量，但對(duì)于每個(gè)訓(xùn)練實(shí)例，稀疏模型通過路由機(jī)制只使用其中一小部分參數(shù)參與訓(xùn)練和推理，所以速度更快。

未來的超大規(guī)模LLM模型很可能會(huì)趨向于稀疏模型，主要有兩個(gè)原因。首先，研究顯示標(biāo)準(zhǔn)的密集模型在訓(xùn)練和推理過程中本身也呈現(xiàn)稀疏的激活，即只有部分參數(shù)會(huì)被激活，大部分參數(shù)沒有參與訓(xùn)練和推理?；谶@一點(diǎn)，遷移到稀疏模型是合理的選擇。其次，LLM模型的規(guī)模將繼續(xù)增大，而高昂的訓(xùn)練成本是其擴(kuò)大模型規(guī)模的主要障礙。使用稀疏模型可以顯著降低超大模型的訓(xùn)練成本，因此隨著模型規(guī)模的增加，稀疏模型的好處將更加明顯。鑒于這些原因，未來更大規(guī)模的LLM模型很可能采用稀疏模型方案。

然而，目前其他大規(guī)模模型尚未采用稀疏模型的原因是稀疏模型存在訓(xùn)練不穩(wěn)定和容易過擬合等問題，很難訓(xùn)練得好。因此，解決稀疏模型面臨的問題，設(shè)計(jì)出更易于訓(xùn)練的稀疏模型，是未來研究的重要方向。

復(fù)刻ChatGPT時(shí)要注意些什么？

要復(fù)刻類似ChatGPT這種令人驚艷的LLM模型，我們需要在技術(shù)選型時(shí)權(quán)衡以下問題。

一、關(guān)于預(yù)訓(xùn)練模式，可以選擇GPT這種自回歸語(yǔ)言模型、Bert這種雙向語(yǔ)言模型，或者T5這種混合模式。基于本文的分析，選用GPT自回歸語(yǔ)言模型可能是更好的選擇。然而，目前似乎許多國(guó)內(nèi)LLM項(xiàng)目選擇了Bert雙向語(yǔ)言模型或T5混合語(yǔ)言模型，這可能導(dǎo)致方向有所偏移。

二、強(qiáng)大的推理能力是用戶認(rèn)可LLM的重要基礎(chǔ)，為了實(shí)現(xiàn)這一目標(biāo)，根據(jù)當(dāng)前經(jīng)驗(yàn)，預(yù)訓(xùn)練階段最好引入大量代碼和文本，同時(shí)進(jìn)行LLM訓(xùn)練。前文中也有相應(yīng)的分析對(duì)此進(jìn)行了解釋。

三、如果希望模型參數(shù)規(guī)模不過于龐大但依然具備良好效果，有兩個(gè)選項(xiàng)。一是加強(qiáng)高層的特征抽取和表示能力，通過更深層次的網(wǎng)絡(luò)結(jié)構(gòu)或者更復(fù)雜的特征提取方法來實(shí)現(xiàn)。二是采用文本檢索模型與LLM相結(jié)合的方式，通過文本檢索模型提供初步的篩選和匹配，再由LLM進(jìn)行進(jìn)一步的生成和推理，這樣可以極大地減小LLM模型的參數(shù)規(guī)模。

四、由于超級(jí)大模型的訓(xùn)練成本過高，很少有機(jī)構(gòu)有能力去實(shí)施。因此，降低LLM的訓(xùn)練成本是非常重要的。其中，一種有效的技術(shù)選擇是將LLM的特征抽取器進(jìn)行Sparse化，這可以有效降低模型的訓(xùn)練和推理成本。因此，隨著模型規(guī)模的增大，LLM模型的Sparse化是一個(gè)應(yīng)該考慮的選項(xiàng)。

五、目前最接近理想LLM的技術(shù)方案是ChatGPT，理想中的LLM應(yīng)該是一個(gè)幾乎無(wú)所不能的通用大模型，可以支持各種任務(wù)類型。為了實(shí)現(xiàn)這一目標(biāo)，可以通過增加LLM的預(yù)訓(xùn)練數(shù)據(jù)的多樣性來支持更多的任務(wù)類型。數(shù)據(jù)的多樣性越好，LLM能夠支持的任務(wù)類型就越豐富。因此，應(yīng)該重視通過增加數(shù)據(jù)多樣性來增強(qiáng)LLM的能力。

六、易用的人機(jī)操作接口也是非常重要。LLM需要能夠理解人類用自己習(xí)慣的方式來描述任務(wù)的真實(shí)含義。同時(shí)，也需要根據(jù)最終用戶的需求收集任務(wù)表述方式，而不是依靠研發(fā)人員的臆想或猜測(cè)。ChatGPT在這方面給了我很大的啟發(fā)，因此，是否使用增強(qiáng)學(xué)習(xí)并不重要，其他替代技術(shù)也能夠?qū)崿F(xiàn)類似的效果。

要復(fù)刻類似ChatGPT這種令人驚艷的LLM模型，需要在技術(shù)選型上權(quán)衡預(yù)訓(xùn)練模式、推理能力、模型規(guī)模、訓(xùn)練成本、數(shù)據(jù)多樣性和人機(jī)操作接口等因素，并選擇最合適的方法來實(shí)現(xiàn)目標(biāo)。

LLM訓(xùn)練所需因素

當(dāng)訓(xùn)練大型語(yǔ)言模型時(shí)會(huì)面臨多個(gè)挑戰(zhàn)，可以歸納為以下六個(gè)方面：硬件需求、健康檢查、編排技術(shù)、數(shù)據(jù)處理、模型規(guī)模擴(kuò)展和成本管理。每個(gè)方面都對(duì)模型訓(xùn)練的效果和效率產(chǎn)生重要影響。

在訓(xùn)練大型語(yǔ)言模型時(shí)，我們會(huì)面臨多個(gè)挑戰(zhàn)。首先是硬件方面。使用最新的硬件可以提供更好的性能，而沒有充分利用最新硬件的優(yōu)勢(shì)會(huì)導(dǎo)致訓(xùn)練時(shí)間延長(zhǎng)，無(wú)法達(dá)到最佳結(jié)果。

藍(lán)海大腦高性能LLM大模型訓(xùn)練平臺(tái)利用工作流體作為中間熱量傳輸?shù)拿浇椋瑢崃坑蔁釁^(qū)傳遞到遠(yuǎn)處再進(jìn)行冷卻。支持多種硬件加速器，包括CPU、GPU、FPGA和AI等,能夠滿足大規(guī)模數(shù)據(jù)處理和復(fù)雜計(jì)算任務(wù)的需求。采用分布式計(jì)算架構(gòu)，高效地處理大規(guī)模數(shù)據(jù)和復(fù)雜計(jì)算任務(wù)，為深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練、大型語(yǔ)言模型（LLM）算法的研究和開發(fā)提供強(qiáng)大的算力支持。具有高度的靈活性和可擴(kuò)展性,能夠根據(jù)不同的應(yīng)用場(chǎng)景和需求進(jìn)行定制化配置?？梢钥焖俨渴鸷凸芾砀鞣N計(jì)算任務(wù)，提高了計(jì)算資源的利用率和效率。

另一個(gè)挑戰(zhàn)是健康檢查，確保硬件正常運(yùn)行，減少干擾。此外還需要考慮編排，以確保團(tuán)隊(duì)中的工作負(fù)載不會(huì)互相干擾，同時(shí)保持網(wǎng)絡(luò)和安全配置良好。處理大規(guī)模數(shù)據(jù)集也是一項(xiàng)挑戰(zhàn)，需要高效的存儲(chǔ)、處理和加載方法。擴(kuò)展基礎(chǔ)設(shè)施和設(shè)計(jì)算法以克服限制性問題也是一項(xiàng)重要任務(wù)。這些模型通常不適用于單個(gè)GPU，所以需要考慮如何將模型拆分到多個(gè)GPU上。

最后，成本管理是不可忽視的因素。訓(xùn)練大型模型的成本可能很高，應(yīng)該充分利用機(jī)器學(xué)習(xí)團(tuán)隊(duì)的時(shí)間，讓其專注于創(chuàng)造新的模型，而不是花費(fèi)過多時(shí)間在基礎(chǔ)架構(gòu)上。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1805

文章
48843

瀏覽量
247419
Agi

Agi

+關(guān)注

關(guān)注
0

文章
91

瀏覽量
10449
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1589

瀏覽量
8857
LLM

LLM

+關(guān)注

關(guān)注
1

文章
322

瀏覽量
723

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

突破邊界：高性能計(jì)算引領(lǐng)LLM駛向通用人工智能AGI的創(chuàng)新紀(jì)元

評(píng)論