如果自己是一個(gè)大模型的小白,第一眼看到 GPT、PaLm、LLaMA 這些單詞的怪異組合會(huì)作何感想?假如再往深里入門(mén),又看到 BERT、BART、RoBERTa、ELMo 這些奇奇怪怪的詞一個(gè)接一個(gè)蹦出來(lái),不知道作為小白的自己心里會(huì)不會(huì)抓狂?
哪怕是一個(gè)久居 NLP 這個(gè)小圈子的老鳥(niǎo),伴隨著大模型這爆炸般的發(fā)展速度,可能恍惚一下也會(huì)跟不上這追新打快日新月異的大模型到底是何門(mén)何派用的哪套武功。這個(gè)時(shí)候可能就需要請(qǐng)出一篇大模型綜述來(lái)幫忙了!這篇由亞馬遜、得克薩斯農(nóng)工大學(xué)與萊斯大學(xué)的研究者推出的大模型綜述《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,為我們以構(gòu)建一顆“家譜樹(shù)”的方式梳理了以 ChatGPT 為代表的大模型的前世今生與未來(lái),并且從任務(wù)出發(fā),為我們搭建了非常全面的大模型實(shí)用指南,為我們介紹了大模型在不同任務(wù)中的優(yōu)缺點(diǎn),最后還指出了大模型目前的風(fēng)險(xiǎn)與挑戰(zhàn)。
家譜樹(shù)——大模型的前世今生
追尋大模型的“萬(wàn)惡之源”,大抵應(yīng)該從那篇《Attention is All You Need》開(kāi)始,基于這篇由谷歌機(jī)器翻譯團(tuán)隊(duì)提出的由多組 Encoder、Decoder 構(gòu)成的機(jī)器翻譯模型 Transformer 開(kāi)始,大模型的發(fā)展大致走上了兩條路,一條路是舍棄 Decoder 部分,僅僅使用 Encoder 作為編碼器的預(yù)訓(xùn)練模型,其最出名的代表就是 Bert 家族。這些模型開(kāi)始嘗試“無(wú)監(jiān)督預(yù)訓(xùn)練”的方式來(lái)更好的利用相較其他數(shù)據(jù)而言更容易獲得的大規(guī)模的自然語(yǔ)言數(shù)據(jù),而“無(wú)監(jiān)督”的方式就是 Masked Language Model(MLM),通過(guò)讓 Mask 掉句子中的部分單詞,讓模型去學(xué)習(xí)使用上下文去預(yù)測(cè)被 Mask 掉的單詞的能力。在 Bert 問(wèn)世之初,在 NLP 領(lǐng)域也算是一顆炸彈,同時(shí)在許多自然語(yǔ)言處理的常見(jiàn)任務(wù)如情感分析、命名實(shí)體識(shí)別等中都刷到了 SOTA,Bert 家族的出色代表除了谷歌提出的 Bert 、ALBert之外,還有百度的 ERNIE、Meta 的 RoBERTa、微軟的 DeBERTa等等。
可惜的是,Bert 的進(jìn)路沒(méi)能突破 Scale Law,而這一點(diǎn)則由當(dāng)下大模型的主力軍,即大模型發(fā)展的另一條路,通過(guò)舍棄 Encoder 部分而基于 Decoder 部分的 GPT 家族真正做到了。GPT 家族的成功來(lái)源于一個(gè)研究人員驚異的發(fā)現(xiàn):“擴(kuò)大語(yǔ)言模型的規(guī)模可以顯著提高零樣本(zero-shot)與小樣本(few-shot)學(xué)習(xí)的能力”,這一點(diǎn)與基于微調(diào)的 Bert 家族有很大的區(qū)別,也是當(dāng)下大規(guī)模語(yǔ)言模型神奇能力的來(lái)源。GPT 家族基于給定前面單詞序列預(yù)測(cè)下一個(gè)單詞來(lái)進(jìn)行訓(xùn)練,因此 GPT 最初僅僅是作為一個(gè)文本生成模型而出現(xiàn)的,而 GPT-3 的出現(xiàn)則是 GPT 家族命運(yùn)的轉(zhuǎn)折點(diǎn),GPT-3 第一次向人們展示了大模型帶來(lái)的超越文本生成本身的神奇能力,顯示了這些自回歸語(yǔ)言模型的優(yōu)越性。而從 GPT-3 開(kāi)始,當(dāng)下的 ChatGPT、GPT-4、Bard 以及 PaLM、LLaMA 百花齊放百家爭(zhēng)鳴,帶來(lái)了當(dāng)下的大模型盛世。
從合并這家譜樹(shù)的兩支,可以看到早期的 Word2Vec、FastText,再到預(yù)訓(xùn)練模型的早期探索 ELMo、ULFMiT ,再到 Bert 橫空出世紅極一時(shí),到 GPT 家族默默耕耘直到 GPT-3 驚艷登場(chǎng),ChatGPT 一飛沖天,技術(shù)的迭代之外也可以看到 OpenAI 默默堅(jiān)持自己的技術(shù)路徑最終成為目前 LLMs 無(wú)可爭(zhēng)議的領(lǐng)導(dǎo)者,看到 Google 對(duì)整個(gè) Encoder-Decoder 模型架構(gòu)做出的重大理論貢獻(xiàn),看到 Meta 對(duì)大模型開(kāi)源事業(yè)的持續(xù)慷慨的參與,當(dāng)然也看到從 GPT-3 之后 LLMs 逐漸趨向于“閉”源的趨勢(shì),未來(lái)很有可能大部分研究不得不變成 API-Based 的研究。
數(shù)據(jù)——大模型的力量源泉
歸根結(jié)底,大模型的神奇能力是來(lái)源于 GPT 么?我覺(jué)得答案是否定的,GPT 家族幾乎每一次能力的躍遷,都在預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性等方面做出了重要的提升。大模型的訓(xùn)練數(shù)據(jù)包括書(shū)籍、文章、網(wǎng)站信息、代碼信息等等,這些數(shù)據(jù)輸入到大模型中的目的,實(shí)質(zhì)在于全面準(zhǔn)確的反應(yīng)“人類”這個(gè)東西,通過(guò)告訴大模型單詞、語(yǔ)法、句法和語(yǔ)義的信息,讓模型獲得識(shí)別上下文并生成連貫響應(yīng)的能力,以捕捉人類的知識(shí)、語(yǔ)言、文化等等方面。
一般而言,面對(duì)許多 NLP 的任務(wù),我們可以從數(shù)據(jù)標(biāo)注信息的角度將其分類為零樣本、少樣本與多樣本。無(wú)疑,零樣本的任務(wù) LLMs 是最合適的方法,幾乎沒(méi)有例外,大模型在零樣本任務(wù)上遙遙領(lǐng)先于其他的模型。同時(shí),少樣本任務(wù)也十分適合大模型的應(yīng)用,通過(guò)為大模型展示“問(wèn)題-答案”對(duì),可以增強(qiáng)大模型的表現(xiàn)性能,這種方式我們一般也稱為上下文學(xué)習(xí)(In-Context Learning)。而多樣本任務(wù)盡管大模型也可以去覆蓋,但是微調(diào)可能仍然是最好的方法,當(dāng)然在一些如隱私、計(jì)算等約束條件下,大模型可能仍然有用武之地。
同時(shí),微調(diào)的模型很有可能會(huì)面對(duì)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)分布變化的問(wèn)題,顯著的,微調(diào)的模型在 OOD 數(shù)據(jù)上一般表現(xiàn)都非常差。而相應(yīng)的,LLMs 由于并沒(méi)有一個(gè)顯式的擬合過(guò)程,因此表現(xiàn)要好許多,典型的 ChatGPT 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在大部分分布外的分類與翻譯任務(wù)中都表現(xiàn)優(yōu)異,在專為 OOD 評(píng)估設(shè)計(jì)的醫(yī)學(xué)診斷數(shù)據(jù)集 DDXPlus 上也表現(xiàn)出色。
實(shí)用指南——任務(wù)導(dǎo)向上手大模型
很多時(shí)候,“大模型很好!”這個(gè)斷言后緊跟著的問(wèn)題就是“大模型怎么用,什么時(shí)候用?”,面對(duì)一個(gè)具體任務(wù)時(shí),我們是應(yīng)該選擇微調(diào)、還是不假思索的上手大模型?這篇論文總結(jié)出了一個(gè)實(shí)用的“決策流”,根據(jù)“是否需要模仿人類”,“是否要求推理能力”,“是否是多任務(wù)”等一系列問(wèn)題幫我們判斷是否要去使用大模型。
而從 NLP 任務(wù)分類的角度而言:
傳統(tǒng)自然語(yǔ)言理解
目前擁有大量豐富的已標(biāo)注數(shù)據(jù)的很多 NLP 任務(wù),微調(diào)模型可能仍然牢牢把控著優(yōu)勢(shì),在大多數(shù)數(shù)據(jù)集中 LLMs 都遜色于微調(diào)模型,具體而言:
文本分類:在文本分類中,LLMs 普遍遜色于微調(diào)模型;
情感分析:在 IMDB 與 SST 任務(wù)上大模型與微調(diào)模型表現(xiàn)相仿,而在如毒性監(jiān)測(cè)任務(wù)中,幾乎所有的大模型都差于微調(diào)模型;
自然語(yǔ)言推理:在 RTE 與 SNLI 上,微調(diào)模型優(yōu)于 LLMs,在 CB 等數(shù)據(jù)中,LLMs與微調(diào)模型相仿;
問(wèn)答:在 SQuADv2、QuAC 和許多其他數(shù)據(jù)集上,微調(diào)模型具有更好的性能,而在 CoQA 上,LLMs 表現(xiàn)與微調(diào)模型性能相仿;
信息檢索:LLMs 尚未在信息檢索領(lǐng)域廣泛應(yīng)用,信息檢索的任務(wù)特征使得沒(méi)有自然的方式為大模型建模信息檢索任務(wù);
命名實(shí)體識(shí)別:在命名實(shí)體識(shí)別中,大模型仍然大幅度遜色于微調(diào)模型,在 CoNLL03 上微調(diào)模型的性能幾乎是大模型的兩倍,但是命名實(shí)體識(shí)別作為一個(gè)經(jīng)典的 NLP 中間任務(wù),很有可能會(huì)被大模型取代。
總之,對(duì)于大多數(shù)傳統(tǒng)自然語(yǔ)言理解的任務(wù),微調(diào)模型的效果更好。當(dāng)然 LLMs 的潛力受限于 Prompt 工程可能仍未完全釋放(其實(shí)微調(diào)模型也并未達(dá)到上限),同時(shí),在一些小眾的領(lǐng)域,如 Miscellaneous Text Classification,Adversarial NLI 等任務(wù)中 ,LLMs 由于更強(qiáng)的泛化能力因而具有更好的性能,但是在目前而言,對(duì)于有成熟標(biāo)注的數(shù)據(jù)而言,微調(diào)模型可能仍然是對(duì)傳統(tǒng)任務(wù)的最優(yōu)解。
自然語(yǔ)言生成
相較于自然語(yǔ)言理解,自然語(yǔ)言生成可能就是大模型的舞臺(tái)了。自然語(yǔ)言生成的目標(biāo)主要是創(chuàng)建連貫、通順、有意義的符合序列,通常可以分為兩大類,一類是以機(jī)器翻譯、段落信息摘要為代表的任務(wù),一類是更加開(kāi)放的自然寫(xiě)作,如撰寫(xiě)郵件,編寫(xiě)新聞,創(chuàng)作故事等的任務(wù)。具體而言:
文本摘要:對(duì)于文本摘要而言,如果使用傳統(tǒng)的如 ROUGE 等的自動(dòng)評(píng)估指標(biāo),LLMs 并沒(méi)有表現(xiàn)出明顯的優(yōu)勢(shì),但是如果引入人工評(píng)估結(jié)果,LLMs 的表現(xiàn)則會(huì)大幅優(yōu)于微調(diào)模型。這其實(shí)表明當(dāng)前這些自動(dòng)評(píng)估指標(biāo)有時(shí)候并不能完整準(zhǔn)確的反應(yīng)文本生成的效果;
機(jī)器翻譯:對(duì)于機(jī)器翻譯這樣一個(gè)擁有成熟商業(yè)軟件的任務(wù)而言,LLMs 的表現(xiàn)一般略遜于商業(yè)翻譯工具,但在一些冷門(mén)語(yǔ)言的翻譯中,LLMs 有時(shí)表現(xiàn)出了更好的效果,譬如在羅馬尼亞語(yǔ)翻譯英語(yǔ)的任務(wù)中,LLMs 在零樣本和少樣本的情況下?lián)魯×宋⒄{(diào)模型的 SOTA;
開(kāi)放式生成:在開(kāi)放式生成方面,顯示是大模型最擅長(zhǎng)的工作,LLMs 生成的新聞文章幾乎與人類編寫(xiě)的真實(shí)新聞無(wú)法區(qū)分,在代碼生成、代碼糾錯(cuò)等領(lǐng)域 LLMs 都表現(xiàn)了令人驚訝的性能。
知識(shí)密集型任務(wù)
知識(shí)密集型任務(wù)一般指強(qiáng)烈依賴背景知識(shí)、領(lǐng)域特定專業(yè)知識(shí)或者一般世界知識(shí)的任務(wù),知識(shí)密集型任務(wù)區(qū)別于簡(jiǎn)單的模式識(shí)別與句法分析,需要對(duì)我們的現(xiàn)實(shí)世界擁有“常識(shí)”并能正確的使用,具體而言:
閉卷問(wèn)答:在 Closed-book Question-Answering 任務(wù)中,要求模型在沒(méi)有外部信息的情況下回答事實(shí)性的問(wèn)題,在許多數(shù)據(jù)集如 NaturalQuestions、WebQuestions、TriviaQA 上 LLMs 都表現(xiàn)了更好的性能,尤**其在 TriviaQA 中,零樣本的 LLMs 都展現(xiàn)了優(yōu)于微調(diào)模型的性別表現(xiàn);
大規(guī)模多任務(wù)語(yǔ)言理解:大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)包含 57 個(gè)不同主題的多項(xiàng)選擇題,也要求模型具備一般性的知識(shí),在這一任務(wù)中最令人印象深刻的當(dāng)屬 GPT-4,在 MMLU 中獲得了 86.5% 的正確率。
值得注意的是,在知識(shí)密集型任務(wù)中,大模型并不是百試百靈,有些時(shí)候,大模型對(duì)現(xiàn)實(shí)世界的知識(shí)可能是無(wú)用甚至錯(cuò)誤的,這樣“不一致”的知識(shí)有時(shí)會(huì)使大模型的表現(xiàn)比隨機(jī)猜測(cè)還差。如重定義數(shù)學(xué)任務(wù)(Redefine Math)中要求模型在原含義和從重新定義的含義中做出選擇,這需要的能力與大規(guī)模語(yǔ)言模型的學(xué)習(xí)到的知識(shí)恰恰相反,因此,LLMs 的表現(xiàn)甚至不如隨機(jī)猜測(cè)。
推理任務(wù)
LLMs 的擴(kuò)展能力可以極大的增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型的能力,當(dāng)模型規(guī)模指數(shù)增加時(shí),一些關(guān)鍵的如推理的能力會(huì)逐漸隨參數(shù)的擴(kuò)展而被激活,LLMs 的算術(shù)推理與常識(shí)推理的能力肉眼可見(jiàn)的異常強(qiáng)大,在這類任務(wù)中:
算術(shù)推理:不夸張的說(shuō),GPT-4 的算術(shù)與推理判斷的能力超過(guò)了以往的任何模型,在 GSM8k、SVAMP 和 AQuA 上大模型都具有突破性的能力,值得指出的是,通過(guò)思維鏈(CoT)的提示方式,可以顯著的增強(qiáng) LLMs 的計(jì)算能力;
常識(shí)推理:常識(shí)推理要求大模型記憶事實(shí)信息并進(jìn)行多步推理,在大多數(shù)數(shù)據(jù)集中,LLMs 都保持了對(duì)微調(diào)模型的優(yōu)勢(shì)地位,特別在 ARC-C (三-九年級(jí)科學(xué)考試?yán)щy題)中,GPT-4 的表現(xiàn)接近 100%(96.3%)。
除了推理之外,隨著模型規(guī)模的增長(zhǎng),模型還會(huì)浮現(xiàn)一些 Emergent Ability,譬如符合操作、邏輯推導(dǎo)、概念理解等等。但是還有類有趣的現(xiàn)象稱為“U形現(xiàn)象”,指隨著 LLMs 規(guī)模的增加,模型性能出現(xiàn)先增加后又開(kāi)始下降的現(xiàn)象,典型的代表就是前文提到的重定義數(shù)學(xué)的問(wèn)題,這類現(xiàn)象呼喚著對(duì)大模型原理更加深入與細(xì)致的研究。
總結(jié)——大模型的挑戰(zhàn)與未來(lái)
大模型必然是未來(lái)很長(zhǎng)一段時(shí)間我們工作生活的一部分,而對(duì)于這樣一個(gè)與我們生活高度同頻互動(dòng)的“大家伙”,除了性能、效率、成本等問(wèn)題外,大規(guī)模語(yǔ)言模型的安全問(wèn)題幾乎是大模型所面對(duì)的所有挑戰(zhàn)之中的重中之重,機(jī)器幻覺(jué)是大模型目前還沒(méi)有極佳解決方案的主要問(wèn)題,大模型輸出的有偏差或有害的幻覺(jué)將會(huì)對(duì)使用者造成嚴(yán)重后果。同時(shí),隨著 LLMs 的“公信度”越來(lái)越高,用戶可能會(huì)過(guò)度依賴 LLMs 并相信它們能夠提供準(zhǔn)確的信息,這點(diǎn)可以預(yù)見(jiàn)的趨勢(shì)增加了大模型的安全風(fēng)險(xiǎn)。
除了誤導(dǎo)性信息外,由于 LLMs 生成文本的高質(zhì)量和低成本,LLMs 有可能被利用為進(jìn)行仇恨、歧視、暴力、造謠等攻擊的工具,LLMs 也有可能被攻擊以未惡意攻擊者提供非法信息或者竊取隱私,據(jù)報(bào)道,三星員工使用 ChatGPT 處理工作時(shí)意外泄漏了最新程序的源代碼屬性、與硬件有關(guān)的內(nèi)部會(huì)議記錄等絕密數(shù)據(jù)。
除此之外,大模型是否能應(yīng)用于敏感領(lǐng)域,如醫(yī)療保健、金融、法律等的關(guān)鍵在于大模型的“可信度”的問(wèn)題,在當(dāng)下,零樣本的大模型魯棒性往往會(huì)出現(xiàn)降低。同時(shí),LLMs 已經(jīng)被證明具有社會(huì)偏見(jiàn)或歧視,許多研究在口音、宗教、性別和種族等人口統(tǒng)計(jì)類別之間觀察到了顯著的性能差異。這會(huì)導(dǎo)致大模型的“公平”問(wèn)題。
最后,如果脫開(kāi)社會(huì)問(wèn)題做個(gè)總結(jié),也是展望一下大模型研究的未來(lái),目前大模型主要面臨的挑戰(zhàn)可以被歸類如下:
實(shí)踐驗(yàn)證:當(dāng)前針對(duì)大模型的評(píng)估數(shù)據(jù)集往往是更像“玩具”的學(xué)術(shù)數(shù)據(jù)集,但是這些學(xué)術(shù)數(shù)據(jù)集無(wú)法完全反應(yīng)現(xiàn)實(shí)世界中形形色色的問(wèn)題與挑戰(zhàn),因此亟需實(shí)際的數(shù)據(jù)集在多樣化、復(fù)雜的現(xiàn)實(shí)問(wèn)題上對(duì)模型進(jìn)行評(píng)估,確保模型可以應(yīng)對(duì)現(xiàn)實(shí)世界的挑戰(zhàn);
模型對(duì)齊:大模型的強(qiáng)大也引出了另一個(gè)問(wèn)題,模型應(yīng)該與人類的價(jià)值觀選擇進(jìn)行對(duì)齊,確保模型行為符合預(yù)期,不會(huì)“強(qiáng)化”不良結(jié)果,作為一個(gè)高級(jí)的復(fù)雜系統(tǒng),如果不認(rèn)真處理這種道德問(wèn)題,有可能會(huì)為人類醞釀一場(chǎng)災(zāi)難;
安全隱患:大模型的研究要進(jìn)一步強(qiáng)調(diào)安全問(wèn)題,消除安全隱患,需要具體的研究確保大模型的安全研發(fā),需要更多的做好模型的可解釋性、監(jiān)督管理工作,安全問(wèn)題應(yīng)該是模型開(kāi)發(fā)的重要組成部分,而非錦上添花可有可無(wú)的裝飾;
模型未來(lái):模型的性能還會(huì)隨著模型規(guī)模的增加而增長(zhǎng)嗎?,這個(gè)問(wèn)題估計(jì) OpenAI 也難以回答,我們針對(duì)大模型的神奇現(xiàn)象的了解仍然十分有限,針對(duì)大模型原理性的見(jiàn)解仍然十分珍貴。
-
微軟
+關(guān)注
關(guān)注
4文章
6634瀏覽量
104536 -
模型
+關(guān)注
關(guān)注
1文章
3342瀏覽量
49271 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
620瀏覽量
13655
原文標(biāo)題:大模型綜述來(lái)了!一文帶你理清全球AI巨頭的大模型進(jìn)化史
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論