ChatGPT背后的原理簡析

ChatGPT 是 OpenAI 發(fā)布的最新語言模型，比其前身 GPT-3 有顯著提升。與許多大型語言模型類似，ChatGPT 能以不同樣式、不同目的生成文本，并且在準(zhǔn)確度、敘述細(xì)節(jié)和上下文連貫性上具有更優(yōu)的表現(xiàn)。它代表了 OpenAI 最新一代的大型語言模型，并且在設(shè)計上非常注重交互性。

從官網(wǎng)介紹可以看到，ChatGPT與InstructGPT是同源的模型。

chatGPT是一種基于轉(zhuǎn)移學(xué) 習(xí)的大型語言模型，它使用GPT-2 （Generative PretrainedTransformer2）模型的技術(shù)，并進(jìn)行了進(jìn)一步的訓(xùn)練和優(yōu)化。

GPT-2模型是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型，它能夠處理序列建橫問題，如自然語言處理中的語言建模和機(jī)器翻譯。它使用了一種叫做transformer的架構(gòu)，它能夠通過自注意力機(jī)制來學(xué)習(xí)語言的結(jié)構(gòu)和語義。GPT-2模型預(yù)先訓(xùn)練了一個大型語料庫上，以便在實(shí)際應(yīng)用中能夠更好地表現(xiàn)。

chatGPT是在GPT-2模型的基礎(chǔ)上進(jìn)一步訓(xùn)練和優(yōu)化而得到的。它使用了更多的語料庫，并且進(jìn)行了專門的訓(xùn)練來提高在對話系統(tǒng)中的表現(xiàn)。這使得chatGPT能夠在對話中白然地回應(yīng)用戶的輸入，并且能夠生成流暢、連貫、通順的文本。

那么接下來我們來看下什么是InstructGPT。從字面上來看，顧名思義，它就是指令式的GPT，“which is trained to follow an instruction in a prompt and provide a detailed response”。接下來我們來看下InstructGPT論文中的主要原理：

InstructGPT整體訓(xùn)練流程

從該圖可以看出，InstructGPT是基于GPT-3模型訓(xùn)練出來的，具體步驟如下：

步驟1.）從GPT-3的輸入語句數(shù)據(jù)集中采樣部分輸入，基于這些輸入，采用人工標(biāo)注完成希望得到輸出結(jié)果與行為，然后利用這些標(biāo)注數(shù)據(jù)進(jìn)行GPT-3有監(jiān)督的訓(xùn)練。該模型即作為指令式GPT的冷啟動模型。

步驟2.）在采樣的輸入語句中，進(jìn)行前向推理獲得多個模型輸出結(jié)果，通過人工標(biāo)注進(jìn)行這些輸出結(jié)果的排序打標(biāo)。最終這些標(biāo)注數(shù)據(jù)用來訓(xùn)練reward反饋模型。

步驟3.）采樣新的輸入語句，policy策略網(wǎng)絡(luò)生成輸出結(jié)果，然后通過reward反饋模型計算反饋，該反饋回過頭來作用于policy策略網(wǎng)絡(luò)。以此反復(fù)，這里就是標(biāo)準(zhǔn)的reinforcement learning強(qiáng)化學(xué)習(xí)的訓(xùn)練框架了。

所以總結(jié)起來ChatGPT（對話GPT）其實(shí)就是InstructGPT（指令式GPT）的同源模型，然后指令式GPT就是基于GPT-3，先通過人工標(biāo)注方式訓(xùn)練出強(qiáng)化學(xué)習(xí)的冷啟動模型與reward反饋模型，最后通過強(qiáng)化學(xué)習(xí)的方式學(xué)習(xí)出對話友好型的ChatGPT模型。

InstructGPT的訓(xùn)練實(shí)際上是分為三個階段的，第一階段就是我們上文所述，利用人工標(biāo)注的數(shù)據(jù)微調(diào)GPT3；第二階段，需要訓(xùn)練一個評價模型即Reward Model，該模型需學(xué)習(xí)人類對于模型回復(fù)的評價方式，對于給定的上文與生成回復(fù)給出分?jǐn)?shù)；第三階段，利用訓(xùn)練好的Reward Model作為反饋信號，去指導(dǎo)GPT進(jìn)一步進(jìn)行微調(diào)，將目標(biāo)設(shè)定為Reward分?jǐn)?shù)最大化，從而使模型產(chǎn)生更加符合人類偏好的回復(fù)。

文章綜合CSDN、賽爾實(shí)驗(yàn)室、 IT架構(gòu)師聯(lián)盟

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4810

瀏覽量
102900
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1202

瀏覽量
8658
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1588

瀏覽量
8824

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

ChatGPT背后的原理簡析

評論