在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT背后的原理簡析

要長高 ? 來源:網(wǎng)絡(luò)整理 ? 作者:網(wǎng)絡(luò)整理 ? 2023-02-09 15:09 ? 次閱讀

ChatGPT 是 OpenAI 發(fā)布的最新語言模型,比其前身 GPT-3 有顯著提升。與許多大型語言模型類似,ChatGPT 能以不同樣式、不同目的生成文本,并且在準(zhǔn)確度、敘述細(xì)節(jié)和上下文連貫性上具有更優(yōu)的表現(xiàn)。它代表了 OpenAI 最新一代的大型語言模型,并且在設(shè)計上非常注重交互性。

從官網(wǎng)介紹可以看到,ChatGPT與InstructGPT是同源的模型。

chatGPT是一種基于轉(zhuǎn)移學(xué) 習(xí)的大型語言模型,它使用GPT-2 (Generative PretrainedTransformer2)模型的技術(shù),并進(jìn)行了進(jìn)一步的訓(xùn)練和優(yōu)化。

GPT-2模型是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,它能夠處理序列建橫問題,如自然語言處理中的語言建模和機(jī)器翻譯。它使用了一種叫做transformer的架構(gòu), 它能夠通過自注意力機(jī)制來學(xué)習(xí)語言的結(jié)構(gòu)和語義。GPT-2模型預(yù)先訓(xùn)練了一個大型語料庫上,以便在實(shí)際應(yīng)用中能夠更好地表現(xiàn)。

chatGPT是在GPT-2模型的基礎(chǔ)上進(jìn)一步訓(xùn)練和優(yōu)化而得到的。 它使用了更多的語料庫,并且進(jìn)行了專門的訓(xùn)練來提高在對話系統(tǒng)中的表現(xiàn)。這使得chatGPT能夠在對話中白然地回應(yīng)用戶的輸入,并且能夠生成流暢、連貫、通順的文本。

那么接下來我們來看下什么是InstructGPT。從字面上來看,顧名思義,它就是指令式的GPT,“which is trained to follow an instruction in a prompt and provide a detailed response”。接下來我們來看下InstructGPT論文中的主要原理:

pYYBAGPknAmAfqGdAAFfaj7uGl0745.png

InstructGPT整體訓(xùn)練流程

從該圖可以看出,InstructGPT是基于GPT-3模型訓(xùn)練出來的,具體步驟如下:

步驟1.)從GPT-3的輸入語句數(shù)據(jù)集中采樣部分輸入,基于這些輸入,采用人工標(biāo)注完成希望得到輸出結(jié)果與行為,然后利用這些標(biāo)注數(shù)據(jù)進(jìn)行GPT-3有監(jiān)督的訓(xùn)練。該模型即作為指令式GPT的冷啟動模型。

步驟2.)在采樣的輸入語句中,進(jìn)行前向推理獲得多個模型輸出結(jié)果,通過人工標(biāo)注進(jìn)行這些輸出結(jié)果的排序打標(biāo)。最終這些標(biāo)注數(shù)據(jù)用來訓(xùn)練reward反饋模型。

步驟3.)采樣新的輸入語句,policy策略網(wǎng)絡(luò)生成輸出結(jié)果,然后通過reward反饋模型計算反饋,該反饋回過頭來作用于policy策略網(wǎng)絡(luò)。以此反復(fù),這里就是標(biāo)準(zhǔn)的reinforcement learning強(qiáng)化學(xué)習(xí)的訓(xùn)練框架了。

所以總結(jié)起來ChatGPT(對話GPT)其實(shí)就是InstructGPT(指令式GPT)的同源模型,然后指令式GPT就是基于GPT-3,先通過人工標(biāo)注方式訓(xùn)練出強(qiáng)化學(xué)習(xí)的冷啟動模型與reward反饋模型,最后通過強(qiáng)化學(xué)習(xí)的方式學(xué)習(xí)出對話友好型的ChatGPT模型。

InstructGPT的訓(xùn)練實(shí)際上是分為三個階段的,第一階段就是我們上文所述,利用人工標(biāo)注的數(shù)據(jù)微調(diào)GPT3;第二階段,需要訓(xùn)練一個評價模型即Reward Model,該模型需學(xué)習(xí)人類對于模型回復(fù)的評價方式,對于給定的上文與生成回復(fù)給出分?jǐn)?shù);第三階段,利用訓(xùn)練好的Reward Model作為反饋信號,去指導(dǎo)GPT進(jìn)一步進(jìn)行微調(diào),將目標(biāo)設(shè)定為Reward分?jǐn)?shù)最大化,從而使模型產(chǎn)生更加符合人類偏好的回復(fù)。

文章綜合CSDN、賽爾實(shí)驗(yàn)室、 IT架構(gòu)師聯(lián)盟

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4810

    瀏覽量

    102900
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1202

    瀏覽量

    8658
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1588

    瀏覽量

    8824
收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    新能源電池產(chǎn)業(yè)鏈及投資機(jī)會-磷酸亞鐵鋰

    新能源電池產(chǎn)業(yè)鏈及投資機(jī)會-磷酸亞鐵鋰  一、前言
    發(fā)表于 12-25 09:34 ?1064次閱讀

    LLM風(fēng)口背后ChatGPT的成本問題

    趁著ChatGPT這一熱門話題還未消退,我們來聊一聊這類大規(guī)模語言模型(LLM)或通用人工智能(AGI)背后的細(xì)節(jié)。畢竟目前相關(guān)的概念股跟風(fēng)大漲,但還是有不少人在持觀望態(tài)度。無論是國外還是國內(nèi)
    的頭像 發(fā)表于 02-15 01:19 ?5009次閱讀

    基于ATM理念的UTRAN傳輸架構(gòu)

    基于ATM理念的UTRAN傳輸架構(gòu):UTRAN(UMTS無線接入網(wǎng))系統(tǒng)傳輸網(wǎng)承載其內(nèi)部業(yè)務(wù)傳送及至CN(核心網(wǎng))側(cè)的業(yè)務(wù)匯聚功能,考慮3G網(wǎng)絡(luò)內(nèi),話音、媒體流及Internet等數(shù)據(jù)業(yè)務(wù)的多樣
    發(fā)表于 10-22 10:49 ?15次下載

    電動汽車用鋰離子電池技術(shù)的國內(nèi)外進(jìn)展

    電動汽車用鋰離子電池技術(shù)的國內(nèi)外進(jìn)展
    發(fā)表于 11-10 13:53 ?857次閱讀

    PCB線路板電鍍銅工藝

    PCB線路板電鍍銅工藝   一.電鍍工藝的分類:   酸性光亮銅電鍍電鍍鎳/金電鍍錫   二.工藝流程:
    發(fā)表于 11-17 14:01 ?4246次閱讀

    EPON技術(shù)

    EPON技術(shù) EPON是一個新技術(shù),用于保證提供一個高品質(zhì)與高帶寬利用率的應(yīng)用。   EPON在日本、韓國、中國大陸、中國臺灣及其它以以太網(wǎng)絡(luò)為基礎(chǔ)的地區(qū)都
    發(fā)表于 01-22 10:43 ?978次閱讀

    筆記本屏幕亮度與反應(yīng)速度

    筆記本屏幕亮度與反應(yīng)速度 屏幕亮度   筆記本TFT-LCD的亮度值一般都在150~200 cd/m2(極少數(shù)可以
    發(fā)表于 01-23 09:34 ?844次閱讀

    BGA封裝技術(shù)與質(zhì)量控制

    BGA封裝技術(shù)與質(zhì)量控制   SMT(Surface Mount Technology)表面安裝技術(shù)順應(yīng)了電子產(chǎn)品小型化、輕型化的潮流趨勢,為實(shí)現(xiàn)電子
    發(fā)表于 03-30 16:49 ?1611次閱讀

    鼠標(biāo)HID例程(中)

    鼠標(biāo) HID 例程 緊接《鼠標(biāo) HID 例程(上)》一文,繼續(xù)向大家介紹鼠 標(biāo) HID 例程的未完的內(nèi)容。
    發(fā)表于 07-26 15:18 ?0次下載

    籠型三相異步電動機(jī)噪聲故障

    籠型三相異步電動機(jī)噪聲故障_陳金剛
    發(fā)表于 01-01 15:44 ?1次下載

    比較器的原理及應(yīng)用資料下載

    電子發(fā)燒友網(wǎng)為你提供比較器的原理及應(yīng)用資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-14 08:40 ?27次下載
    <b class='flag-5'>簡</b><b class='flag-5'>析</b>比較器的原理及應(yīng)用資料下載

    5G AAU 功放控制和監(jiān)測模塊

    5G AAU 功放控制和監(jiān)測模塊
    發(fā)表于 10-28 12:00 ?2次下載
    5G AAU 功放控制和監(jiān)測模塊<b class='flag-5'>簡</b><b class='flag-5'>析</b>

    ChatGPT成功背后的技術(shù)原因

    ChatGPT不僅是自然語言理解領(lǐng)域的一項技術(shù)進(jìn)步,會引發(fā)新一輪信息服務(wù)和內(nèi)容生成領(lǐng)域的商業(yè)潮流,同時,其背后基于海量數(shù)據(jù)的深度生成技術(shù),以及基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù),是更長遠(yuǎn)的進(jìn)步動力,會引起生命科學(xué)等領(lǐng)域的長足發(fā)展。
    發(fā)表于 02-21 09:40 ?1309次閱讀

    chatgpt是什么意思 ChatGPT背后的技術(shù)原理

      今天我們?yōu)榇蠹規(guī)淼奈恼?,深入淺出地闡釋了ChatGPT背后的技術(shù)原理,沒有NLP或算法經(jīng)驗(yàn)的小伙伴,也可以輕松理解ChatGPT是如何工作的。  ChatGPT是一種機(jī)器學(xué)習(xí)自然
    發(fā)表于 07-18 17:12 ?0次下載

    AFE8092幀同步特性

    AFE8092幀同步特性
    的頭像 發(fā)表于 08-24 13:37 ?897次閱讀
    AFE8092幀同步特性<b class='flag-5'>簡</b><b class='flag-5'>析</b>
    主站蜘蛛池模板: 欧美特级黄 | 欧美日韩色图 | 国产女同在线观看 | 午夜免费一级片 | 好深好爽视频 | 99久久网站 | 色天天天天综合男人的天堂 | 香蕉蕉亚亚洲aav综合 | 亚洲www| 夜夜草天天干 | 国产三级日本三级日产三 | 久久久久久国产精品mv | 亚洲色啦啦狠狠网站 | 在线视频资源 | 97午夜理伦片在线影院 | 91深夜福利| 开心六月婷婷 | 俺也操 | 天堂在线视频精品 | 美女扒开尿口给男人桶视频免费 | 欧美性白人极品1819hd高清 | 欧美成人鲁丝片在线观看 | 天天摸天天碰成人免费视频 | 婷婷丁香花| 午夜精品久久久久久久99 | 欧美成人精品一区二区 | 欧美成人福利 | 啪啪网站色大全免费 | 色天使色护士 | 男男浪荡性受高hnp肉 | 中文字幕在线第一页 | 国产一二精品 | 男女免费观看视频 | 国产成人mv在线观看入口视频 | 波多久久夜色精品国产 | 久久久一本波多野结衣 | 国产性猛交xx乱 | 天天夜夜骑 | 狠狠色狠狠色综合久久一 | 成人欧美一区二区三区黑人3p | 亚洲欧美视频在线播放 |