遮天,懒人听书,完美世界有声小说全集

fr9mC79C_Egah.png?auth_key=1676217599-0-0-046f13c6b339c4c10103d4508d036404

百度 | Bard | Chat GPT

谷歌 | RLHF|ERNIE Bot

隨著深度學習、高性能計算、數據分析、數據挖掘、LLM、PPO、NLP等技術的快速發展，Chat GPT得到快速發展。Chat GPT是OpenAI開發的大型預訓練語言模型，GPT-3模型的一個變體，經過訓練可以在對話中生成類似人類的文本響應。

為了占據ChatGPT市場的有利地位，百度谷歌等巨頭公司也在運籌帷幄，不斷發展。

作為國內液冷服務器知名廠商，藍海大腦Chat GPT深度學習一體機實現了軟硬協同的深度優化，在分布式存儲加速、智能網絡加速等關鍵性技術上取得重要突破，提供更加出色的云系統性能。采用NVMe專屬定制的加速引擎，發揮NVMe極致性能，全棧的數據傳輸通道實現分布式存儲副本數據傳輸零損耗。同時，升級智能網絡引擎，通過更多類型網卡進行虛擬化調度，釋放CPU性能，可以使計算資源節約最多達90%，網絡轉發速率提高數倍，進一步提升平臺性能深受廣大Chat GPT 工作者的喜愛。

PJn5k3tW_tux4.jpg?auth_key=1676217599-0-0-154ac82bc2934f3f452f3867d4ba0419

深度學習一體機

ChatGPT的訓練過程

在整體技術路線上，Chat GPT引入了“手動標注數據+強化學習”(RLHF，從人的反饋進行強化學習)來不斷Fine-tune預訓練語言模型。主要目的是讓LLM模型學會理解人類命令的含義(比如寫一篇短文生成問題、知識回答問題、頭腦風暴問題等不同類型的命令)，讓LLM學會判斷對于給定的提示輸入指令(用戶的問題)什么樣的回答是優質的(富含信息、內容豐富、對用戶有幫助、無害、不包含歧視信息等多種標準)。

在“人工標注數據+強化學習”的框架下，具體來說，Chat GPT的訓練過程分為以下三個階段:

一、第一階段：監督調優模型

就 GPT 3.5 本身而言，雖然功能強大，但很難理解不同類型人類的不同指令所體現的不同意圖，也很難判斷生成的內容是否是高質量的結果。為了讓GPT 3.5初步理解指令中包含的意圖，將隨機選擇一批測試用戶提交的prompt（即指令或問題），由專業標注人員對指定指令提供高質量的答案，然后專業人員標注數據對GPT 3.5模型進行微調。通過這個過程，可以假設 GPT 3.5 最初具有理解人類命令中包含的意圖并根據這些意圖提供相對高質量答案的能力。

第一階段的首要任務是通過收集數據以訓練監督的策略模型。

數據采集：選擇提示列表，要求標注者寫出預期結果。Chat GPT 使用兩種不同的prompt 來源：一些是直接使用注釋者或研究人員生成的，另一些是從 OpenAI 的API 請求（即來自 GPT-3 用戶）獲得的。盡管整個過程緩慢且昂貴，但最終結果是一個相對較小的高質量數據集（大概有 12-15k 個數據點），可用于調整預訓練語言模型。

模型選擇：Chat GPT 開發人員從 GPT-3.5 套件中選擇預訓練模型，而不是對原始 GPT-3 模型進行微調。使用的基礎模型是最新版本的text-davinci-003（用程序代碼調優的GPT-3模型）。

eBrMQUqd_mevg.png?auth_key=1676217599-0-0-96ad9ba1301e22edea89361bc177d62e

二、第二階段：訓練回報模型

這個階段的主要目標是通過手動標注訓練數據來訓練回報模型。具體是隨機抽取用戶提交的請求prompt（大部分與第一階段相同），使用第一階段Enhancement的冷啟動模型。對于每個prompt，冷啟動模型都會生成K個不同的答案，所以模型會生成數據, ....。之后，標注者根據各種標準（上述的相關性、富含信息性、有害信息等諸多標準）對X個結果進行排序，并指定X個結果的排名順序，這就是這個階段人工標注的數據。

接下來，使用這個排名結果數據來訓練回報模型。使用的訓練方式實際上是常用的pair-wise learning to rank。對于 X 排序結果，兩兩組合起來形成一個訓練數據對，ChatGPT 使用 pair-wise loss 來訓練 Reward Model。RM 模型將作為輸入，并提供獎勵分數來評估答案的質量。對于一對訓練數據，假設 answer1 排在 answer2 之前，那么Loss函數驅動 RM 模型比其他得分更高。

總結一下：在這個階段，首先冷啟動后的監控策略模型對每個prompt生成X個結果，并根據結果的質量從高到低排序，并作為訓練數據，通過pair-wise learning to rank模式來訓練回報模型。對于學好的 RM 模型來說，輸入，并輸出結果質量分數。分數越高，答案的質量就越高。其工作原理是：

選擇prompt列表，SFT 模型為每個命令生成多個輸出（4 到 9 之間的任何值）；

標注者從最好到最差對輸出進行排名。結果是一個新標記的數據集，其大小大約是用于 SFT 模型的確切數據集的 10 倍；

此新數據用于訓練 RM 模型。該模型將 SFT 模型的輸出作為輸入，并按優先順序對它們進行排序。

K7fdgWC8_Zg5P.png?auth_key=1676217599-0-0-4b1623119408f5abe5e34e9cc238c924

三、第三階段：使用 PPO 模型微調 SFT 模型

本階段不需要人工標注數據，而是利用上一階段學習的RM模型，根據RM打分結果更新預訓練模型參數。具體來說，首先從用戶提交的prompt中隨機選擇一批新的指令（指的是不同于第一階段和第二階段的新提示），PPO模型參數由冷啟動模型初始化。然后對于隨機選取的prompt，使用PPO模型生成答案，使用前一階段訓練好的RM模型，提供一個評價答案質量的獎勵分數，即RM對所有答案給出的整體reward。有了單詞序列的最終回報，每個詞可以看作一個時間步長，reward從后向前依次傳遞，由此產生的策略梯度可以更新PPO模型的參數。這是一個標準化的強化學習過程，目標是生成符合 RM 標準的高質量答案。

如果我們不斷重復第二和第三階段，很明顯每次迭代都會讓 LLM 模型變得越來越強大。因為在第二階段，RM模型的能力通過人工標注數據得到增強，而在第三階段，增強的RM模型更準確地評估新prompt生成的答案，并使用強化學習來鼓勵LLM模型學習新的高質量內容，這類似于使用偽標簽來擴展高質量的訓練數據，從而進一步增強LLM模型。顯然，第二階段和第三階段相輔相成，這就是為什么連續迭代的效果會越來越大。

不過小編認為，在第三階段實施強化學習策略并不一定是Chat GPT模型如此出色的主要原因。假設第三階段不使用強化學習，而是采用如下方法：與第二階段類似，對于一個新的prompt，冷啟動模型可能會生成X個答案，由RM模型打分。我們選擇得分最高的答案組成新的訓練數據，進入fine-tune LLM模型。假設換成這種模式，相信效果可能會比強化學習更好。雖然沒那么精致，但效果不一定差很多。不管第三階段采用哪種技術模型，本質上很可能是利用第二階段學會的RM，從LLM模型中擴展出高質量的訓練數據。

以上是Chat GPT訓練過程。這是一個改進的 instruct GPT。改進主要是標注數據收集方法上的一些差異。其他方面，包括模型結構和訓練過程，基本遵循instruct GPT。估計這種Reinforcement Learning from Human Feedback技術會很快擴散到其他內容創作方向，比如一個很容易想到的方向，類似“A machine translation model based on Reinforcement Learning from Human Feedback”等。不過個人認為在NLP的內容生成的特定領域采用這項技術并不是很重要，因為Chat GPT本身可以處理很多不同類型的任務，基本上涵蓋了NLP產生的很多子領域。因此，對于NLP的某些細分領域，單獨使用這項技術的價值并不大，其可行性可以認為是經過Chat GPT驗證的。如果將該技術應用到其他模式的創作中，比如圖像、音頻、視頻等，這或許是一個值得探索的方向。可能很快就會看到類似“A XXX diffusion model based on Reinforcement Learning from Human Feedback”之類的內容。

EFJm39VX_LteZ.png?auth_key=1676217599-0-0-c4876568e13dee2a774d1ea9990ecc65

Chat GPT的不足之處

盡管Chat GPT好評如潮且商家采用率不斷提高，但仍然存在許多缺點。

一、回答缺少連貫性

因為Chat GPT只能基于上文且記憶力差，傾向于忘記一些重要的信息。研究人員正在開發一種 AI，可以在預測文本中的下一個字母時查看短期和長期特征。這種策略稱為卷積。使用卷積的神經網絡可以跟蹤足夠長的信息以保持主題。

二、有時會存在偏見

因為 Chat GPT 訓練數據集是文本，反映了人類的世界觀，這不可避免地包含了人類的偏見。如果企業使用 Chat GPT 撰寫電子郵件、文章、論文等無需人工審核，則法律和聲譽風險會很大。例如，帶有種族偏見的文章可能會產生重大后果。

Facebook 的 AI 負責人 Jerome Pesenti 使用 Kumar的 GPT-3 生成的推文來展示輸出如何根據需要使用“猶太人、黑人、女性或大屠殺”等詞，其輸出可能會變得多么危險。Kumar 認為這些推文是精心挑選的，Pesenti 同意，但回應說“產生種族主義和性別歧視的輸出不應該那么容易，尤其是在中立的情況下。”

另外，對GPT-3文章的評價也有失偏頗。人類寫作文本的風格會因文化和性別而有很大差異。如果 GPT-3 在沒有校對的情況下對論文進行評分，GPT-3 論文評分者可能會給學生更高的評分，因為他們的寫作風格在訓練數據中更為普遍。

三、對事實理解能力較弱

Chat GPT不能從事實的角度區分是非。例如，Chat GPT 可能會寫一個關于獨角獸的有趣故事，但 Chat GPT 可能不了解獨角獸到底是什么。

四、錯誤信息/虛假新聞

Chat GPT可能會創作逼真的新聞或評論文章，這些文章可能會被壞人利用來生成虛假信息，例如虛假故事、虛假通訊或冒充社交媒體帖子，以及帶有偏見或辱罵性的語言。或垃圾郵件、網絡釣魚、欺詐性學術論文寫作、煽動極端主義和社會工程借口。Chat GPT 很容易成為強大宣傳機器的引擎。

五、不適合高風險類別

OpenAI 聲明該系統不應該用于“高風險類別”，例如醫療保健。在 Nabra 的博客文章中，作者證實 Chat GPT 可以提供有問題的醫療建議，例如“自殺是個好主意”。Chat GPT 不應在高風險情況下使用，因為盡管有時它給出的結果可能是正確的，但有時會給出錯誤的答案。在這個領域，正確處理事情是生死攸關的問題。

六、有時產生無用信息

因為 Chat GPT 無法知道哪些輸出是正確的，哪些是錯誤的，并且無法阻止自己向世界傳播不適當的內容。使用此類系統生成的內容越多，互聯網上產生的內容污染就越多。在互聯網上尋找真正有價值的信息變得越來越困難。由于語言模型發出未經檢查的話語，可能正在降低互聯網內容的質量，使人們更難獲得有價值的知識。

谷歌、百度應對OpenAI所采取的措施

近日，Chat GPT聊天機器人風靡全球，轟動一時。這些AI產品是眾多大廠競相競爭的對象。2月7日消息，據外媒報道，當地時間周一，谷歌公布了Chat GPT的競爭對手Bard，一款人工智能聊天機器人工具。此外，百度計劃在今年 3 月推出類似于 Chat GPT OpenAI 的 AI 聊天機器人服務。

一、谷歌推出AI聊天機器人工具Bard

谷歌CEO桑達爾·皮查伊（Sundar Pichai）在一篇博文中宣布了該項目，將該工具描述為一種由LaMDA（谷歌開發的大型語言模型）支持的“實驗性對話式人工智能服務”，將回答用戶問題并參與對話。

他還指出，Bard 能夠從網絡中提取最新信息以提供新鮮、高質量的回復，這意味著 Bard 可能能夠以 Chat GPT 難以做到的方式回答有關近期事件的問題。

Pichai 表示，該軟件最初將開始面向可信任的測試人員開放，然后在未來幾周內更廣泛地向公眾提供。目前尚不清楚 Bard 將具有哪些功能，但聊天機器人似乎將像美國人工智能研究公司 OpenAI 擁有的 Chat GPT 一樣免費使用。

據悉，Chat GPT由OpenAI于2022年11月30日推出，Chat GPT可以根據用戶需求快速創作文章、故事、歌詞、散文、笑話，甚至代碼，并回答各種問題。Chat GPT一經發布就在互聯網上掀起一股風暴，并受到包括作家、程序員、營銷人員在內的用戶以及其他公司的青睞。對于Chat GPT的走紅，Pichai在公司內部發布了“紅色警報”，表示將在2023年圍繞Chat GPT全面適配谷歌在AI方面的工作。上周，皮查伊表示，谷歌將在未來幾周或幾個月內推出自己的 AI 語言建模工具，類似于 Chat GPT。

fvhtUYPt_ZhZF.png?auth_key=1676217599-0-0-24174ba08e56c746118bac155f0d2d6c

二、百度Chat GPT產品官宣確認：文心一言3月完成內測

值得注意的是，據外媒報道百度計劃在今年3月推出類似于Chat GPT OpenAI的人工智能聊天機器人服務。初始版本將嵌入其搜索服務中。目前，百度已確認該項目名稱為文心一言，英文名稱為ERNIE Bot。內部測試于 3 月結束，并向公眾開放。此時，文心一言正在做上線前的沖刺。

去年9月，百度CEO李彥宏判斷人工智能的發展“在技術層面和商業應用層面都出現了方向性轉變”。據猜測百度那時候就開始做文心一言。按照谷歌和微軟的節奏，文心一言可能提前開啟內測。

百度擁有 Chat GPT 相關技術，在四層人工智能架構上（包括底層芯片、深度學習框架、大模型、頂級搜索應用）進行了全棧布局。文心一言位于模型層。百度深耕人工智能領域數十年，擁有產業級知識增強文心大模型ERNIE，具有跨模態、跨語言的深度語義理解和生成能力。

業內人士分析，尤其是在自然語言處理領域，國內絕對沒有一家公司能接近百度目前的水平。有專家提出Chat GPT是人工智能的一個里程碑，更是分水嶺，意味著AI技術的發展已經到了一個臨界點，企業需要盡快落地。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1799

文章
47959

瀏覽量
241172
深度學習

深度學習

+關注

關注
73

文章
5523

瀏覽量
121702
ChatGPT

ChatGPT

+關注

關注
29

文章
1577

瀏覽量
8183

OpenAI即將發布GPT-4.5與GPT-5

，OpenAI還將推出更為先進的GPT-5。Sam Altman在社交平臺上明確表示，GPT-5的發布時間已經確定在幾個月內。這一消

發表于 02-13 13:43 ?144次閱讀

Krea發布Deepseek R1驅動的Chat功能

近日，Krea平臺迎來了一項重大更新——全新發布的Krea chat功能。這一功能由Deepseek R1驅動，為用戶帶來了前所未有的便捷體驗。通過Krea chat，用戶可以直接在

發表于 02-08 11:09 ?326次閱讀

微軟重新推出免費企業版Copilot：Microsoft 365 Copilot Chat

據外媒最新報道，微軟近期重新推出了其備受關注的企業版Copilot，并命名為“Microsoft 365 Copilot Chat”。這一新版本的最大亮點在于其免費提供的AI代理功能，為用戶帶來

發表于 01-17 10:08 ?282次閱讀

原百度副總裁尹世明加入谷歌云

谷歌云近日宣布了一項重要人事任命，原百度副總裁尹世明正式加入谷歌云，擔任大中華區總裁一職。

發表于 11-19 16:43 ?382次閱讀

OpenAI收購chat.com，強化ChatGPT品牌

近日有消息報道，OpenAI在成功收購ai.com域名后，再次出手買下了chat.com這一極具價值的域名。相較于ai.com，chat.com更貼合OpenAI旗下熱門產品ChatGPT的調性

發表于 11-08 11:08 ?565次閱讀

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

GPT-4. GPT-4o mini的定價為每百萬輸入標記15美分和每百萬輸出標記60美分，比之前的前沿模型便宜了一個數量級，比GPT-3.5 Turbo便宜了60%以上。

發表于 07-21 10:20 ?1253次閱讀

OpenAI 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜

GPT的定義和演進歷程

GPT，全稱Generative Pretrained Transformer，是OpenAI公司在自然語言處理（NLP）領域的一項重大創新。這一模型不僅推動了AI技術的邊界，還深刻影響了

發表于 07-10 10:41 ?1711次閱讀

OpenAI GPT-5:未來已來,但何時降臨

在人工智能領域的浩瀚星空中，OpenAI無疑是那顆最為耀眼的星辰。自其誕生以來，每一次的技術革新都牽動著全球科技愛好者的心弦。特別是當GPT-4在今年5月14日凌晨悄然降臨，以其強大的語言理解和生成能力，再次刷新了人們對于人工智能的認知邊界后，關于下

發表于 07-03 15:51 ?428次閱讀

寶塔面板Docker一鍵安裝：部署GPTAcademic，開發私有GPT學術優化工具

人工智能的浪潮中，GPT模型因其強大的自然語言處理能力備受矚目。然而，為了更好地應用于學術領域，許多人希望能部署自己私有的GPT學術優化工具。本文將詳細介紹如何通過寶塔面板和Docker一鍵安裝

發表于 07-02 11:58 ?2960次閱讀

2024百度移動生態萬象大會:百度新搜索11%內容已AI生成

2024百度移動生態萬象大會:百度新搜索11%內容已AI生成今天2024百度移動生態萬象大會在江蘇蘇州舉辦，特別是AI搜索與百度文心一言的

發表于 05-30 18:58 ?465次閱讀

開發者如何調用OpenAI的GPT-4o API以及價格詳情指南

和使用限制方面有明顯優勢：定價：GPT-4o的價格是GPT-4 Turbo的一半，輸入每百萬字符5美元，輸出每百萬字符15美元。使用限制：GPT-4o的使用限制是

發表于 05-29 16:00 ?1.3w次閱讀

OpenAI CEO: GPT-4o and GPT-5引領未來12個月編程領域，GPT-5更具潛力

據報道，OpenAI首席執行官阿萊夫·阿爾特曼在接受Redpoint風投公司LoganBartlett的專訪中，透露了最近發布的GPT-40以及即將面世的GPT-5。

發表于 05-17 16:25 ?650次閱讀

李未可科技發布全新首款AI眼鏡Chat，搭載自研AI大模型

AI語音助手，為用戶開啟超擬人的AI語音交互新體驗。用戶可使用語音交互讓AI幫助解決工作&日程安排，或開啟百科問答、學習輔助、英文翻譯、語音導航、超擬人情感陪伴及音樂娛樂等功能。搭載自研WAKE-AI大模型，打造新一代隨身AI智能助理李未可科技表示，AI 眼鏡

發表于 04-26 10:45 ?2004次閱讀

【Longan Pi 3H 開發板試用連載體驗】給ChatGPT裝上眼睛，并且還可以語音對話：8，GPT接入，功能整合完成項目

GPT接入 Github上有一個非常有名的開源項目，曾經還引來了不少爭議，這個項目叫gpt4free。實際原理與poe wrapper相似，都是利用網絡請求的方法從各個第三方平臺的gpt

發表于 04-18 12:43

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級至GPT-4取得顯著進步，如今再次更新至性能卓越的GPT-4 Turbo模型，這無疑將使得

發表于 03-13 13:42 ?821次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

谷歌用Bard打響了Chat GPT的第一槍，百度版Chat GPT 何時出爐？

評論

OpenAI即將發布GPT-4.5與GPT-5

Krea發布Deepseek R1驅動的Chat功能

微軟重新推出免費企業版Copilot：Microsoft 365 Copilot Chat

原百度副總裁尹世明加入谷歌云

OpenAI收購chat.com，強化ChatGPT品牌

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

GPT的定義和演進歷程

OpenAI GPT-5:未來已來,但何時降臨

寶塔面板Docker一鍵安裝：部署GPTAcademic，開發私有GPT學術優化工具

2024百度移動生態萬象大會:百度新搜索11%內容已AI生成

開發者如何調用OpenAI的GPT-4o API以及價格詳情指南

OpenAI CEO: GPT-4o and GPT-5引領未來12個月編程領域，GPT-5更具潛力

李未可科技發布全新首款AI眼鏡Chat，搭載自研AI大模型

【Longan Pi 3H 開發板試用連載體驗】給ChatGPT裝上眼睛，并且還可以語音對話：8，GPT接入，功能整合完成項目

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型