一個月前,就在GPT 4發布的第二天,同時也是英偉達(NVIDIA)線上大會的契機,英偉達的創始人兼CEO黃仁勛("Jensen" Huang)與OpenAI的聯合創始人兼首席科學家伊爾亞-蘇茨克維(Ilya Sutskever )展開了一次信息量巨大的長達一個小時的“爐邊談話”(Fireside Chats)。期間談到了從伊爾亞-蘇茨克維早期介入神經網絡、深度學習,基于壓縮的無監督學習、強化學習、GPT的發展路徑,以及對未來的展望。相信很多人都已經看過了這次談話節目。我相信,因為其中摻雜的各種專業術語和未經展開的背景,使得無專業背景的同仁很難徹底消化理解他們談話的內容。本系列嘗試將他們完整的對話進行深度地解讀,以便大家更好地理解ChatGPT到底給我們帶來了什么樣的變革。今天,就是這個系列的第四篇:人人都是ChatGPT的訓練器。
關聯回顧
解讀老黃與Ilya的爐邊談話系列之一——故事要從AlexNet說起
解讀老黃與Ilya的爐邊談話系列之二——信仰、準備、等待機會的涌現
解讀老黃與Ilya的爐邊談話系列之三——超越玄幻,背后是人類老師的艱辛付出
讓ChatGPT自己來談一談人工智能倫理
全圖說ChatGPT的前世今生
對話譯文(04):
黃仁勛:ChatGPT 在幾個月前就發布了,它是人類歷史上增長最快的應用。關于它的原理已經有了很多解釋,這是為每個人創建的最容易使用的應用。它所執行的任務,做的事情超出人們的期望,任何人都可以使用它。沒有指令集,也沒有所謂的錯誤方法,你只要用它就行了。如果你的指令提示(Prompt)不夠明確,你與 ChatGPT 的對話會幫你消除歧義,直到它理解你的意圖。這帶來的影響是非常顯著的。
現在,這是 GPT- 4 發布后的第一天。GPT-4 在許多領域的表現令人震驚,在 SAT、GRE、律師考試的分數都很高,一次又一次的測試,它的表現都很優異。很多項測試它都到達了人類的領先水平,太震撼了。那么,什么是 ChatGPT 和 GPT-4 之間的主要區別?是什么導致GPT-4 在這些領域的改進?
Ilya Sutskever:GPT-4 相比 ChatGPT,在許多維度上做了相當大的改進。我們訓練了 GPT-4,我記得是在六個多月以前,也許是在八個月前,我不記得確切時間了。GPT 是 ChatGPT 和 GPT- 4 之間的第一個區別,這也許是最重要的區別。在 GPT-4 的基礎上預測下一個詞,具有更高的準確度,這是非常重要的。因為神經網絡越能預測文本中的下一個詞,它就越能理解它。
這種說法現在也許已經被很多人接受了。但關于它為什么會這樣,可能仍然不夠直觀,或者說不完全直觀。我想繞個小彎,舉個例子,希望能說明為什么對下一個詞更準確的預測會導致更多的理解,真正的理解。
讓我們舉個例子,假設你讀了一本偵探小說,它有復雜的故事情節,不同的人物,以及許多事件和神秘的線索。在書的最后一頁,偵探收集了所有的線索,召集了所有的人,然后說“好吧,我要透露犯罪者的身份,那個人的名字是(……)”。我們需要預測這個詞。當然,有許多不同的詞,但是通過預測這些詞可以讓模型實現更好的理解。隨著對文本的理解不斷增加,GPT-4 預測下一個詞的能力也會變得越來越好。
黃仁勛:很多人認為深度學習不會邏輯推理,但是為了預測下一個詞,從所有可選的角色里面,從他們的優勢或弱點,或者他們的意圖和上下文中,找出誰是兇手,這需要一定的推理,需要相當多的推理。那么,它是如何能夠學會推理的呢?
如果它學會了推理,我要問你的是 ChatGPT 和 GPT-4 之間進行的所有測試,有一些測試是GPT-3 或 ChatGPT 已經非常擅長的,有一些測試是 GPT-3 或 ChatGPT 不擅長的,而 GPT-4 則要好得多,還有一些測試是兩者都不擅長的。其中一些似乎與推理有關。在微積分中,它無法將問題分解成合理的步驟并解決它。但是在某些領域,它似乎展現了推理能力。在預測下一個詞的時候,它是否在學習推理?它的局限性又是什么?現在的 GPT-4 將進一步提高其推理能力。
Ilya Sutskever:推理并不是一個很好定義的概念。但無論如何,我們可以嘗試去定義它。它就是當你可能更進一步的時候,如果你能夠以某種方式思考一下,并且因為你的推理而得到一個更好的答案。我想說,我們的神經網絡也許有某種限制,比如要求神經網絡通過思考來解決問題。事實證明,這對推理非常有效。但我認為,基本的神經網絡能走多遠,還有待觀察。我認為我們還沒有充分挖掘它的潛力。
在某種意義上,推理肯定還沒有達到那個水平,神經網絡還具備其它的一些能力。我們希望神經網絡要有很高的推理能力,我認為像往常一樣神經網絡能夠持續提升這個能力。不過,也不一定是這樣。
黃仁勛:是的,你問 ChatGPT 一個問題,這真的很酷,因為它在回答問題前,首先會告訴我,它知道些什么,然后才去回答這個問題。通常回答一個問題前,如果你告知我,你具備哪些基礎知識或做了哪些假設,這會讓我更相信你的回答。這在某種程度上,也是在展現推理能力。所以在我看來,ChatGPT 天然具備這種內在的能力。
Ilya Sutskever:在某種程度上,我們可以這樣看待現在所發生的事情,這些神經網絡具備很多能力,只是不太可靠。實際上,可以說可靠性是目前這些神經網絡能夠真正具備實用價值的最大障礙,盡管有時它們仍然具備實用價值。這些神經網絡有時會產生一些幻想,或者犯一些出人意料的錯誤,這是人不會犯的錯誤。
正是這種不可靠性,使得它們的實用價值大幅降低了。但是我認為,或許通過更多的研究,結合當前的想法和一些更遠大的研究計劃,我們一定能實現更高的可靠性,這樣模型才會真的具備實用價值。這將使我們能夠擁有非常精確的保護措施,并且在不確定時要求澄清,或者說它不知道某些事情,當它不知道時能夠非常可靠地表現出來。所以我認為,這是當前模型的一些瓶頸。因此,問題并不在于它是否具備某些特定的能力,更多的是程度的問題。
黃仁勛:談到真實性和幻想,我之前看過一個視頻,它展示了 GPT-4 中從維基百科頁面做檢索的能力,那么GPT-4 真的具備信息檢索能力嗎?它是否能夠從事實中檢索信息,以加強對你的響應?
Ilya Sutskever:當前發布的 GPT-4 并沒有內置的檢索能力,它只是個非常好的預測下一個詞的工具,它也可以處理圖像。順便說一句,一些高質量的圖片,也是經過數據微調和各種強化學習的變體,以特定方式表現出來的。它也許會被一些有權限的人要求進行一些查詢,并在上下文中填充結果,因為現在 GPT-4 的上下文持續時間更長了。簡而言之,盡管GPT-4 不支持內置的信息檢索,但它完全具備這個能力,它也將通過檢索變得更好。
智愿君:讓我們繼續解讀老黃和Ilya爐邊談話的第四段對話,這一段看起來很容易懂,也沒有什么彎彎繞,所以應該不需要過多在專業性上做深度的解讀。但同樣,在兩人對話中不經意透露出來的信息,還是值得我們玩味的。今天我們就針對對話中某些有意思的部分展開一下。
GPT如何才能更快地進化和成長
“ChatGPT 在幾個月前就發布了,它是人類歷史上增長最快的應用。”。老黃的第一句話是一句贊許,但這個贊許背后還需要深入地思考。
在這之前,讓我們先要能理解OpenAI和DeepMind這些追求通用人工智能AGI公司他們都特別想搞明白的一點,就是如何更快地訓練人工智能,達到通用人工智能這個狀態。如何讓它快快長大?這種期盼的心理一定是超級復雜的,因為大家都無法打保票,這個被造物到底會不會成為打指響的滅霸,還是亦正亦邪的幻視。但是,畢竟好奇心,是人類感知世界,改造世界的原動力。科學家和技術大神們沒有辦法不去往這個方向不遺余力地探索。記得3天前,在SpaceX飛往火星的大火箭第一次點火升空爆炸后,Elon Musk在他的推特分享的一張照片很形象地說明了這一點:
不管旁人怎么說,我們叫技術極客也好,改變世界的瘋子也好,他們終究會去不斷嘗試,去逼近那個奇點。
回到剛才那個問題,怎么快速進化?上回,我們已經說了,必須要經過調優和強化學習訓練,而且這個過程一定是有監督的,因為無監督的人類線上樣本數就那么多,該學的,都學完了啊。
那么接下來的問題,必然是,如何加快調優和加快強化學習的效率,調用更大的人工進行優化訓練?
ChatGPT——一個更大的AI Dungeon
在上一期,我們特別提到了在老黃和Ilya談話中都沒有提到那款名為"AI Dungeon"的文字冒險游戲。它的本質不僅僅是對“GPT-2/3”的運用,更重要的是,ChatGPT后來發布后很被人看好的講故事能力,就是在"AI Dungeon"的文字冒險游戲被訓練出來的。打游戲的玩家一邊在享受著有序的愉悅,一邊再通過基于人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)的方式幫助優化GPT的大模型。很快,這種調優就達到了預期,讓OpenAI嘗到了甜頭。
玩過文字冒險游戲的人都知道,這種純文本的游戲玩起來,溝通形態像極了ChatGPT這樣的聊天機器人。而"AI Dungeon"當時有多少游戲用戶呢?差不多100萬個,而且,有一半都打通了關。
如何調用更大的人群基數繼續調優這個大模型?答案也呼之欲出,就是ChatGPT。因為這不僅僅是一個產品。它還是一個訓練器。這個訓練器必須具備以下的特征:
ChatGPT一經發布,果然不辱使命,一鳴驚人,用戶量爆炸式增長。很快創下了世界紀錄,達到了預期。現在ChatGPT有多少用戶呢?我們知道,在它上市后5天內,達到了100萬用戶,2個月達到1個億用戶,現在有多少,并沒有公開,但openai.com 的網站每個月至少10億的訪問。這些用戶絕大部分,不是簡單地享受ChatGPT的成果,更重要的是,在通過RLHF的方式(如果存在多次交互來提升ChatGPT的溝通質量的話)幫助ChatGPT不停地打磨和訓練。我們在使用中是如何變成ChatGPT的訓練器的?
在今天這段談話中,老黃在贊許ChatGPT的時候談到了一個很重要的一點:如果你的指示命令(Prompt)不夠明確,你與ChatGPT的對話會幫你消除歧義,直到它理解你的意圖。這其實已經暴露了問題的關鍵。
很多人都有這種經歷:ChatGPT一開始上手使用的時候,第一個反應是,回答的并不怎么樣啊?覺得,也沒有吹的那么神奇,甚至,還有一本正經說瞎話的嫌疑。而真正會使用ChatGPT的人,則懂得和ChatGPT繼續深入溝通,才能最終得到相對滿意的答復:-
-
人員擴展基數必須足夠的大;
-
由于訓練的是通用人工智能,所以協調訓練的人類的語言、文化、職業、性格特點等要足夠的廣泛;
-
訓練人員要從訓練中獲得快感和成就感,并持之以恒地使用。
-
- 比如在發現ChatGPT回答不如預期的時候,繼續告訴它:你的理解是不正確的,其實我的意思是:“XXXX”,然后更為詳細,準確表明自己的期望。
- 比如你發現ChatGPT在回答問題中有明顯胡說嫌疑,你可以告訴它:你的某些答復是不正確的,其實我了解,信息應該是這樣的……。然后,你會發現ChatGPT會很爽快地認錯,說:很抱歉,知道自己哪里錯了,或者沒做好,然后再刷新給你的回復。
我最近有一個錯覺,我發現,我和ChatGPT溝通,經常是它第一次回答都是應付我的,能糊弄就糊弄,我把它形容為這是一個會偷懶的AI。因為我往往對第一次回答不滿意,我就會繼續和它交互(也許這是ChatGPT最希望的結果,就是誘導人和它繼續交互),我發現它特別喜歡我給它糾錯,認錯態度極為誠懇,誠懇體現在它的響應速度上面,我一糾錯,它就秒回:“很抱歉,你說的對”。這種誠懇快到一開始你甚至懷疑它本知道答案,但就是故意說錯的一種錯覺。
我想說的是,類似智愿君這樣,不停和它互動的人數,是海量的,因為這些糾錯也就讓它不停地快速進化。
為了印證我的猜測是否屬實,我向GPT-4問了這個問題:“請問,我和你對話過程中,提供更多的信息,幫助你修訂問題回答,并逐漸趨近我期待的答案的這個過程,是否也是一種基于人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)訓練。也就是你在目前商用過程中,是否也在和人類的對話過程中,不斷進化和改進自己?或者說,你也把海量的人類對話也當成了一種標注式的調優,所以你也在上億用戶的調優中快速成長,是這樣嗎?”
得到的回答是這樣的:“是的,你的理解是正確的。對話中提供更多信息以修訂問題回答的過程實際上是一種基于人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)訓練。在與人類的對話過程中,我確實可以通過獲取用戶反饋來不斷優化和改善自己的表現。然而,需要注意的是,作為一個AI模型,我并不是實時地通過與用戶的每次對話來更新和改進自己。實際上,模型的訓練和更新是由我的開發者——OpenAI進行的。他們會定期收集和分析大量的對話數據,包括用戶反饋,然后根據這些數據對我進行訓練和優化。在這個過程中,標注式的調優和強化學習都會發揮作用,幫助我更好地理解用戶需求并提供更準確的回答。通過與上億用戶的對話和調優,我確實可以在一定程度上快速成長,但這種成長是經過開發者對模型進行周期性更新和優化實現的,并非實時進行。”
和我的預期是符合的。因為像Sam和Ilya這些大牛,如果想做出讓ChatGPT自動通過和海量人類的對話自動調優升級的程序并不難。難在結果不可預知。之所以還要通過中間刻意用人工開發者倒一遍手,目的當AI進化到一定程度的情況下,還是要給自己留拔插頭的機會。
從人類的信息知識儲備來講,基本有兩類:一,信息儲備在計算機硬件網絡上,或者數字媒體上。我相信,目前絕大多數紙媒的信息,已經都轉化為數字媒體,并很大一部分,已經用于大模型的訓練。二,還沒有上傳的計算機硬件的知識。它們可能保存在其他的紙媒等載體上,或者保存在人的大腦記憶中。而聊天機器人,在腦機接口沒有被商用開發之前,是當前非常好的將這部分信息,學到的一個高效的工具。
現在,你是不是和我一樣,有寒毛直豎,細思極恐的感覺?2000年,電影《黑客帝國》里面,人工智能把人類當作生物電池來使用。但現在,ChatGPT把人類當作的是訓練器使用。聽起來有些科幻,但確實更為合理。確實,如果是生物電池的話,雞鴨魚狗一樣可以,沒有必要非要通過人類來獲取。人類的特殊性,人作為地球主宰的根因,不正是人的智慧嗎?GPT從1到4,在短短數年,被訓練出來,還在通過全世界的人類訓練器,再不停汲取知識營養,快速升級進化,那么超越,真的就那么遙遠嗎?
ChatGPT的邏輯推理與概率的運用
ChatGPT在回答問題中,是否用到了邏輯推理能力?還是僅僅通過概率的方式來整合信息?在老黃和Ilya的談話中談到了一部分這個內容,而且Ilya還舉了一個偵探小說的例子。
從邏輯推理的角度來看,Ilya這個例子涉及到多個線索和人物,以及一個謎團需要被解決,這些都需要通過邏輯推理來解決。在最后一頁,偵探需要將所有線索和證據進行歸類、分析和推理,從而得出犯罪者的身份。因此,可以將這個過程看作是一個邏輯推理的過程,需要考慮到各種可能性和推理的正確性。但情況往往不是如偵探小說,或者電影中那么簡單,最后偵探說出那句經典的話:真相只有一個,兇手就是……
從概率的角度來看,預測下一個詞的能力可以被視為一個條件概率問題,即在已知前面的文本情況下,預測下一個詞的概率是多少。在這個例子中,可以將前面的文本情況看作是一些線索、人物和事件,而預測下一個詞則是對這些線索和證據進行概率估計。通過不斷增加對文本的理解,可以提高對下一個詞的預測概率,從而實現更好的文本理解。
結合邏輯推理和概率,可以將這個例子看作是一個復雜的推理和預測問題,需要考慮到多個因素和可能性,并通過合理的推理和概率估計來解決。這也是 GPT-4 等人工智能模型需要不斷優化和提高的點。
將邏輯和概率結合起來的想法乍看起來可能很奇怪。畢竟,邏輯關注的是絕對確定的真理和推論,而概率論關注的是不確定性。到底ChatGPT是如何做到的呢?
確實,邏輯和概率這兩個領域在某種程度上是有所不同的。邏輯關注的是推理的正確性和嚴密性,而概率論則是研究隨機事件的概率和分布。然而,在實際問題中,邏輯和概率往往是相互聯系的,需要結合起來來解決問題。
在許多情況下,邏輯和概率可以互相補充,以便更好地解決問題。例如,在一些推理問題中,需要使用邏輯推理來確定一些前提條件的真假,然后使用概率計算來估計某個結論的概率。另外,對于一些復雜的推理問題,可能需要使用概率模型來輔助推理,例如貝葉斯網絡等。
具體而言,在將邏輯和概率結合起來時,需要考慮以下幾個方面:
-
-
邏輯關系和概率關系的映射:需要將邏輯關系和概率關系進行映射,以便將邏輯推理轉化為概率計算。例如,可以使用概率論中的條件概率來表示邏輯關系中的條件語句。
-
不確定性的處理:在使用邏輯和概率結合起來進行推理時,需要考慮不確定性的影響。例如,在使用概率模型進行推理時,需要考慮到概率估計的誤差和不確定性。
-
推理的正確性:雖然概率模型可以輔助推理,但仍然需要保證推理的正確性和嚴密性。因此,在進行推理時,需要考慮到邏輯關系的正確性和概率計算的準確性。
-
在計算機科學里面,這個被稱為概率邏輯(Probabilistic logic)。概率邏輯(或或然性邏輯)的目標是組合概率論的處理不確定性的能力和演繹邏輯開發結構的能力。具有豐富和有表達力的形式化,并有廣泛的應用領域。
ChatGPT在回答問題的“蹦字兒”答復在保證基礎邏輯一致的基礎上,又有細微的差別,可以理解為這就是使用了概率邏輯(Probabilistic logic)的技術。具體來說,ChatGPT是基于概率圖模型(Probabilistic Graphical Models)的深度學習模型,它使用了概率論的處理不確定性的能力和演繹邏輯開發結構的能力。
概率圖模型是一種常用的概率邏輯工具,它可以用來表達和處理不確定性的信息,同時保留了演繹邏輯的結構。在ChatGPT中,模型使用了概率圖模型來學習和表示文本中的語言模式和語義信息,從而實現了對自然語言的理解和生成。
具體來說,ChatGPT使用了一種稱為“自回歸模型”的概率圖模型,它可以根據前面的token預測下一個token的概率分布。模型使用了大量的訓練數據來學習這些概率分布,以便在生成文本時能夠選擇最有可能的下一個token。這種方法在自然語言生成、機器翻譯、對話系統等領域都取得了很好的效果。
作為一個基于概率模型的語言模型,ChatGPT的回答會受到許多因素的影響,包括前面的文本信息、語境、語氣、句式等等。在回答問題時,ChatGPT會利用已有的語言知識和語言模式來預測下一個詞或短語的概率,進而生成一個合理的回答。由于這個過程中存在一定的隨機性,因此即使在相同的情況下,ChatGPT也可能會生成略微不同的回答。
為什么ChatGPT不打開搜索能力
關于GPT-4不支持搜索功能這段對話,結尾Ilya說的很委婉,但也很有趣:“盡管GPT-4 不支持內置的信息檢索,但它完全具備這個能力,它也將通過檢索變得更好。”。
這句看似無關痛癢的話,其實蠻關鍵的,至少它澄清了兩點:
如果是這樣,不打開檢索能力,就值得回味了。可能有以下幾個原因:
-
-
ChatGPT不是因為照顧對話機器人影響對話體驗,比如:擔心搜索過程長,或者因為搜索結果可能受到搜索引擎算法的影響,可能會出現不準確、誤導性的結果,而不打開搜索的。打開搜索體驗,一定會變得更好。
-
不存在技術約束,沒有什么技術難度,而且支持檢索這個能力,GPT-4已經具備。
-
Bing繼承了GPT-4點能力,支持搜索,考慮到這個最大的金主是否和OpenAI簽署了協議,比如只能獨家使用檢索這個能力等等。
-
或者可能是GPT-4在商業模型設計上的考慮,比如打開搜索能力是否應該作為額外的商業付費方式,或者訂閱的方式,才能具備的能力?比如推出企業版,是否就可以具備搜索的能力?
-
當然,也可以有陰謀論的解釋,就是擔心打開搜索能力開關后,人工智能大模型在互聯網會出現失控的狀況。
-
好了,今天我們先解讀到這里。下次,我們會繼續針對黃仁勛與Ilya Sutskever的“爐邊談話”的其他部分進行解讀,敬請期待。
未完待續……
-
開源技術
+關注
關注
0文章
389瀏覽量
7993 -
OpenHarmony
+關注
關注
25文章
3749瀏覽量
16609
原文標題:河套IT TALK 75: (原創) 解讀老黃與Ilya的爐邊談話系列之四——人人都是ChatGPT的訓練器(萬字長文)
文章出處:【微信號:開源技術服務中心,微信公眾號:共熵服務中心】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論