關(guān)于這點,在一篇采訪OpenAI 總裁Greg Brockman 的報道中提到了:
“Q:ChatGPT是如何產(chǎn)生的?GPT模型當(dāng)初發(fā)布時顯得有些違反常識,但卻在某種程度上掀起了最新的AI浪潮,這與你們當(dāng)初構(gòu)建這些技術(shù)時的預(yù)期是否一致?
A:ChatGPT、GPT-3、DALL·E 2這些模型看似一夜成名,但其實構(gòu)建這些模型耗費了整整五年時間,飽含多年的心血。GPT模型的構(gòu)建要從2017年發(fā)布的情感神經(jīng)元論文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)說起,這篇論文的思想很新穎,不過很多人可能已經(jīng)忘了。
....“
于是好奇去查了這篇文章,很遺憾,并不是上面提到的這篇文章,而是官網(wǎng)Learning to Generate Reviews and Discovering Sentiment這篇文章。這篇文章的作者很激動、誠懇甚至有點卑微的表達了它的意外發(fā)現(xiàn),那就是單純訓(xùn)練LSTM 模型的去預(yù)測下一個單詞,模型中的某個神經(jīng)元意外對應(yīng)著情感狀態(tài),用Greg Brockman的原話說就是:
“我們發(fā)現(xiàn)LSTM模型中的單個神經(jīng)元有助于開發(fā)出SOTA情感分析分類器(sentiment analysis classifier),可以告知你文本情感(正面評價或負面評價),這一發(fā)現(xiàn)聽起來平平無奇,但我們非常清楚地知道,這是一個超越語法并轉(zhuǎn)向語義的時刻。”
關(guān)于為何會出現(xiàn)這種涌現(xiàn)行為,文章的作者提出了他的思路:
“情緒作為條件特征可能對語言建模具有很強的預(yù)測能力。(It is possible that sentiment as a conditioning feature has strong predictive capability for language modelling.)“
這個思路是典型的達爾文進化思維:
即模型本身有生成各種能力的潛力,當(dāng)某項能力有利于模型完成任務(wù)(完不成的參數(shù)被調(diào)整,等駕馭被任務(wù)淘汰),這項能力就能自發(fā)進化出來。
神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的時候,采用的隨機梯度下降算法,一定程度上等效于物種的基因突變,本質(zhì)是有一定方向的隨機摸索,在強大的生存壓力下,錯誤的摸索被淘汰,久而久之,積累越來越多的正確摸索,某些高層的功能就這么涌現(xiàn)出來了。
這種思路是不同于還原論的,ChatGPT 的出現(xiàn)讓很多這個行業(yè)的老人困惑:“似乎原理上沒有任何創(chuàng)新,為何能力出現(xiàn)巨大提升呢?”“涌現(xiàn)這個詞本身就是個模棱兩可的詞,我并不知道具體的細節(jié),那就是偽科學(xué)。”“ChatGPT 具備的推理能力不過是另一種歸納,永遠無法替代演繹”。
還原論的思想講究從底層到高層的逐漸構(gòu)建,每行代碼都有清晰的含義,這樣寫出來的系統(tǒng)才叫系統(tǒng),但進化論的思想完全不同,進化論需要構(gòu)建一個萬能生成器,然后建立一個淘汰機制,對萬能生成器生成的各種可能進行篩選淘汰,這樣進化出來的系統(tǒng),就能很好的完成任務(wù),至于里面形成的微結(jié)構(gòu),那并不是重點,甚至都無法用簡單的語言描述,因為本身就是全局共同起作用的。
所謂上下文推理,不過就是給定前文,準(zhǔn)確給出后文的能力,這其實就是語言模型預(yù)訓(xùn)練時候就在做的事情,為了能做到這點,在訓(xùn)練的過程中,各種有助于提高預(yù)測能力的高層能力,都會自然而然的進化出來,所謂的高層能力,不過是一種函數(shù),而神經(jīng)網(wǎng)絡(luò)本身可以擬合一切函數(shù),同時隨機梯度下降,又讓神經(jīng)網(wǎng)絡(luò)具備了參數(shù)自動填充的能力。當(dāng)然,進化的過程中,神經(jīng)網(wǎng)絡(luò)總會嘗試找到更好的解法,比如死記硬背,但這些解法往往跟我們預(yù)期的解法不一致,這時候任務(wù)的合理構(gòu)建就很重要了,需要巧妙的設(shè)計,讓我們預(yù)期的解法是神經(jīng)網(wǎng)絡(luò)進化的唯一解。
其實換個角度想,人為什么有推理能力?人的一切能力也是進化而來的,人的各種生存壓力,配合基因的隨機突變和大自然的定向篩選,導(dǎo)致推理等能力的出現(xiàn),換句話說,當(dāng)推理能力的出現(xiàn)有助于人這個群體生存的時候,這個能力就會出現(xiàn),跟GPT 涌現(xiàn)的各種能力的原理一樣。
不要總拿著還原論思想去看待世界,幾百年前,就出現(xiàn)了進化論思想,因為進化論思想沒有寫進義務(wù)教育的教材,導(dǎo)致太多人沒有深刻理解這個工具。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4797瀏覽量
102274 -
模型
+關(guān)注
關(guān)注
1文章
3464瀏覽量
49805 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1584瀏覽量
8657
原文標(biāo)題:為什么ChatGPT模型大了就有上下文聯(lián)系能力?
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
S32K在AUTOSAR中使用CAT1 ISR,是否需要執(zhí)行上下文切換?
DeepSeek推出NSA機制,加速長上下文訓(xùn)練與推理
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
阿里通義千問發(fā)布Qwen2.5-Turbo開源AI模型
解鎖 GPT-4o!2024 ChatGPT Plus 代升級全攻略(附國內(nèi)支付方法)
如何評估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性
SystemView上下文統(tǒng)計窗口識別阻塞原因
超ChatGPT-4o,國產(chǎn)大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

鴻蒙Ability Kit(程序框架服務(wù))【應(yīng)用上下文Context】

評論