CMU、華盛頓大學(xué)、南加州大學(xué)、MIT、MILA、密歇根大學(xué)、愛丁堡大學(xué)、DeepMind、伯克利、Apple…如果我說來自這些地方的dalao共同發(fā)表了一篇文章,你相信么?但別驚訝,在即將召開的EMNLP'20的長文列表里,我們就真找到了這樣一篇“奇文”。一篇論文引得眾星云集,那解決的必然不是小問題。這不,作者也很貼心地把他們所希望解決的問題斜體獨(dú)行地放在了論文的首欄里——Where is NLP going?
在未來的這幾分鐘里,讓我們暫時(shí)放下自己正在改的模型、正在寫的論文和正在追的SOTA,重拾自然語言處理的初心,跟隨大佬們的腳步,去暢想一下未來的NLP究竟是什么樣的吧。
NLP,到底該怎么搞?
這是每一個(gè)NLP人都希望探索的終極問題。在經(jīng)歷了21世紀(jì)初的神經(jīng)語言模型、2013年word2vec算法、2018年的預(yù)訓(xùn)練模型等等的里程碑過后,當(dāng)今的NLP已經(jīng)在許多任務(wù)上取得了令人欣喜的效果。但是,在欣喜于一個(gè)個(gè)子任務(wù)的突破之后,我們也該停下來思考我們每個(gè)人在初識(shí)NLP時(shí)的那個(gè)問題:如何才能讓機(jī)器真正地理解人類語言呢?
本文提出了未來NLP的發(fā)展方向:只靠文本,是學(xué)不會(huì)語言的;學(xué)會(huì)語言,需要的是“語言之外的事件”和“社會(huì)環(huán)境”。這樣虛無縹緲的兩個(gè)詞,隱含的卻是未來NLP所需要添加的潛在的新組件。
為了更加具象,作者引入了“世界范圍”的概念,英文名稱World Scope,簡稱WS(不覺得和作者王蘇有點(diǎn)關(guān)系么(逃))
那么這五個(gè)世界分別表示什么,又象征著NLP的發(fā)展到了哪個(gè)階段呢?現(xiàn)在,讓我們把NLP系統(tǒng)想象成自家孩子,看看咱家寶貝兒是怎么一步步從過去只會(huì)總結(jié)文本模式到未來能夠能動(dòng)地改變世界的吧~(為了方便,我們就叫她N寶)
WS1:少量語料的世界——當(dāng)系統(tǒng)學(xué)會(huì)表示
N寶終于拿到了她能接觸到的第一個(gè)語料!此時(shí)的她,看的多半是類似于Penn Treebank的經(jīng)典數(shù)據(jù)集,而她既沒有容量很大的大腦(指模型),又接觸不到其他東西(指感知和大量語料),于是研究者費(fèi)盡心機(jī)地思考如何讓她用少量文本也能學(xué)到些什么。這時(shí)的發(fā)展,正是集中在文本表示上。
所謂的“含義”(meaning)到底在哪里呢?一個(gè)很直觀的想法是認(rèn)為含義隱藏在文本的語法結(jié)構(gòu)中,于是早期的NLP方法大都采用了諸如語法的分析結(jié)構(gòu)。
但慢慢地,人們發(fā)現(xiàn),文本的含義還有另外的表示方法。20世紀(jì)末-21世紀(jì)初,Elman和Bengio等人證明了向量表示可以捕獲語法和語義信息;21世紀(jì)初,利用基于互信息的層次聚類表示方法和隱馬爾科夫鏈生成詞類別的方法證明了一個(gè)詞的上下文隱含了這個(gè)詞的含義;同樣是21世紀(jì)初,以隱狄利克雷分布模型LDA為代表的主題生成模型證明了獲取含義需要大量的上下文信息。正是基于以上的觀察,才有了近年來諸如word2vec和GloVe的詞向量表示,以及ELMo、GPT和BERT等等的上下文預(yù)訓(xùn)練表示。
然而,關(guān)于文本表示,有一個(gè)一直以來的矛盾,伴隨著符號(hào)主義和連接主義的爭論走到了今天——把詞表示為符號(hào),我們就可以利用一個(gè)詞的字典釋義,從而用其他詞表示它,這種“以詞釋詞”的方法服從直覺,解釋性一流;然而,把詞表示為向量,我們就能夠利用諸如神經(jīng)網(wǎng)絡(luò)的“連接主義”系統(tǒng)進(jìn)行處理,這種“以數(shù)釋詞”的方法難以解釋,但架不住它好用。
這樣的符號(hào)主義/連接主義爭論經(jīng)常會(huì)在當(dāng)今的各大人工智能論壇見到,而在連接主義大行其道的當(dāng)下,能在頂會(huì)論文見到這樣的爭論實(shí)在難得啊(=?ω?=)
WS2:文本的世界——當(dāng)系統(tǒng)學(xué)會(huì)閱讀
不是N寶不愿意上網(wǎng),是多年前她的小腦瓜實(shí)在是處理不了網(wǎng)絡(luò)上這么多紛繁復(fù)雜的信息。然而,多虧了專做N寶大腦的黃老板(黃仁勛:?)和革新了N寶大腦的Transformer結(jié)構(gòu)(谷歌:?),有了增強(qiáng)算力和模型加持的N寶終于開眼看到了更廣闊的的世界——非結(jié)構(gòu)的,多語言的,跨領(lǐng)域的,無標(biāo)簽的,單拿出哪個(gè)都很讓人興奮吧,但BERT全都要!
以BERT為代表的基于Transformer的預(yù)訓(xùn)練語言模型在眾多下游任務(wù)上的優(yōu)異表現(xiàn),在寥寥兩三年時(shí)間里把NLP領(lǐng)域的排行榜屠了個(gè)遍。在我們?yōu)樾抡Q生的預(yù)訓(xùn)練模型歡呼雀躍時(shí),內(nèi)心也難免會(huì)為它們?cè)絹碓烬嫶蟮捏w積和“飯量”感到觸目驚心。
從訓(xùn)練語料來說,2013年的word2vec使用了16億個(gè)token,一年后的GloVe使用了8400億個(gè)token,而BERT直接吃下了整個(gè)維基百科+一萬多本書。從模型參數(shù)上來說,從2018年ELMo的到GPT-3的也不過只用了兩年時(shí)間。
更重要的是,這類預(yù)訓(xùn)練模型的效果存在明顯的邊際效益遞減:對(duì)于16年提出的詞預(yù)測(cè)任務(wù)LAMBADA[1],從15億參數(shù)的GPT-2,到170億參數(shù)的TuringNLG,提升甚微;到了1750億參數(shù)的GPT-3終于有了8個(gè)點(diǎn)的提升,但背后的多出來的算力開銷,它值嗎?
更重要的是,這類預(yù)訓(xùn)練模型很難解決許多更難的NLP任務(wù)、例如較難的共指解析(“我把車停在了那個(gè)小停車場(chǎng),因?yàn)樗銐騕小/大]了。”)。之所以稱之為“較難的”,是因?yàn)樗鼈兪墙?jīng)過精心選擇的處于數(shù)據(jù)分布尾端的共指關(guān)系。如果N寶沒停過車,她怎么會(huì)知道這個(gè)問題的答案不是從前半句里簡單地提取出那個(gè)“小”字呢?解決這個(gè)問題的關(guān)鍵,在于經(jīng)驗(yàn)。論文標(biāo)題中的“Experience”,為未來可能的發(fā)展指明了方向。
這時(shí),我們終于意識(shí)到,再怎么非結(jié)構(gòu)多語言跨領(lǐng)域無標(biāo)簽的文本,也終究是文本;再往預(yù)訓(xùn)練語言模型砸嘛尼,也不一定能換來真正智能的N寶。N寶不缺文本了,她只是需要更系統(tǒng)地感知這個(gè)世界而已。
WS3:視覺與聲覺的世界——當(dāng)系統(tǒng)學(xué)會(huì)感知
N寶不再只是一頭扎進(jìn)書海里的書呆子了,她終于擁有了能看到世界的眼睛、聽到世界的耳朵和觸摸世界的雙手,盡管眼睛耳朵和手也都是機(jī)器學(xué)習(xí)模型。但是,如果不看不聽不碰的話,她怎么能理解“動(dòng)如脫兔”、“噤若寒蟬”的真意,怎么體會(huì)到打工人鋼鐵般的意志(不)
這多出來的感知究竟是什么?是人類在進(jìn)行決策時(shí)的多重依據(jù),也是人們?cè)谡J(rèn)識(shí)世界時(shí)達(dá)成的共識(shí),同時(shí)也是語言學(xué)證明的人類在學(xué)習(xí)語言時(shí)必需的外部輸入。海倫·凱勒學(xué)習(xí)語言的故事膾炙人口,缺失視覺的輔助尚且如此,剝奪所有感官后,學(xué)到的語言還會(huì)是一樣的嗎?
文章引用了一種表示人類知識(shí)的方法:Frames and Scripts[2]。這種方法在上個(gè)世紀(jì)80年代被用來表示人類知識(shí)。通俗來講,這一方法將人類世界的靜態(tài)組成和動(dòng)態(tài)動(dòng)作流程利用類似于面向?qū)ο?a href="http://m.xsypw.cn/v/tag/1315/" target="_blank">編程的方式進(jìn)行建模:Frames利用類圖構(gòu)建事物之間的關(guān)聯(lián)關(guān)系,而Scripts利用流程圖構(gòu)建一系列動(dòng)作的發(fā)生過程。但即使成功表示了類別之間的關(guān)聯(lián)關(guān)系,類別中的各個(gè)屬性、流程圖中的各個(gè)行為和條件依然沒有和現(xiàn)實(shí)產(chǎn)生對(duì)應(yīng)。大框架有了,細(xì)節(jié)卻面臨了同樣的問題,因此,這種建模依然很片面。這恰恰說明了多模態(tài)對(duì)于理解知識(shí)的重要性。
既然是多模態(tài),那自然要提及其中涉及的每個(gè)領(lǐng)域向多模態(tài)發(fā)展的努力。這其中,計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)的結(jié)合自然是發(fā)展最多的一個(gè)。
計(jì)算機(jī)視覺領(lǐng)域已經(jīng)提前意識(shí)到了與自然語言處理交互的重要性,并提出了一系列可以復(fù)用的模型,而計(jì)算機(jī)視覺領(lǐng)域也在近幾年來開始解決視覺問答VQA、視覺推理和視頻翻譯等等CV+NLP的交互任務(wù)。這些多模態(tài)任務(wù)的標(biāo)準(zhǔn)數(shù)據(jù)集可以支持大規(guī)模視覺+文本、甚至視覺+文本+語音Transformer模型的訓(xùn)練。
NLP領(lǐng)域的發(fā)展同樣支撐了多模態(tài)的應(yīng)用,由于CV領(lǐng)域廣泛采用的ImageNet[3]分類采用了WordNet[4]描述上下位詞關(guān)系的層次分類,在加入了WordNet中每個(gè)概念的圖像信息后,我們甚至可以在概念的向量表示中學(xué)習(xí)到僅利用文本無法獲得的特征。比如,WordNet中“人”是一系列不同職業(yè)的上位詞,其中包括“消防員”,“醫(yī)生”等等;單純憑借文本難以捕捉這些類別的區(qū)別;但在加入了“人”、“消防員”、“醫(yī)生”的圖片進(jìn)行多模態(tài)學(xué)習(xí)后,我們可以利用像素級(jí)的掩碼精確地獲得不同類別的具體差異,甚至可以將自然語言描述拓展到從未見過的類別中,學(xué)習(xí)到新類別的特征…
這正是零次學(xué)習(xí)(Zero-shot learning)的想法,利用一段對(duì)未知類別的描述,讓模型理解在訓(xùn)練過程中沒有見過的類別的特征。對(duì)于文本的單一模態(tài)學(xué)習(xí),用文本描述文本是WS1的想法;而多模態(tài)學(xué)習(xí)通過添加額外的感知方法,讓零次學(xué)習(xí)的效果得到了大幅提升。那么問題來了,多模態(tài)之后,N寶又要做些什么呢?
WS4:行為的世界——當(dāng)系統(tǒng)學(xué)會(huì)試錯(cuò)
N寶對(duì)世界觀察了許久,她能讀能看能聽,我們感覺她好像理解了這個(gè)世界。但實(shí)際上,她對(duì)這個(gè)世界似懂非懂。
在她眼中,詞語不過是一串?dāng)?shù)字或是像素組成的特征而已,每個(gè)名詞概念到底隱含著什么內(nèi)在屬性,每個(gè)動(dòng)作到底會(huì)帶來什么影響,每個(gè)形容詞到底描述了些什么特點(diǎn),N寶都不懂。被動(dòng)的學(xué)習(xí)已經(jīng)滿足不了她了,她想用她的感知去主動(dòng)地理解語言背后的含義。當(dāng)N寶有了行動(dòng)的能力,她就有了具身,有了和外界互動(dòng)的條件。
試想一下,對(duì)于“橘子更像是棒球還是香蕉?”這樣的問題,你會(huì)作何回答?
WS1系統(tǒng)會(huì)認(rèn)為橘子和香蕉經(jīng)常出現(xiàn)在類似的上下文里,所以橘子和香蕉更像;WS2系統(tǒng)會(huì)認(rèn)為橘子和棒球都是圓形的,但說不上來棒球和橘子的質(zhì)地和大小;WS3系統(tǒng)會(huì)了解到橘子、棒球和香蕉的外表,所以同樣會(huì)認(rèn)為橘子和棒球更像,卻說不清楚棒球、橘子和香蕉的軟硬程度的重量。只有當(dāng)系統(tǒng)能夠接觸到這些物體并產(chǎn)生互動(dòng)時(shí),它才會(huì)更加系統(tǒng)地回答,橘子和棒球具有相似的材質(zhì)和重量,但橘子和香蕉具有相同的軟硬程度和用途。
實(shí)際上,人類在學(xué)習(xí)知識(shí)時(shí)在不斷地與外界產(chǎn)生互動(dòng)并獲得反饋,而這些持續(xù)的反饋構(gòu)成了我們學(xué)習(xí)這個(gè)世界時(shí)的監(jiān)督信號(hào)。這些信號(hào)甚至產(chǎn)生于我們學(xué)習(xí)語言之前,那么問題來了,這些嬰兒時(shí)期產(chǎn)生的反饋究竟形成了什么呢?
對(duì)于人來說,這些反饋形成了我們的直覺和常識(shí),而這些內(nèi)容正是我們?cè)谌粘=涣鲿r(shí)不會(huì)使用語言直接表述的隱含內(nèi)容。對(duì)于機(jī)器來說,這些試錯(cuò)過程中得到的反饋形成的可能是“先于語言”的表示(pre-linguistic representations),它們可以被用來作為NLP系統(tǒng)泛化的基礎(chǔ)。在語言學(xué)上已經(jīng)證明,孩子從書本上學(xué)的東西很難被她們直接搬到現(xiàn)實(shí)生活中加以利用。我們利用大量的參數(shù),希望用統(tǒng)計(jì)學(xué)的方法另辟蹊徑地實(shí)現(xiàn)生物進(jìn)化的成果,但缺少了與真實(shí)世界的交互,或許我們離這個(gè)目標(biāo)確實(shí)遙遠(yuǎn)。
在WS4的世界,我們就需要借助機(jī)器人學(xué)領(lǐng)域的研究成果了。盡管從現(xiàn)在看,利用機(jī)器人學(xué)的成果遠(yuǎn)比利用CV的成果困難,但為了實(shí)現(xiàn)真正理解語言的目標(biāo),NLP的研究者應(yīng)該同樣關(guān)注機(jī)器人學(xué)的發(fā)展。隨著動(dòng)作空間的加大,NLP系統(tǒng)就能夠?qū)W會(huì)更多的指令,讓智能家居和智能機(jī)器人不再是現(xiàn)在這樣僅靠指令集操作的機(jī)器,而是成為真正能應(yīng)用在任何場(chǎng)景下真正的智能系統(tǒng)。
WS5:社會(huì)的世界——當(dāng)系統(tǒng)學(xué)會(huì)能動(dòng)
能動(dòng)和能動(dòng)并不是一個(gè)意思——WS4的能動(dòng)是“會(huì)動(dòng)”,而WS5的能動(dòng)是“主觀能動(dòng)性”的能動(dòng)。N寶的成長目標(biāo)是要造福社會(huì)的,而人類社會(huì)的可是很復(fù)雜的。她要在與人打交道的過程中體現(xiàn)出她行為的目的性,讓她真正能夠?qū)崿F(xiàn)人工智能系統(tǒng)的使命。到這個(gè)階段,N寶就已經(jīng)成為一個(gè)持久存在的,具有特定社會(huì)屬性和經(jīng)驗(yàn)的智能代理了。
NLP系統(tǒng)一直以來都是人工智能領(lǐng)域里最受關(guān)注的領(lǐng)域之一,畢竟圖靈測(cè)試就是以對(duì)話系統(tǒng)為基礎(chǔ)的測(cè)試。但是,在進(jìn)行圖靈測(cè)試時(shí),人經(jīng)常會(huì)受到框架效應(yīng)(Frame effect)的影響:當(dāng)聊天機(jī)器人表明自己以英語作為第二語言或是表現(xiàn)出弱勢(shì)時(shí),人自然會(huì)大幅降低對(duì)對(duì)方的期望,讓原本真實(shí)性不高的回應(yīng)也看起來像是真人一樣。
那么,為什么說WS5對(duì)于語言學(xué)習(xí)至關(guān)重要呢?
首先,從說話者的角度,語言要產(chǎn)生作用。
從哲學(xué)上講,語言的功能(Function)是含義的來源;從語言學(xué)上講,基于使用的語言學(xué)習(xí)理論表明,有用的語言構(gòu)建是一切的基礎(chǔ)。這些理論在近年來開始關(guān)注語言在人類的起源和發(fā)展過程中起到的作用,表明了語言對(duì)于社會(huì)生活的重要性。
WS1-4逐步地?cái)U(kuò)展了語言含義的組成,逐漸地,語言可以由結(jié)果轉(zhuǎn)變?yōu)槠鹨颍瑥膯渭兊臄?shù)據(jù)轉(zhuǎn)變?yōu)橛杏玫男畔ⅰ.?dāng)下,NLP系統(tǒng)生成的語句只能以一種與社會(huì)隔離開的方式被被動(dòng)的評(píng)價(jià),而要做到衡量NLP系統(tǒng)對(duì)社會(huì)的影響,必須主動(dòng)地讓NLP系統(tǒng)參與到諸如談判,合作,情感支持等等語言活動(dòng)中來,讓NLP系統(tǒng)能夠推斷人的情感狀態(tài)和行為的社會(huì)效益。
當(dāng)下的語言模型利用上下文構(gòu)建每個(gè)詞的釋義。但實(shí)際上,一個(gè)詞的含義需要被放在特定的語言和社會(huì)環(huán)境下進(jìn)行綜合考量。正比如,“大失所望”的詞典意思是不令人滿意,可是,只有在孩子學(xué)習(xí)語言時(shí)說出過或是聽見過那句“你讓我大失所望”時(shí),她才能真正懂得這個(gè)詞對(duì)人來說多么有分量。一個(gè)詞的含義遠(yuǎn)不止詞本身的意思:它最豐富的表達(dá)蘊(yùn)含在了它對(duì)外界產(chǎn)生的影響之中。
其次,從聆聽者的角度而言,語言要成為了解對(duì)方想法的工具。
“想法”并不局限于一句話本身的意思,而更多地指對(duì)方的需求,意圖,感情,知識(shí)和身份。對(duì)“想法”的研究被稱為“心智理論”(Theory of Mind)。這一理論被建模為講者-聽者模型(Speaker-listener model),從計(jì)算角度而言,又被進(jìn)一步發(fā)展為“理性言語行為模型”[5](Rational speech act model, RSA,一種基于貝葉斯推斷的有效溝通建模)。
對(duì)交流的理解只用靜態(tài)的數(shù)據(jù)集是遠(yuǎn)遠(yuǎn)不夠的。對(duì)于同一個(gè)樣本的標(biāo)注,不同的標(biāo)注者可能提供不同的標(biāo)注方法,這就會(huì)引入偽關(guān)系和偏差。動(dòng)態(tài)且靈活的評(píng)價(jià)可能會(huì)解決這個(gè)問題,但如何保持一個(gè)NLP系統(tǒng)的身份,如何面對(duì)外界可能帶來的變化依舊需要進(jìn)一步研究。
那么,怎樣讓NLP系統(tǒng)擁有能夠在社會(huì)環(huán)境下理解語言的能力呢?
首先,如果單純利用一個(gè)諸如神經(jīng)網(wǎng)絡(luò)的通用的函數(shù)擬合器來給文本做分類,它可能單純利用了文本中的語法語義信息,卻永遠(yuǎn)不會(huì)認(rèn)為文本中出現(xiàn)的人、事物和因果關(guān)系是真實(shí)存在的。這需要我們向模型中引入足夠的歸納偏置(Inductive bias)來解決這一問題。其次,基于交叉熵的損失函數(shù)使得NLP系統(tǒng)不夠關(guān)注數(shù)據(jù)分布的尾端,導(dǎo)致出現(xiàn)較少的事件被忽視了。最后,由于現(xiàn)有的系統(tǒng)依然無法達(dá)成像人類一樣的歸納能力,NLP系統(tǒng)的零次學(xué)習(xí)能力依然有待提高。因此,WS1-4的數(shù)據(jù)無論再大,以目前的系統(tǒng)設(shè)計(jì)也難以讓NLP系統(tǒng)學(xué)到足夠豐富的知識(shí)來降低模型的困惑度。
最后,從社會(huì)環(huán)境的角度而言,語言是用在人際交流中的,所以語言本身就攜帶著地位、身份、意圖和其他一系列的變量,但我們當(dāng)下所使用的基于眾包的數(shù)據(jù)標(biāo)簽并沒有考慮這一系列對(duì)社會(huì)生活至關(guān)重要的信息。所以,對(duì)于生成模型而言,為了考量模型與社會(huì)之間的交互性,需要給予模型一個(gè)社會(huì)地位及身份,將其置身于特定場(chǎng)景中來進(jìn)行評(píng)價(jià)。
但是,社會(huì)交流中存在那么多變量,該怎么進(jìn)行標(biāo)注呢?我們需要跳出這個(gè)圈子:訓(xùn)練-驗(yàn)證-測(cè)試集的劃分以及基于對(duì)比的評(píng)價(jià)方式限制了我們的想象力。我們的終極目標(biāo),是讓NLP系統(tǒng)通過參與到社會(huì)當(dāng)中進(jìn)行學(xué)習(xí),讓用戶與系統(tǒng)自由交流,使得系統(tǒng)在探索與試錯(cuò)中逐漸達(dá)成對(duì)其身份的社會(huì)語言學(xué)構(gòu)建。當(dāng)模型能夠在測(cè)試過程中能夠與人進(jìn)行交互,我們便可以窺視到模型的決策邊界,加深對(duì)模型的了解了。
那么,要怎么進(jìn)入下一個(gè)WS中呢?
好問題~實(shí)際上,現(xiàn)在已經(jīng)有很多研究在探索WS3-5的需求了。作者在文章中給出了4個(gè)這樣的研究方向:
第二語言習(xí)得(Second language acquisition):不同的國家雖然語言不同,卻有著類似的社會(huì)模型,其中包括類似的物體指代(例如動(dòng)物,水果…)和人的內(nèi)在狀態(tài)(例如快樂,饑餓…)。現(xiàn)有的研究已經(jīng)開始向神經(jīng)機(jī)器翻譯模型引入這種相似性了:ACL'20的一篇論文[6]利用了WS3的圖像信息作為增強(qiáng)雙語對(duì)應(yīng)關(guān)系的樞紐,未來會(huì)發(fā)展為利用WS4的模擬世界信息,以及最終走向WS5的真實(shí)世界信息。
指代消解(Coreference resolution)和詞義消歧(Word sense disambiguation):無論是確定文本中代詞對(duì)應(yīng)的名詞還是探究一個(gè)詞在文本中的確切意思,都最終需要對(duì)心智理論的探索,通過對(duì)聽者需求和經(jīng)驗(yàn)的建模綜合地完成任務(wù),而非簡單地通過文本尋找到與代詞最接近的名詞,或是用局部的文本信息確定詞義。類似TextWorld[7]的WS4虛擬環(huán)境為進(jìn)一步探索這兩個(gè)問題提供了新的可能。
新詞學(xué)習(xí)(Novel word learning):人對(duì)于物體的描述可能不僅局限于語言,有時(shí)還會(huì)加入肢體語言配合形容物體的形狀或大小,這需要WS3系統(tǒng)進(jìn)行多模態(tài)的感知;此外,在描述新的物體時(shí),我們不僅會(huì)描述它的外觀,還會(huì)描述它的功能,這需要WS4系統(tǒng)對(duì)動(dòng)作和功能的認(rèn)識(shí)。例如,在描述手風(fēng)琴時(shí),我們會(huì)說它“背著像吉他,但彈著像鋼琴”。手風(fēng)琴與吉他和鋼琴的相似性僅體現(xiàn)在使用動(dòng)作上,這種動(dòng)作上的描述只有更高級(jí)的系統(tǒng)才能夠認(rèn)識(shí)。
冒犯性語言(Personally charged language):每個(gè)人都有自己不愿意聽到的話。比如,“笨蛋”這個(gè)詞對(duì)于不同的人有著不同的理解:有些人可能認(rèn)為這樣的說法是開玩笑,無傷大雅;但有些人會(huì)認(rèn)為這是對(duì)自己努力的否定,從而受到傷害。只有當(dāng)系統(tǒng)走向WS5,獲得了社會(huì)交往的知識(shí),才能明白在不同環(huán)境和條件下人的情感究竟如何。
看了這么多,這篇文章究竟想說什么?
作者王蘇在閱讀這篇幾乎不包含任何數(shù)據(jù)和公式的文章時(shí),體會(huì)到的吃力感完全不亞于任何一篇充斥著公式的文章。許多哲學(xué)和語言學(xué)概念在近年來很少被提及,甚至一部分概念根本查不到相關(guān)的中文翻譯,只好結(jié)合維基百科和一些查得到的講義來努力理解。這也難怪,畢竟這篇文章是眾多領(lǐng)域大佬從NLP、CV、語言學(xué)、哲學(xué)和機(jī)器人學(xué)等等不同的角度為NLP的未來規(guī)劃的前行路線。
然而,文中所說的許多東西雖然目前已經(jīng)有工作開始了相關(guān)的探索。雖然諸如“具身”、“社會(huì)屬性”等等名詞看起來和現(xiàn)在的NLP社區(qū)不怎么沾邊兒,而且這些名詞實(shí)在是過于虛無縹緲,這也恰好給予了研究者充分的想象空間,讓每一個(gè)目標(biāo)得以用不同的方法實(shí)現(xiàn)。例如,WS4的“試錯(cuò)”概念和強(qiáng)化學(xué)習(xí)有著千絲萬縷的聯(lián)系,而WS5的社會(huì)屬性又不由得讓我們想起了微軟亞研院致力于提升智商+情商的微軟小冰[8](小冰的論文對(duì)于研究對(duì)話系統(tǒng)的同學(xué)非常值得一讀,大推薦)。
所以,在為越來越大的模型和計(jì)算開銷發(fā)愁之余,換個(gè)角度來看看我們所在的領(lǐng)域,以大局觀看看我們的發(fā)展階段,思考思考踏入未來需要學(xué)習(xí)和發(fā)展什么樣的技術(shù),也許就能實(shí)現(xiàn)彎道超車呢~
要跟緊潮流鴨!加油吧,NLP人(= · ω ·=)
原文標(biāo)題:NLP未來,路在何方?12位巨佬聯(lián)名指路!
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28767瀏覽量
208993 -
人工智能
+關(guān)注
關(guān)注
1797文章
47921瀏覽量
240966 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22131
原文標(biāo)題:NLP未來,路在何方?12位巨佬聯(lián)名指路!
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論