5月30日,由北京智源人工智能研究院主辦的智源論壇第4期——《知識(shí)與認(rèn)知圖譜》在清華大學(xué)順利舉辦。清華大學(xué)計(jì)算機(jī)系長聘副教授劉洋針對基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的機(jī)器翻譯面臨三大挑戰(zhàn),即知識(shí)整合、可解釋/可視化和魯棒性。并針對上述三大挑戰(zhàn)做了團(tuán)隊(duì)最新研究與突破工作介紹。
因?yàn)槿祟惖恼Z言不通,《圣經(jīng)》故事中的“巴別塔”沒能建成,以失敗告終。如何打破人類語言之間的屏障,也成為了人類一直希望解決的問題。
世界語言分布地圖(來源:維基百科)
地址:
https://en.wikipedia.org/wiki/Linguistic_map
目前,世界上大概有6000多種語言,其中3000多種語言是具有數(shù)學(xué)體系的。正如上圖所示,可以看到不同國家、不同地區(qū)所說的語言是大不相同的。不同語言之間的交流存在非常多的問題,這些問題就是我們通常所說的“語言屏障”。
機(jī)器翻譯就是用來解決語言屏障問題非常關(guān)鍵的技術(shù)。
機(jī)器翻譯的概念已經(jīng)存在了幾個(gè)世紀(jì),但直到20世紀(jì)50年代初才開始成為現(xiàn)實(shí)。從那以后,機(jī)器翻譯已經(jīng)取得了巨大的進(jìn)步。
機(jī)器翻譯的主要任務(wù)就是把一種語言自動(dòng)翻譯成另外一種語言,看上去就像是函數(shù)映射問題。但是其難點(diǎn)就在于語言本身的復(fù)雜性和種類的多樣性。
世界上的語言按形態(tài)分類可分為:屈折語、黏著語和孤立語。如何將這些語言進(jìn)行轉(zhuǎn)換是機(jī)器翻譯要解決的重要問題(三種語言形態(tài)詳細(xì)內(nèi)容見文末)。
1990年以后,特別是互聯(lián)網(wǎng)出現(xiàn)以后,人們得到了大量的可讀文本、機(jī)讀文本,所以更傾向于使用數(shù)據(jù)進(jìn)行機(jī)器翻譯。這段時(shí)期分兩個(gè)階段:
第一階段是使用傳統(tǒng)統(tǒng)計(jì)方法來(從1990年到2013年),需要且依賴于人寫特征;
第二種階段是采用深度學(xué)習(xí)方法(從2013年至今)。這一階段不需要人寫特征就寫規(guī)則,再后來只需要寫框架即可。
越往后發(fā)展,人類參與程度越精煉。現(xiàn)在主流方法是數(shù)據(jù)驅(qū)動(dòng)的方法。
到了2016年,機(jī)器翻譯在商業(yè)界基本采用都采用了機(jī)器學(xué)習(xí)。其核心思想就是用一個(gè)非常復(fù)雜的核心網(wǎng)絡(luò),做非線性函數(shù),把源語言投射到目標(biāo)語言。所以怎么設(shè)計(jì)這樣的一個(gè)函數(shù),便成了是非常關(guān)鍵的問題。
5月30日,由北京智源人工智能研究院主辦的智源論壇第4期——《知識(shí)與認(rèn)知圖譜》在清華大學(xué)順利舉辦。
清華大學(xué)計(jì)算機(jī)系長聘副教授、博士生導(dǎo)師 劉洋
會(huì)中,清華大學(xué)計(jì)算機(jī)系長聘副教授、博士生導(dǎo)師、智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室主任劉洋老師做了《基于深度學(xué)習(xí)的機(jī)器翻譯》精彩報(bào)告。
針對上述機(jī)器翻譯現(xiàn)狀,劉洋老師認(rèn)為,這種基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的方法面臨三個(gè)挑戰(zhàn):
第一是知識(shí)整合(Knowledge incorporation)。如何將先驗(yàn)知識(shí)整合到神經(jīng)機(jī)器翻譯(NMT)中?
第二是解釋性。如何解釋和理解NMT?
第三是魯棒性。如何使NMT對噪聲具有魯棒性?
對此,劉洋老師分別從上述三方面介紹了其研究重點(diǎn)與突破。
機(jī)器翻譯三大挑戰(zhàn):知識(shí)整合
如何將知識(shí)加入到一些應(yīng)用系統(tǒng)中是非常熱門的一個(gè)話題。
劉洋老師表示,數(shù)據(jù)、知識(shí)和模型對于整個(gè)人工智能是非常要的,研究人員建立一個(gè)數(shù)學(xué)模型,從數(shù)據(jù)中學(xué)習(xí)參數(shù),也是某種程度上只是的表示,用同樣的模型解決現(xiàn)實(shí)的問題。
而有的時(shí)候數(shù)據(jù)量是不夠的,例如愛斯基摩語和維語,幾乎是沒有數(shù)據(jù)可言。像這樣冷門小領(lǐng)域語言的翻譯,由于數(shù)據(jù)的稀缺,翻譯任務(wù)會(huì)變得非常棘手。因此可以考慮往里面加入知識(shí)。
雖然神經(jīng)機(jī)器翻譯近年來取得了很大的進(jìn)展,但是如何將多個(gè)重疊的、任意先驗(yàn)的知識(shí)資源整合起來仍然是一個(gè)挑戰(zhàn)。針對這個(gè)問題,劉洋老師及其團(tuán)隊(duì)展開了研究。
arXiv地址:
https://arxiv.org/pdf/1811.01100.pdf
在這項(xiàng)工作中,建議使用后驗(yàn)正則化來提供一個(gè)將先驗(yàn)知識(shí)整合到神經(jīng)機(jī)器翻譯中的通用框架。將先驗(yàn)知識(shí)來源表示為一個(gè)對數(shù)線性模型的特征,該模型指導(dǎo)神經(jīng)翻譯模型的學(xué)習(xí)過程。漢英翻譯實(shí)驗(yàn)表明,該方法取得了顯著的改進(jìn)。
劉洋老師表示,希望能夠提供一種通用的框架,所有的知識(shí)都能往里加。因此這項(xiàng)工作把人類的知識(shí)表示成一個(gè)空間這是一個(gè)符號(hào)空間。
然后把深度學(xué)習(xí)的數(shù)字表示另外一個(gè)空間,嘗試把這兩個(gè)空間關(guān)聯(lián)起來,再通過人類的知識(shí)主導(dǎo)這個(gè)知識(shí),把傳統(tǒng)知識(shí)都壓縮里面,讓它知道深度學(xué)習(xí)的過程,就能夠提供更好的通用框架。
在這項(xiàng)工作中,使用以下特性來編碼知識(shí)源。
雙語詞典(bilingual dictionary):
詞表(phrase table):
coverage penalty:
長度比(length ratio):
這項(xiàng)工作與RNNsearch、CPR和PostReg做了比較,性能對比結(jié)果如下:
與RNNsearch、CPR和PostReg的比較
機(jī)器翻譯三大挑戰(zhàn):可解釋/可視化
第二個(gè)問題就是可解釋或者可視化的問題。
目前,在機(jī)器翻譯領(lǐng)域,神經(jīng)機(jī)器翻譯因?yàn)槠漭^好的性能,已經(jīng)取代統(tǒng)計(jì)機(jī)器翻譯,成為實(shí)際上的主流方法。
大多數(shù)的神經(jīng)機(jī)器翻譯都是基于attention機(jī)制的encoder-decoder模型,然而這種模型在內(nèi)部傳遞的是浮點(diǎn)數(shù),類似于“黑箱”,難以理解和調(diào)試。
模型如“黑箱”,難以理解和調(diào)試
當(dāng)輸入一個(gè)句子和輸出一個(gè)句子時(shí),并不知道其生成過程;當(dāng)出現(xiàn)錯(cuò)誤時(shí),也不知道是什么原因?qū)е碌摹?/p>
所以研究人員迫切希望能夠打開這個(gè)黑盒子,知道內(nèi)部信息怎么傳遞的,到底什么原因形成這樣一個(gè)錯(cuò)誤。
針對這個(gè)問題,劉洋老師及其團(tuán)隊(duì)針對這個(gè)問題進(jìn)行了相應(yīng)工作。
論文地址:
https://aclweb.org/anthology/P17-1106
這項(xiàng)工作主要的貢獻(xiàn)包括:
利用層級相關(guān)性傳播算法可視化分析神經(jīng)機(jī)器翻譯;
能夠計(jì)算任意隱狀態(tài)和任意contextual words的相關(guān)性,同時(shí)不要求神經(jīng)網(wǎng)絡(luò)中的函數(shù)必須可求偏導(dǎo),不同于之前只有encoder和decoder隱層之間的對應(yīng)信息;
能夠針對機(jī)器翻譯中出錯(cuò)的例子,進(jìn)行分析。
最近關(guān)于解釋和可視化神經(jīng)模型的工作集中在計(jì)算輸入層上的單元對輸出層的最終決策的貢獻(xiàn)。 例如,在圖像分類中,理解單個(gè)像素對分類器預(yù)測的貢獻(xiàn)是重要的。
而在這項(xiàng)工作中,團(tuán)隊(duì)感興趣的是計(jì)算源和目標(biāo)詞對基于注意力的encoder-decoder框架中的內(nèi)部信息的貢獻(xiàn)。
如下圖所示,第三個(gè)目標(biāo)詞“York”的生成取決于源上下文(即源句“zai niuyue s>”)和目標(biāo)上下文(即部分翻譯“in New”)。
從直觀上看,源詞“niuyue”和目標(biāo)詞“New”與“York”的關(guān)聯(lián)性更強(qiáng),應(yīng)該比其他詞獲得更高的關(guān)聯(lián)性。問題是如何量化和可視化隱藏狀態(tài)和上下文詞向量之間的相關(guān)性。
研究人員使用逐層相關(guān)傳播(layer-wise relevance propagation,LRP)來計(jì)算神經(jīng)元水平相關(guān)性。 使用下圖所示的簡單前饋網(wǎng)絡(luò)來說明LRP的核心思想。
如果要計(jì)算 v1和u1之間的相關(guān)性,首先計(jì)算v1 和z1、z2之間的相關(guān)性,再將 v1和z1、 z2的相關(guān)性傳遞到u1,從而求得v1和u1之間的相關(guān)性。
對神經(jīng)機(jī)器翻譯的LRP算法
通過這樣一種技術(shù),能夠?qū)τ跈C(jī)器翻譯中所有的模型都進(jìn)行可視化的分析。
劉洋老師表示,LRP能夠?yàn)門ransformer生成相關(guān)矩陣。它本身是沒有辦法進(jìn)行分析的,用了這個(gè)技術(shù)就可以把輸入、輸出以及內(nèi)部的關(guān)聯(lián)性用可視化的方式呈現(xiàn)出來,這樣可以更好分析運(yùn)作機(jī)制。
團(tuán)隊(duì)用在機(jī)器翻譯的錯(cuò)誤分析上,分析了漏詞、重復(fù)翻譯、形成無關(guān)詞,還有否定的反轉(zhuǎn)。
分析翻譯錯(cuò)誤:詞的省略。第6個(gè)源詞“zhong”沒有被正確翻譯。
分析翻譯錯(cuò)誤:單詞重復(fù)。目標(biāo)詞“history”在翻譯中兩次出現(xiàn)錯(cuò)誤。
分析翻譯錯(cuò)誤:不相關(guān)的詞。第9個(gè)目標(biāo)詞“forge”與源句完全無關(guān)。
分析翻譯錯(cuò)誤:否定。第8個(gè)否定詞“bu”(not)不翻譯。
機(jī)器翻譯三大挑戰(zhàn):魯棒性
第三個(gè)問題就是魯棒性。
有這樣一個(gè)例子,假設(shè)有一段譯文,輸入的是“《中國電子銀行業(yè)務(wù)管理新規(guī)》將于3月1日起施行”,若是一不小心把“中國”敲成“中方”,后面所有的譯文發(fā)生變化,劉洋老師稱之為蝴蝶效應(yīng)。
這就是現(xiàn)在存在的一個(gè)較為現(xiàn)實(shí)的問題:輸入中的小擾動(dòng)會(huì)嚴(yán)重扭曲中間表示,從而影響神經(jīng)機(jī)器翻譯(NMT)模型的翻譯質(zhì)量。
這是因?yàn)樯疃葘W(xué)習(xí)是一種全局關(guān)聯(lián)的模型,只要有一點(diǎn)點(diǎn)變化,就會(huì)牽一發(fā)而動(dòng)全身,而這是非常糟糕的。
為了解決這個(gè)問題,劉洋老師團(tuán)隊(duì)就針對此問題展開了研究。
arXiv地址:
https://arxiv.org/pdf/1805.06130.pdf
在這項(xiàng)研究中,研究人員提出了通過對抗性穩(wěn)定性訓(xùn)練來提高NMT模型的魯棒性。
其基本思想是使NMT模型中的編碼器和解碼器對輸入擾動(dòng)都具有魯棒性,使它們對原始輸入及其受擾動(dòng)的對應(yīng)項(xiàng)具有類似的行為。
在這項(xiàng)工作中提出了兩種合成噪聲的產(chǎn)生方法。
Lexical level:
feature level:
在給定一個(gè)源字的情況下,它在向量空間中的鄰居可以選擇為一個(gè)有噪聲的字。
損失函數(shù)的影響以及主要的實(shí)驗(yàn)結(jié)果如下:
最后,劉洋老師給提供了針對神經(jīng)機(jī)器翻譯的開源工具包,有興趣的讀者可以訪問下方鏈接進(jìn)行實(shí)驗(yàn):
開源工具包地址:
http://thumt.thunlp.org/
附:三種語言形態(tài)詳細(xì)內(nèi)容
孤立語以中文為代表,它由各自獨(dú)立且具有完整意義的單詞,通過單純的疊加構(gòu)成文句。
黏著語以烏拉爾阿爾泰語系為中心,通過用助詞、助動(dòng)詞將獨(dú)立的單詞連接起來,完成整個(gè)文章的陳述。
屈折語指的是歐洲語系,單詞本身隨著人稱、時(shí)態(tài)、格等發(fā)生復(fù)雜的形態(tài)變化。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4787瀏覽量
101377 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14974 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5523瀏覽量
121719
原文標(biāo)題:清華劉洋《基于深度學(xué)習(xí)的機(jī)器翻譯》,突破知識(shí)整合、可解釋和魯棒性三大難關(guān)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
奇瑞汽車攜手清華大學(xué)發(fā)布“分體式飛行汽車”專利
清華大學(xué)鯤鵬昇騰科教創(chuàng)新卓越中心專項(xiàng)合作啟動(dòng),引領(lǐng)高校科研和人才培養(yǎng)新模式
清華大學(xué)與華為啟動(dòng)“卓越中心”專項(xiàng)合作
清華大學(xué)自動(dòng)化系學(xué)子走進(jìn)華礪智行研學(xué)交流
清華大學(xué)DeepSeek指南:從入門到精通

OpenHarmony城市技術(shù)論壇第12期——合肥站圓滿舉辦

博世與清華大學(xué)續(xù)簽人工智能研究合作協(xié)議
京微齊力受邀參加2024年清華大學(xué)工程博士論壇
英諾達(dá)與清華大學(xué)攜手,共促國產(chǎn)EDA進(jìn)步
清華新力量,滬上芯征程!清華大學(xué)上海校友會(huì)半導(dǎo)體專委會(huì)2024思瑞浦迎新日

熱烈歡迎清華大學(xué)電子工程系學(xué)子來武漢六博光電交流實(shí)踐!

評論