在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智源論壇第4期——《知識與認知圖譜》在清華大學順利舉辦

DPVg_AI_era ? 來源:lq ? 2019-06-07 16:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

5月30日,由北京智源人工智能研究院主辦的智源論壇第4期——《知識與認知圖譜》在清華大學順利舉辦。清華大學計算機系長聘副教授劉洋針對基于神經網絡深度學習的機器翻譯面臨三大挑戰,即知識整合、可解釋/可視化和魯棒性。并針對上述三大挑戰做了團隊最新研究與突破工作介紹。

因為人類的語言不通,《圣經》故事中的“巴別塔”沒能建成,以失敗告終。如何打破人類語言之間的屏障,也成為了人類一直希望解決的問題。

世界語言分布地圖(來源:維基百科)

地址:

https://en.wikipedia.org/wiki/Linguistic_map

目前,世界上大概有6000多種語言,其中3000多種語言是具有數學體系的。正如上圖所示,可以看到不同國家、不同地區所說的語言是大不相同的。不同語言之間的交流存在非常多的問題,這些問題就是我們通常所說的“語言屏障”。

機器翻譯就是用來解決語言屏障問題非常關鍵的技術。

機器翻譯的概念已經存在了幾個世紀,但直到20世紀50年代初才開始成為現實。從那以后,機器翻譯已經取得了巨大的進步。

機器翻譯的主要任務就是把一種語言自動翻譯成另外一種語言,看上去就像是函數映射問題。但是其難點就在于語言本身的復雜性和種類的多樣性。

世界上的語言按形態分類可分為:屈折語、黏著語和孤立語。如何將這些語言進行轉換是機器翻譯要解決的重要問題(三種語言形態詳細內容見文末)。

1990年以后,特別是互聯網出現以后,人們得到了大量的可讀文本、機讀文本,所以更傾向于使用數據進行機器翻譯。這段時期分兩個階段:

第一階段是使用傳統統計方法來(從1990年到2013年),需要且依賴于人寫特征;

第二種階段是采用深度學習方法(從2013年至今)。這一階段不需要人寫特征就寫規則,再后來只需要寫框架即可。

越往后發展,人類參與程度越精煉。現在主流方法是數據驅動的方法。

到了2016年,機器翻譯在商業界基本采用都采用了機器學習。其核心思想就是用一個非常復雜的核心網絡,做非線性函數,把源語言投射到目標語言。所以怎么設計這樣的一個函數,便成了是非常關鍵的問題。

5月30日,由北京智源人工智能研究院主辦的智源論壇第4期——《知識與認知圖譜》在清華大學順利舉辦。

清華大學計算機系長聘副教授、博士生導師 劉洋

會中,清華大學計算機系長聘副教授、博士生導師、智能技術與系統實驗室主任劉洋老師做了《基于深度學習的機器翻譯》精彩報告。

針對上述機器翻譯現狀,劉洋老師認為,這種基于神經網絡、深度學習的方法面臨三個挑戰:

第一是知識整合(Knowledge incorporation)。如何將先驗知識整合到神經機器翻譯(NMT)中?

第二是解釋性。如何解釋和理解NMT?

第三是魯棒性。如何使NMT對噪聲具有魯棒性?

對此,劉洋老師分別從上述三方面介紹了其研究重點與突破。

機器翻譯三大挑戰:知識整合

如何將知識加入到一些應用系統中是非常熱門的一個話題。

劉洋老師表示,數據、知識和模型對于整個人工智能是非常要的,研究人員建立一個數學模型,從數據中學習參數,也是某種程度上只是的表示,用同樣的模型解決現實的問題。

而有的時候數據量是不夠的,例如愛斯基摩語和維語,幾乎是沒有數據可言。像這樣冷門小領域語言的翻譯,由于數據的稀缺,翻譯任務會變得非常棘手。因此可以考慮往里面加入知識。

雖然神經機器翻譯近年來取得了很大的進展,但是如何將多個重疊的、任意先驗的知識資源整合起來仍然是一個挑戰。針對這個問題,劉洋老師及其團隊展開了研究。

arXiv地址:

https://arxiv.org/pdf/1811.01100.pdf

在這項工作中,建議使用后驗正則化來提供一個將先驗知識整合到神經機器翻譯中的通用框架。將先驗知識來源表示為一個對數線性模型的特征,該模型指導神經翻譯模型的學習過程。漢英翻譯實驗表明,該方法取得了顯著的改進。

劉洋老師表示,希望能夠提供一種通用的框架,所有的知識都能往里加。因此這項工作把人類的知識表示成一個空間這是一個符號空間。

然后把深度學習的數字表示另外一個空間,嘗試把這兩個空間關聯起來,再通過人類的知識主導這個知識,把傳統知識都壓縮里面,讓它知道深度學習的過程,就能夠提供更好的通用框架。

在這項工作中,使用以下特性來編碼知識源。

雙語詞典(bilingual dictionary):

詞表(phrase table):

coverage penalty:

長度比(length ratio):

這項工作與RNNsearch、CPR和PostReg做了比較,性能對比結果如下:

與RNNsearch、CPR和PostReg的比較

機器翻譯三大挑戰:可解釋/可視化

第二個問題就是可解釋或者可視化的問題。

目前,在機器翻譯領域,神經機器翻譯因為其較好的性能,已經取代統計機器翻譯,成為實際上的主流方法。

大多數的神經機器翻譯都是基于attention機制的encoder-decoder模型,然而這種模型在內部傳遞的是浮點數,類似于“黑箱”,難以理解和調試。

模型如“黑箱”,難以理解和調試

當輸入一個句子和輸出一個句子時,并不知道其生成過程;當出現錯誤時,也不知道是什么原因導致的。

所以研究人員迫切希望能夠打開這個黑盒子,知道內部信息怎么傳遞的,到底什么原因形成這樣一個錯誤。

針對這個問題,劉洋老師及其團隊針對這個問題進行了相應工作。

論文地址:

https://aclweb.org/anthology/P17-1106

這項工作主要的貢獻包括:

利用層級相關性傳播算法可視化分析神經機器翻譯;

能夠計算任意隱狀態和任意contextual words的相關性,同時不要求神經網絡中的函數必須可求偏導,不同于之前只有encoder和decoder隱層之間的對應信息;

能夠針對機器翻譯中出錯的例子,進行分析。

最近關于解釋和可視化神經模型的工作集中在計算輸入層上的單元對輸出層的最終決策的貢獻。 例如,在圖像分類中,理解單個像素對分類器預測的貢獻是重要的。

而在這項工作中,團隊感興趣的是計算源和目標詞對基于注意力的encoder-decoder框架中的內部信息的貢獻。

如下圖所示,第三個目標詞“York”的生成取決于源上下文(即源句“zai niuyue ”)和目標上下文(即部分翻譯“in New”)。

從直觀上看,源詞“niuyue”和目標詞“New”與“York”的關聯性更強,應該比其他詞獲得更高的關聯性。問題是如何量化和可視化隱藏狀態和上下文詞向量之間的相關性。

研究人員使用逐層相關傳播(layer-wise relevance propagation,LRP)來計算神經元水平相關性。 使用下圖所示的簡單前饋網絡來說明LRP的核心思想。

如果要計算 v1和u1之間的相關性,首先計算v1 和z1、z2之間的相關性,再將 v1和z1、 z2的相關性傳遞到u1,從而求得v1和u1之間的相關性。

對神經機器翻譯的LRP算法

通過這樣一種技術,能夠對于機器翻譯中所有的模型都進行可視化的分析。

劉洋老師表示,LRP能夠為Transformer生成相關矩陣。它本身是沒有辦法進行分析的,用了這個技術就可以把輸入、輸出以及內部的關聯性用可視化的方式呈現出來,這樣可以更好分析運作機制。

團隊用在機器翻譯的錯誤分析上,分析了漏詞、重復翻譯、形成無關詞,還有否定的反轉。

分析翻譯錯誤:詞的省略。第6個源詞“zhong”沒有被正確翻譯。

分析翻譯錯誤:單詞重復。目標詞“history”在翻譯中兩次出現錯誤。

分析翻譯錯誤:不相關的詞。第9個目標詞“forge”與源句完全無關。

分析翻譯錯誤:否定。第8個否定詞“bu”(not)不翻譯。

機器翻譯三大挑戰:魯棒性

第三個問題就是魯棒性。

有這樣一個例子,假設有一段譯文,輸入的是“《中國電子銀行業務管理新規》將于3月1日起施行”,若是一不小心把“中國”敲成“中方”,后面所有的譯文發生變化,劉洋老師稱之為蝴蝶效應。

這就是現在存在的一個較為現實的問題:輸入中的小擾動會嚴重扭曲中間表示,從而影響神經機器翻譯(NMT)模型的翻譯質量。

這是因為深度學習是一種全局關聯的模型,只要有一點點變化,就會牽一發而動全身,而這是非常糟糕的。

為了解決這個問題,劉洋老師團隊就針對此問題展開了研究。

arXiv地址:

https://arxiv.org/pdf/1805.06130.pdf

在這項研究中,研究人員提出了通過對抗性穩定性訓練來提高NMT模型的魯棒性。

其基本思想是使NMT模型中的編碼器和解碼器對輸入擾動都具有魯棒性,使它們對原始輸入及其受擾動的對應項具有類似的行為。

在這項工作中提出了兩種合成噪聲的產生方法。

Lexical level:

feature level:

在給定一個源字的情況下,它在向量空間中的鄰居可以選擇為一個有噪聲的字。

損失函數的影響以及主要的實驗結果如下:

最后,劉洋老師給提供了針對神經機器翻譯的開源工具包,有興趣的讀者可以訪問下方鏈接進行實驗:

開源工具包地址:

http://thumt.thunlp.org/

附:三種語言形態詳細內容

孤立語以中文為代表,它由各自獨立且具有完整意義的單詞,通過單純的疊加構成文句。

黏著語以烏拉爾阿爾泰語系為中心,通過用助詞、助動詞將獨立的單詞連接起來,完成整個文章的陳述。

屈折語指的是歐洲語系,單詞本身隨著人稱、時態、格等發生復雜的形態變化。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4813

    瀏覽量

    103420
  • 機器翻譯
    +關注

    關注

    0

    文章

    140

    瀏覽量

    15181
  • 深度學習
    +關注

    關注

    73

    文章

    5560

    瀏覽量

    122746

原文標題:清華劉洋《基于深度學習的機器翻譯》,突破知識整合、可解釋和魯棒性三大難關

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    清華大學TOP EE+項目參訪美光上海

    此前,2025年6月4日至6日,清華大學TOP EE+ 項目于美光上海的參訪活動圓滿舉行。為期三天的活動匯聚了來自清華大學電子工程系的優秀留學生與美光的多位管理者和工程師,展開了深入的技術交流與文化互動之旅。
    的頭像 發表于 07-07 18:02 ?346次閱讀

    清華大學到鎵未來科技,張大江先生在半導體功率器件十八年的堅守!

    清華大學到鎵未來科技,張大江先生在半導體功率器件十八年的堅守!近年來,珠海市鎵未來科技有限公司(以下簡稱“鎵未來”)第三代半導體行業異軍突起,憑借領先的氮化鎵(GaN)技術儲備和不斷推出的新產品
    發表于 05-19 10:16

    清華大學攜手華為打造業內首個園區網絡智能體

    清華大學響應國家教育新基建戰略,正在加速推進網絡管理平臺升級:為滿足在線教育、協同創新及智慧校園的發展需求,為清華大學躋身世界一流大學創造基礎條件,清華大學攜手華為打造業內首個園區網絡
    的頭像 發表于 05-07 09:51 ?305次閱讀

    2025年開放原子校清華大學站成功舉辦

    近日,由開放原子開源基金會、清華大學計算機科學與技術系、清華大學軟件學院主辦的開放原子“校行”(清華站)
    的頭像 發表于 04-22 16:46 ?380次閱讀

    奇瑞汽車攜手清華大學發布“分體式飛行汽車”專利

    繼2024年10月奇瑞全球創新大會上宣布三體復合翼飛行汽車成功完成首航后,奇瑞再次帶來飛行汽車領域的最新進展。日前,由奇瑞汽車股份有限公司與清華大學智能交通實驗室共同申請的“分體式飛行汽車”專利正式公開,該專利正是基于奇瑞汽車股份公司與
    的頭像 發表于 02-20 09:14 ?498次閱讀

    清華大學鯤鵬昇騰科教創新卓越中心專項合作啟動,引領高校科研和人才培養新模式

    2月13日,清華大學與華為技術有限公司清華大學自強科技樓簽署合作協議,宣布“清華大學鯤鵬昇騰科教創新卓越中心專項合作”(以下簡稱“卓越中心”)正式啟動。
    的頭像 發表于 02-18 16:46 ?526次閱讀

    清華大學與華為啟動“卓越中心”專項合作

    近日,清華大學與華為技術有限公司清華大學自強科技樓正式簽署合作協議,共同宣布“清華大學鯤鵬昇騰科教創新卓越中心專項合作”(簡稱“卓越中心”)正式啟動。 出席簽約儀式的有
    的頭像 發表于 02-18 14:11 ?682次閱讀

    清華大學自動化系學子走進華礪智行研學交流

    近日,清華大學自動化系的11名學子走進華礪智行研學交流,開展科技前沿探索的社會實踐活動。
    的頭像 發表于 02-13 10:03 ?431次閱讀

    清華大學DeepSeek指南:從入門到精通

    本資料由清華大學新聞與傳播學院新媒體研究中心元宇宙文化實驗室余夢瓏博士后團隊出品,細致講述了DeepSeek的應用技巧。 ? ? ? ? ? ? ? ? ? ?
    的頭像 發表于 02-11 09:16 ?1.4w次閱讀
    <b class='flag-5'>清華大學</b>DeepSeek指南:從入門到精通

    OpenHarmony城市技術論壇12——合肥站圓滿舉辦

    2024年12月23日,OpenHarmony城市技術論壇(以下簡稱“技術論壇”)12——合肥站于中國科學技術大學高新校區圓滿
    的頭像 發表于 12-26 09:14 ?813次閱讀
    OpenHarmony城市技術<b class='flag-5'>論壇</b><b class='flag-5'>第</b>12<b class='flag-5'>期</b>——合肥站圓滿<b class='flag-5'>舉辦</b>

    博世與清華大學續簽人工智能研究合作協議

    近日,博世與清華大學宣布,雙方續簽人工智能領域的研究合作協議,為期五年。在此期間,博世將投入5000萬元人民幣?;?020年成立的清華大學—博世機器學習聯合研究中心(以下簡稱“聯合研究中心”),博世和清華大學將進一步深化合作,
    的頭像 發表于 11-20 11:37 ?742次閱讀

    京微齊力受邀參加2024年清華大學工程博士論壇

    此前,2024年清華大學國家卓越工程師學院工程博士論壇北京亦莊(北京經濟技術開發區)舉辦。本屆論壇以“清亦融創、新質引領”為主題,來自集成
    的頭像 發表于 11-06 10:17 ?881次閱讀

    英諾達與清華大學攜手,共促國產EDA進步

    10月30日,英諾達官方微信發布消息稱,英諾達與清華大學近期展開合作,共同深化產學研融合。此次合作聚焦于集成電路低功耗設計領域,英諾達團隊走進清華大學集成電路學院,為師生們帶來了專題授課及深入交流。
    的頭像 發表于 10-31 14:15 ?1010次閱讀

    清華新力量,滬上芯征程!清華大學上海校友會半導體專委會2024思瑞浦迎新日

    聚焦高性能模擬芯片2024年10月,清華大學上海校友會半導體專業委員會聯合思瑞浦共同舉辦2024年來滬清華校友迎新活動。金秋時節,新一批清華人離開
    的頭像 發表于 10-31 08:09 ?845次閱讀
    <b class='flag-5'>清華</b>新力量,滬上芯征程!<b class='flag-5'>清華大學</b>上海校友會半導體專委會2024思瑞浦迎新日

    熱烈歡迎清華大學電子工程系學子來武漢六博光電交流實踐!

    近日,武漢六博光電技術有限責任公司接到清華大學函件,正式成為清華大學電子工程系武漢實踐基地之一。2024年8月1日上午,清華大學電子工程系實踐團隊一行共計13名學子前往武漢六博光電有限責任公司交流
    的頭像 發表于 08-02 08:37 ?802次閱讀
    熱烈歡迎<b class='flag-5'>清華大學</b>電子工程系學子來武漢六博光電交流實踐!
    主站蜘蛛池模板: 手机看片久久 | 五月婷婷狠狠 | 天天干天天舔天天操 | 四虎影院网站 | 乱高h亲女 | 午夜无码国产理论在线 | 亚洲视频一二三 | 久青草国产手机在线视频 | 1024手机在线看永久免费 | 亚洲人成网站999久久久综合 | 视频在线观看网站 | 热久久综合这里只有精品电影 | 免费一级在线 | 555成人免费影院 | 丁香六月综合网 | 亚洲国产成人最新精品资源 | 人人插97| 久久天天躁狠狠躁夜夜 | 精品福利视频网站 | 亚洲六月婷婷 | 天堂资源最新版在线官网 | 午夜神马福利 | 第四色亚洲 | 国模大尺度在线 | 国产精品久久福利网站 | 在线视频图片小说 | 日日碰狠狠添天天爽五月婷 | 国产人免费人成免费视频 | 国产高清成人mv在线观看 | 韩国三级hd中文字幕 | 国产一卡二卡3卡4卡四卡在线视频 | 国产精品免费看久久久香蕉 | 免费看啪啪的网站 | 在线视频亚洲 | 成人黄色免费网站 | 二区三区在线 | 在线一区观看 | 婷婷六月久久综合丁香一二 | 四虎永久在线观看免费网站网址 | 手机看片国产精品 | 99久久久精品免费观看国产 |