在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

專訪NLP領域的華人新星——加州大學圣巴巴拉分校助理教授王威廉

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-10-18 11:39 ? 次閱讀

自然語言處理(NLP)是一門集語言學、計算機科學、人工智能于一體的科學,解決的是“讓機器可以理解自然語言”——這一到目前為止都還只是人類獨有的特權,因此被譽為人工智能皇冠上的明珠。

近日,采訪到了 NLP 領域的華人新星——加州大學圣巴巴拉分校助理教授王威廉,向他請教了 NLP 領域最前沿的研究問題,以及 NLP 研究方向的一些建議。

關于王威廉:2009 年畢業于深圳大學,隨后赴美留學,并先后在哥倫比亞大學和卡耐基梅隆大學獲得碩士和博士學位。他的研究范圍包括統計關系學習、信息提取、社交媒體、語音和視覺等等。2016 年博士畢業之后,王威廉加盟加州大學圣巴巴拉分校。如今,王威廉已經是該校 NLP 小組的負責人,同時也是計算機科學系的助理教授。近幾年來,王威廉在一些重要的 NLP/AI/ ML 等會議和期刊上發表了 60 多篇論文,并多次獲得知名學術會議的最佳論文獎及提名。

1)您現在的主要研究領域是什么?有哪些最新進展?

王威廉:我的主要研究領域現在有三個:自然語言處理、機器學習、人工智能。

在自然語言處理領域,我們實驗室主要關注的方向是信息抽取,社交媒體,語音、語言處理,以及語言與視覺方面的研究;

在機器學習領域,我們比較關注的是強化學習、對抗學習以及深度學習技術的突破;

在人工智能總體領域,我們對知識的表示、推理、知識圖譜非常關注。

我們最近的一些突破,比如發表在 EMNLP 2017 上 DeepPath 首先提出了用強化學習的方法去做知識圖譜上的推斷,這項工作取得了很大的關注。我們還有一些相關的工作,比如用變分推理的方法去進一步提高知識圖譜路徑找尋的效率。

此外,我們還有不少在語言與視覺方面的嘗試,包括 video captioning,video storytelling,以及如何把深度強化學習技術與這些復雜的語言與視覺的技術相結合。我們嘗試了逆向的強化學習,去學習生成文本描述的多樣性,主動學習它的一些獎勵函數。我們最近也做了一些 language grounding 的工作,比如教機器人根據語言與視覺的信息來完成路徑的找尋,到達目的地。同時我們也在社交媒體領域做了不少關于假新聞、仇恨言論檢測的工作。

2)NLP 領域目前有哪些突破?未來的研究難點有哪些?

王威廉:在 NLP 領域,實體標注等工作的結果都非常好了,基本上都超過 90% 的準確率。現在的一些工作,包括大家很關心的閱讀理解,在 SQuAD 上面第一版的結果已經非常好了。在未來,我認為語言的生成還是一個很難的問題,就是如何去做一些可以控制的生成,如何保證語義的連貫性以及語法的正確性,這些都是在神經網絡框架下難以做到的。

還有一個是推理的問題。我們如何進一步地在分類、在序列標注等任務的基礎上設計一些算法以及機器學習的模型,然后讓機器能夠在一些復雜的任務上,尤其是一些推理的相關的任務上取得一些突破,這些還是相當難的問題。

3)NLP 領域里比較流行的 SQuAD 數據集的局限性在哪?NLP 領域需要怎樣的數據集?以及怎樣的評價標準?

王威廉:它的局限性有幾個,第一是數據量還不大,第二是機器做閱讀理解的時候其實并不需要完全理解這個問題,也不需要完全理解這個篇章,它可以用很簡單的模式識別的方法去找 pattern。比如說這個問題里面的哪個詞和篇章里面的哪個詞比較匹配,然后來回答答案。所以它并不能真正地理解語言,不能很好地理解問題,遇到復雜的問題就回答不了。

NLP 領域需要更加復雜的數據集,比如說多個文本,需要在知識圖譜里做一些推斷,需要根據上下文不同的假設去做一些推測,這樣的數據集可能會有更多的幫助。

評價標準是很多人在討論的一個話題,像 BLEU 等已經用了一二十年了,它局限性非常大,比如說它不是通過語義的方法來做評價,而是是通過詞之間的 overlap(重疊)做的一個評價標準,所以它不能代替人類的評價。

4)Salesforce 開發了一個針對十大自然語言常見任務(問答、機器翻譯、摘要、自然語言推理、情感分析、語義角色標注、關系抽取、任務驅動多輪對話、數據庫查詢生成器和代詞消解)通用模型 decaNLP,這種通用模型有哪些優缺點?

王威廉:個人認為多任務學習、是非常有意思的一個方向。你可以看一下 decaNLP 的單項結果,確實是比各個單項的 SOTA 還是有一些距離的。總體來說,這是非常有意思的一個研究方向,但是在實際應用中,每一個單項的成績比單項的 SOTA 還是有不小的距離。

5)基于 Attention 的網絡真的可以取代 RNN 及其變種嗎?為什么?

王威廉:不一定。RNN 及其變種確實有一些優勢,比如它能夠把握 非常準確的本地語義關系,像LSTM 在 sequence tagging 等任務上還是能取得非常不錯的結果。總體來說,Transformer 還是很有意思的研究角度,但是實際情況是,它并沒有在除了機器翻譯之外的 NLP 任務上面取得最好的結果。

6)強化學習和 GAN 現在非常熱門,但在 NLP 任務中又有很多限制,面對這種現狀,科研人員應該怎么做?

王威廉:我覺得首先你要搞清楚為什么要用強化學習。在我看來,強化學習在 NLP 中可以做三件事情。第一件事情,你可以用它去做 learning to search,learning to rank,然后用強化學習作為解決傳統方法解決不了的問題的一種手段。第二件,我們發現在 reinforcedco-training 這個工作中,強化學習可以學習選擇數據,然后我們可以用強化學習去做 denoiser(去噪)。此外,還可以用強化學習去優化 BLEU Score,ROUGE Score,我們最近發表在 ACL 2018 上的工作也有用逆向強化學習去學它的評價標準。總之,還是有不少值得研究的空間。

GAN 更是一個很有意思的方向。GAN 在 CV 領域取得了很好的結果,在 NLP 領域,由于語言是離散的,所以大家還在研究如何通過更好地設計對抗網絡,讓判別器可以去反向傳播錯誤,從而更好地更新生成器。我們在負例生成與遠程監督去噪上也做了一些嘗試,包括今年的 KBGAN 和 DSGAN 。

總體來說,首先要搞清楚你為什么要做這個事情?你到底要做什么事情?強化學習跟 GAN 適不適合這個任務?搞清楚了這幾點,然后才有可能使得你的 NLP 的結果得到提升。如果搞不清楚就盲目應用 GAN 和強化學習,是是很難在你的任務中取得很好的結果的。

7)對于科研人員來說,NLP 里哪些研究方向更容易取得突破?

王威廉:自然語言研究有兩塊,一個是生成,一個是理解。生成和理解這兩塊其實都非常重要,比較難說哪一塊更容易取得突破。

但是生成的任務肯定是非常難的,因為首先詞匯量是無窮無盡的,然后 latent space 和詞的映射關系也是非常難做的,所以生成會是比較難一點。

至于理解任務,要看你做到哪一步了。如果你是做文本分類這些簡單一點的 任務,當然也有難一點的,比如說結構化預測,sequence tagging 會更難一點,那最難的可能就是比如說句法樹的生成,比如依存句法分析或者是語義分析。

8)面對目前 NLP 領域的研究困境,以往我們會在數據、ML 或 DL 等方法上做創新或改變,現在是否依然是這個思路?是否需要懂得語言學知識或者融合其他學科知識?

王威廉:在早些年,大家做 NLP 研究可能是研究計算語言學,就是怎樣用計算的方法去更好地理解語言學。現在基本上已經變了,過去 10-15年,NLP 基本上是計算機科學家為主,他們可能會關心一些更加實用的任務,比如說機器翻譯,對話系統。大家可以看到,很多的 NAACL 、EMNLP 論文,往往是在數據、任務或者是機器學習的方法上做一些創新。

這其實也跟計算機學科有關,因為計算機學科本身喜歡在算法層面上做創新。至于需不需要語言學知識?在深度學習之前,大家覺得是需要的,有了深度學習之后,大家覺得可能不需要。但是現在大家又發現,像 Seq2Seq 模型的結果非常差,語義連貫性、語法正確性也都沒有保證,而大家又想把結構融合到深度學習模型里。所以我個人認為還是需要掌握一些語言學知識,至少對你學習和研究的語言要有一些基本的知識,而其他學科的知識,根據你不同的應用也是非常重要的。比如說你做計算社會科學,你當然是需要知道一些社會科學,包括心理學、社會學一些相關的知識,然后才能更好地讓你的研究取得突破。

9)近幾年中國在 NLP 領域的發展狀況?

王威廉:最近幾年中國在 NLP 領域的發展是非常迅猛的,主要體現在下以下幾個方面。第一,大家可以看到,在 NLP領域的 ACL、NAACL、EMNLP 這三大會議上,中國人基本上已經撐起了半邊天。現在有一半的論文至少都是來自于國內的高校,然如果看第一作者,華人作者的比例可能會更高。國內工業界的發展也非常迅猛,尤其在自然語言處理領域。另外,現在國內是百花齊放,不光是傳統的清華、北大、中科院、哈工大,很多其他的學校都陸陸續續有很多的優秀的教授以及一些非常優秀的研究。相比美國,中國的增速肯定是快很多的。總體來說,中美已經是 NLP 領域的兩個強國了,接下來就希望更多的中國論文能夠獲得最佳論文獎。

10)中文 NLP 和英文 NLP 的區別在哪?

王威廉:中文 NLP 難點在于它的處理單元不是詞,而是字符。不管是做強化學習,還是做 Seq2Seq ,在詞級別來做和字符級別還是差很遠的。如果是做字符級別的話,你的 sequence 可能會變得非常長,并不太容易做。所以中文的挑戰在于語言本身比較難。除了漢語,也有其他少數民族的語言非常值得關注和留意。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1805

    文章

    48833

    瀏覽量

    247336
  • 機器學習
    +關注

    關注

    66

    文章

    8496

    瀏覽量

    134218
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22527

原文標題:專訪王威廉:NLP哪些研究方向更容易取得突破?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    下一代3D晶體管技術突破,半導體行業迎新曙光!

    新的晶體管技術。加州大學巴巴拉分校的研究人員在這一領域邁出了重要一步,他們利用二維(2D)半導體技術,成功研發出新型三維(3D)晶體管,為
    的頭像 發表于 03-20 15:30 ?592次閱讀
    下一代3D晶體管技術突破,半導體行業迎新曙光!

    1550-1620MHz 100w螺旋天線:無線通信領域新星

    深圳安騰納天線|1550-1620MHz 100w螺旋天線:無線通信領域新星
    的頭像 發表于 03-06 09:05 ?335次閱讀

    Thorlabs收購MEMS VCSEL先驅者Praevium Research

    公司經過數年的緊密合作后,Praevium Research正式成為Thorlabs大家庭的一員。 Praevium Research由加州大學巴巴拉分校知名研究員Vijay Jay
    的頭像 發表于 01-24 10:45 ?452次閱讀

    76歲解開電磁學哥德巴赫猜想——“中國微波之父”林為干

    林為干(1919年10月20日—2015年1月23日),廣東省臺山縣人。我國著名微波理論學家。1939年畢業于清華大學;1951年在美國加州大學伯克利分校獲博士學位。1951年回國,在嶺南大學
    的頭像 發表于 01-22 17:33 ?664次閱讀
    76歲解開電磁學哥德巴赫猜想——“中國微波之父”林為干

    谷歌量子芯片實現計算領域重大突破

    Alphabet旗下的一員,谷歌在量子計算領域的探索與微軟、IBM等科技巨頭并駕齊驅。量子計算技術以其承諾的遠超當前最先進系統的計算速度,吸引了全球科技界的廣泛關注。谷歌位于美國加州巴巴拉
    的頭像 發表于 12-13 11:10 ?704次閱讀

    NaVILA:加州大學與英偉達聯合發布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了一款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力,為智能機器人的自主導航提供了一種全新的解決方案。 視覺語言模型
    的頭像 發表于 12-13 10:51 ?628次閱讀

    NLP技術在聊天機器人中的作用

    聊天機器人,也稱為聊天AI,是一種通過文本或語音與人類進行交流的軟件。它們廣泛應用于客戶服務、在線購物、個人助理領域NLP技術是實現聊天機器人智能對話能力的關鍵。 1. 理解用戶意圖 NL
    的頭像 發表于 11-11 10:33 ?951次閱讀

    用于3D腦血管成像和腦血流動力學監測的可穿戴超聲貼片

    美國加州大學圣地亞哥分校徐升副教授和團隊,開發出一種可穿戴超聲貼片,用于免手持的經顱大腦血管成像和持續穩定地監測腦血流。 在該裝置中,該課題組采用2兆赫茲的低頻超聲波,以減少顱骨引起的信號衰減和相位畸變;加入銅網屏蔽層并采
    的頭像 發表于 11-09 11:22 ?1080次閱讀
    用于3D腦血管成像和腦血流動力學監測的可穿戴超聲貼片

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?1137次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學和人工智能領域的一個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術的發展,NLP領域
    的頭像 發表于 07-09 10:28 ?980次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域
    的頭像 發表于 07-09 10:26 ?2055次閱讀

    nlp自然語言處理的應用有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個分支,它致力于使計算機能夠理解和生成自然語言。隨著技術的發展,NLP已經在許多領域
    的頭像 發表于 07-05 09:55 ?3565次閱讀

    NLP技術在人工智能領域的重要性

    智能的橋梁,其重要性日益凸顯。本文將從NLP的定義、發展歷程、核心技術、應用領域以及對人工智能領域的深遠影響等多個維度,深入探討NLP技術在人工智能
    的頭像 發表于 07-04 16:03 ?1187次閱讀

    一款柔軟且高度可拉伸的電子設備誕生

    在探索人機交互的新邊界上,科學家們正以前所未有的創新力推動著技術的進步,尤其是在觸覺反饋領域。近期,美國加州大學迭戈分校的一項突破性研究成果,為虛擬現實、醫療康復及可穿戴技術等
    的頭像 發表于 07-04 15:42 ?2001次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的一個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統。NLP的目標是使計算機能夠像人類一樣
    的頭像 發表于 07-02 18:16 ?1910次閱讀
    主站蜘蛛池模板: 国模于子涵啪啪大胆 | 全部免费a级毛片 | 清纯漂亮小美女准备啪啪 | 韩国床戏合集三小时hd中字 | 我要看黄色一级毛片 | 亚洲一区毛片 | 手机在线观看你懂得 | 色婷婷国产 | 美女又黄又免费的视频 | 天堂资源最新版在线官网 | 久久福利青草精品资源站免费 | 看大片全色黄大色黄 | 色综合久久久久久久久久久 | 免费人成黄页在线观看1024 | 五月天婷婷网亚洲综合在线 | 一本到视频在线 | 末满18以下勿进色禁网站 | 都市禁忌猎艳风流美妇 | 夜夜夜夜夜夜夜工噜噜噜 | 天天狠天天干 | 好黄好猛好爽好痛的视频 | 国产主播一区二区 | 天天天天色 | 在线高清国产 | 天堂一区二区三区在线观看 | 在线午夜影院 | 午夜爽爽视频 | 精品亚洲综合在线第一区 | 美女视频黄免费 | 丁香六月激情网 | 狠狠色丁香 | 天天干夜夜玩 | 国产精品 色 | 色欧美色图 | 天天操天天插天天射 | 亚洲高清中文字幕一区二区三区 | 视频在线观看网站免费 | 久久xxxx| 四虎影院精品 | 亚洲aⅴ久久久噜噜噜噜 | 青青青草国产 |