在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于表格的自然語言理解與生成方向的一系列工作

電子工程師 ? 來源:lq ? 2019-02-04 09:26 ? 次閱讀

編者按:在我們的生活中,用語音查詢天氣,用必應(yīng)搜索信息,這些常見的場景都離不開一種應(yīng)用廣泛的數(shù)據(jù)存儲方式——表格(table)。如果讓表格更智能一些,將是怎么樣的呢?在這篇文章中,微軟亞洲研究院自然語言計算組將為我們介紹基于表格的自然語言理解與生成方向的一系列工作。

表格(table)是一種應(yīng)用廣泛的數(shù)據(jù)存儲方式,被廣泛用于存儲和展示結(jié)構(gòu)化數(shù)據(jù)。由于表格數(shù)據(jù)結(jié)構(gòu)清晰、易于維護、時效性強,它們通常是搜索引擎和智能對話系統(tǒng)的重要答案來源。例如,現(xiàn)代搜索引擎(如必應(yīng)搜索引擎)基于互聯(lián)網(wǎng)表格直接生成問題對應(yīng)的答案;虛擬語音助手(如微軟Cortana、亞馬遜Alexa等)結(jié)合表格和自然語言理解技術(shù)回答人們的語音請求,例如查詢天氣、預(yù)定日程等。

我們將在本文中介紹我們在基于表格的自然語言理解與生成方向的一系列工作,包括檢索(retrieval)、語義解析(semantic parsing)、問題生成(question generation)、對話(conversation)和文本生成(text generation)等五個部分。除了檢索任務(wù),其余四個任務(wù)的目標(biāo)均是在給定表格的基礎(chǔ)上進行自然語言理解和生成:

檢索:從表格集合中找到與輸入問題最相關(guān)的表格;

義解析:將自然語言問題轉(zhuǎn)換成可被機器理解的語義表示(meaning representation,在本文中是SQL語句),在表格中執(zhí)行該表示即可獲得答案;

問題生成:可看作語義解析的逆過程,能減輕語義解析器對大量標(biāo)注訓(xùn)練數(shù)據(jù)的依賴;

對話:主要用于多輪對話場景的語義解析任務(wù),需有效解決上下文中的省略和指代現(xiàn)象;

文本生成:使用自然語言描述表格中(如給定的一行)的內(nèi)容。

讓我們用一張圖概括本文接下來所要涉及的內(nèi)容。

檢索 Retrieval

對于給定的自然語言q和給定的表格全集T={T1, T2, .., Tn},表格檢索任務(wù)的目的是從T中找到與q內(nèi)容最相關(guān)的表格,如下圖所示。每個表格通常由三部分構(gòu)成:表頭/列名(table header)、表格單元(table cell)和表格標(biāo)題(table caption)。

表格檢索的關(guān)鍵在于衡量自然語言問題和表格之間的語義相關(guān)程度。一個基本的做法是把表格看做文檔,使用文本檢索中常用的字符串相似度計算方法(如BM25)計算自然語言問題和表格之間的相似度。也有學(xué)者使用更多樣的特征,如表格的行數(shù)、列數(shù)、問題和表格標(biāo)題的匹配程度等。

為了更好地融入表格的結(jié)構(gòu)信息,我們提出了一個基于神經(jīng)網(wǎng)絡(luò)的表格檢索模型,在語義向量空間內(nèi)分別計算問題和表頭、問題和列名、問題和表格單元的匹配程度,如下圖所示。由于問題和表格標(biāo)題都是詞序列,我們均使用雙向GRU把二者分別表示為向量表示,最終使用線性層計算二者的相關(guān)度。由于表頭和表格單元不存在序列關(guān)系,任意交換表格的兩列或兩行應(yīng)保證具有相同的語義表示,所以我們使用Attention計算問題和表頭以及問題和表格單元的相關(guān)度。

由于目前表格檢索的公開數(shù)據(jù)集有限,因此我們構(gòu)建了一個包含21,113個自然語言問題和273,816個表格的數(shù)據(jù)集。在該數(shù)據(jù)集上,我們對比了基于BM25的系統(tǒng)、基于手工定義特征的系統(tǒng)以及基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng),結(jié)果如下表所示。

可以看出基于神經(jīng)網(wǎng)絡(luò)的算法與手工設(shè)計的特征性能相近,二者相結(jié)合可以進一步提高系統(tǒng)的性能。

更多細節(jié)請參照論文:

Yibo Sun, Zhao Yan, Duyu Tang, Nan Duan, Bing Qin.Content-Based Table Retrieval for Web Queries. 2018. Neurocomputing.

語義解析 Semantic Parsing

給定一張網(wǎng)絡(luò)表格,或一個關(guān)系數(shù)據(jù)庫表,或一個關(guān)于表的自然語言問句,語義解析的輸出是機器可以理解并執(zhí)行的規(guī)范語義表示(formal meaning representation),在本小節(jié)我們使用SQL語句作為規(guī)范語義表示,執(zhí)行該SQL語句即可從表中得到問題的答案。

目前,生成任務(wù)比較流行的方法是基于序列到序列(sequence to sequence)架構(gòu)的神經(jīng)模型,一般由一個編碼器(encoder)和一個解碼器(decoder)組成。編碼器負(fù)責(zé)建模句子表示,解碼器則根據(jù)編碼器得到的問句表示來逐個從詞表中挑選出一個個符號進行生成。

然而, SQL語句遵循一定的語法規(guī)則,一條SQL查詢語句通常由3種類型的元素組成,即SQL關(guān)鍵詞(如SELECT, WHERE, >, < 等)、表格的列名和WHERE語句中的條件值(通常為數(shù)字或表格單元)。因此,我們在解碼器端融入SQL的語法信息,具體由一個門單元和三個頻道組成。門單元負(fù)責(zé)判斷該時刻即將輸出符號的類型,三個頻道分別為Column、value、SQL頻道,在每個頻道中分別預(yù)測表中列名稱、表中單元格名稱和SQL語法關(guān)鍵字。該算法在WikiSQL數(shù)據(jù)集上性能優(yōu)于多個強對比算法。

更多細節(jié)可以參考論文:

Yibo Sun, Duyu Tang, Nan Duan, Jianshu Ji, Guihong Cao, Xiaocheng Feng, Bing Qin, Ting Liu and Ming Zhou. Semantic Parsing with Syntax- and Table-Aware SQL Generation. 2018. ACL.

問題生成 Question Generation

統(tǒng)計機器學(xué)習(xí)算法的性能通常受有指導(dǎo)訓(xùn)練數(shù)據(jù)量的影響。例如,我們使用上一小節(jié)提出的語義解析算法,在有不同指導(dǎo)訓(xùn)練數(shù)據(jù)的條件下觀察模型的性能(這里的有指導(dǎo)訓(xùn)練數(shù)據(jù)指的是人工標(biāo)注的“問題-SQL”對)。下表中x軸是log scale的訓(xùn)練數(shù)據(jù)量,可以發(fā)現(xiàn)語義解析的準(zhǔn)確率與訓(xùn)練數(shù)據(jù)量之間存在Log的關(guān)系。

基于上述觀察,我們希望使用少量的有指導(dǎo)訓(xùn)練數(shù)據(jù),達到同樣的語義分析準(zhǔn)確率。為此,我們提出了一個基于問題生成的語義分析訓(xùn)練框架,如下圖所示。給定一個表格,我們首先使用一個基于規(guī)則的SQL采樣器生成SQL語句,隨后用一個在小規(guī)模有指導(dǎo)數(shù)據(jù)上訓(xùn)練的問題生成模型生成多個高置信度的問題,將新生成的數(shù)據(jù)與小規(guī)模的有指導(dǎo)數(shù)據(jù)結(jié)合,共同訓(xùn)練語義分析模型。另外,問題生成模型是基于Seq2Seq模型,為了增加生成問題的多樣性我們在解碼器端加入了隱含變量。

更多細節(jié)可以參考論文:

Daya Guo, Yibo Sun, Duyu Tang, Nan Duan, Jian Yin, Hong Chi, James Cao, Peng Chen and Ming Zhou. Question Generation from SQL Queries Improves Neural Semantic Parsing. 2018. EMNLP.

我們在WikiSQL數(shù)據(jù)集上進行實驗,使用上一章中所介紹的算法(STAMP)作為基本模型。從下表可以看出,融合問題生成模型的訓(xùn)練算法可以在30%訓(xùn)練數(shù)據(jù)的條件下達到傳統(tǒng)訓(xùn)練算法100%訓(xùn)練數(shù)據(jù)的性能。使用該算法,在100%訓(xùn)練數(shù)據(jù)的條件下會進一步提升模型的性能。

對話 Conversational Semantic Parsing

前面我們介紹的語義解析算法針對的都是單輪問答場景,即用戶針對一個表格每次問一個獨立的問題。而在對話場景下,人們會在前一個問題的基礎(chǔ)上繼續(xù)提問,通常人們會使用指代或省略使對話更加簡潔和連貫。例如,在下圖的例子中,第2個問句中的”that year”指代第一個問句中提及的年份;第3個問題更是直接省略了問題的意圖。

針對多輪對話場景下的語義分析,我們以Sequence-to-Action的形式生成問題的語義表示,在該模式下生成一個語義表示等價于一個動作序列,Sequence-to-Action在單輪和多輪語義分析任務(wù)中均被驗證是非常有效的方法。

具體地,我們在Mohit Iyyer等人發(fā)表在ACL 2017上的研究Search-based Neural Structured Learning for Sequential Question Answering的基礎(chǔ)上定義了如下表的動作集合,作為我們Sequence-to-Action模型的語法基礎(chǔ)。A1-A4的目的是根據(jù)當(dāng)前語句的內(nèi)容預(yù)測SELECT語句中的列名、WHERE語句中的列名、WHERE語句中的操作符(如=, >, <)和WHERE語句中的條件值;A5-A7的目的是從上一句的歷史語義表示中復(fù)制部分內(nèi)容到當(dāng)前語句的語義表示中。

我們以下圖為例介紹模型的工作原理。輸入歷史問題和當(dāng)前問題,該模型首先使用Controller模塊預(yù)測當(dāng)前問句的動作序列骨架(即未實例化的動作序列),隨后使用特定的模型(如基于Attention的column prediction模塊)去實例化骨架中的每個單元。當(dāng)模型預(yù)測A5-A7(如下圖中所展示的A6),模型實現(xiàn)了復(fù)制歷史語義表示的功能。

更多細節(jié)請參考論文:

Yibo Sun, Duyu Tang, Nan Duan, Jingjing Xu, Xiaocheng Feng, Bing Qin. Knowledge-Aware Conversational Semantic Parsing Over Web Tables. 2018. Arxiv.

自然語言生成Table-to-Text Generation

很多場景都需要用自然語言形式呈現(xiàn)答案。因此我們基于表格的文本生成工作,目的是用自然語言描述表格中(如給定的一行)的內(nèi)容。以下圖為例,給定表格中的一行,輸出一句完整的描述內(nèi)容。

我們的模型基于Sequence-to-Sequence框架,如下圖所示。為了考慮表格的結(jié)構(gòu)性(如打亂表格的各列不改變其表示),我們在編碼器模塊沒有使用序列化的形式去建模各個列的表示;為了有效從表格中復(fù)制低頻詞到輸出序列,我們設(shè)計了基于表格結(jié)構(gòu)的復(fù)制機制。

具體內(nèi)容請參考論文:

Junwei Bao, Duyu Tang, Nan Duan, Zhao Yan, Yuanhua Lv, Ming Zhou, Tiejun Zhao. Table-to-Text: Describing Table Region with Natural Language. 2018. AAAI.

本文介紹了我們在基于表格的自然語言理解與生成相關(guān)的5項工作。目前,與表格相關(guān)的自然語言處理研究剛剛起步,方法尚未成熟,對應(yīng)的標(biāo)注數(shù)據(jù)集也相對有限,我們希望與業(yè)界研究者們一起共同探索新的方法和模型,推動該領(lǐng)域的進一步發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:你已經(jīng)是個成熟的表格,該學(xué)會NLP了

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    自然語言處理包括哪些內(nèi)容 自然語言處理技術(shù)包括哪些

    自然語言處理(Natural Language Processing, NLP)般包括以下內(nèi)容: 語音識別(Speech Recognition):將人類語言轉(zhuǎn)換為計算機可以理解的形
    的頭像 發(fā)表于 08-03 16:22 ?8617次閱讀

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言。自然語言(Natural Language )廣納了眾多技術(shù),對自然或人類語言
    發(fā)表于 05-02 13:50

    NLPIR語義分析是對自然語言處理的完美理解

    和邏輯表示。語義分析就是對信息所包含的語義的識別,并建立種計算模型,使其能夠像人那樣理解自然語言。語義分析是自然語言理解的根本問題,它在
    發(fā)表于 10-19 11:34

    語義理解和研究資源是自然語言處理的兩大難題

    兩方面,語義理解和資源問題。 語義理解包括對自然語言知識和常識的學(xué)習(xí),如果只是要學(xué)習(xí)機器的知識,對于人類來說并不難,但是如果讓機器掌握人的思考模式和處理方法模式,其模式構(gòu)建和具體實施則存在困難,也就是說
    發(fā)表于 09-19 14:10

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務(wù)有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    自然語言處理怎么最快入門_自然語言處理知識了解

    自然語言處理就是實現(xiàn)人機間自然語言通信,實現(xiàn)自然語言理解自然語言生成是十分困難的,造成困難的根
    發(fā)表于 12-28 17:10 ?5396次閱讀

    Facebook人工智能在自然語言理解方面取得重大突破

    自然語言理解(NLU)和語言翻譯是一系列重要應(yīng)用的關(guān)鍵,包括大規(guī)模識別和刪除有害內(nèi)容,以及連接世界各地不同語言的人們。盡管近年來基于深度學(xué)習(xí)
    的頭像 發(fā)表于 09-17 17:05 ?2961次閱讀

    解讀人工智能理解自然語言的原理和概念

    人工智能理解自然語言的原理是什么?要有針對性地回答該問題,需先將它的議題邊界進行明確定義。如果將該問題理解為如何利用計算機工具處理和分析自然語言,以實現(xiàn)人與計算機通過
    的頭像 發(fā)表于 08-09 14:43 ?6541次閱讀

    自然語言處理(NLP)的學(xué)習(xí)方向

    自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的個重要方向。它研究人與計算機之間用自然語言進行有效通信的理論和方法。融
    的頭像 發(fā)表于 07-06 16:30 ?1.3w次閱讀

    ChatGPT在自然語言處理中的局限性和挑戰(zhàn)

    隨著人工智能技術(shù)的不斷發(fā)展,自然語言處理已經(jīng)成為人工智能領(lǐng)域中備受矚目的重要研究方向。ChatGPT作為自然語言處理技術(shù)中的種,已經(jīng)在自然語言
    的頭像 發(fā)表于 04-18 16:25 ?1952次閱讀

    自然語言處理的概念和應(yīng)用 自然語言處理屬于人工智能嗎

      自然語言處理(Natural Language Processing)是種人工智能技術(shù),它是研究自然語言與計算機之間的交互和通信的門學(xué)科。
    發(fā)表于 08-23 17:31 ?2092次閱讀

    自然語言處理包括哪些內(nèi)容

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個重要分支,它涉及到計算機與人類語言之間的交互。NLP的目標(biāo)是讓計算機能夠理解、
    的頭像 發(fā)表于 07-03 14:15 ?1735次閱讀

    自然語言處理技術(shù)有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個分支,它致力于使計算機能夠理解、解釋和生成人類
    的頭像 發(fā)表于 07-03 14:30 ?2152次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領(lǐng)域的兩個重要分支,它們在許多應(yīng)用中緊密結(jié)合,共同構(gòu)成了自然語言理解生成
    的頭像 發(fā)表于 11-18 15:19 ?935次閱讀

    自然語言處理與機器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的個分支,它致力于研究如何讓計算機能夠理解、解釋和
    的頭像 發(fā)表于 12-05 15:21 ?1808次閱讀
    主站蜘蛛池模板: 午夜色图 | 免费公开视频人人人人人人人 | 国产精品国产三级国产普通话对白 | 在线网站你懂 | 99久久久精品免费观看国产 | 国产视频一区二区在线观看 | 日本欧美一区二区三区免费不卡 | 一本到卡二卡三卡四卡 | 人人做人人爽人人爱秋霞影视 | 久久精品免费观看 | 高清国产下药迷倒美女 | 色天使美国 | 女bbbbxxxx视频| 性高清| 午夜视频在线观看一区 | 久久精品国产福利 | 亚洲va国产日韩欧美精品色婷婷 | mm365快播综合网| 色老头永久免费网站 | aaaa黄色片| 国产成人三级经典中文 | 最近国语剧情视频在线观看 | 午夜国产在线 | 天天躁夜夜躁狠狠躁2021 | 免费亚洲成人 | 一级视频在线观看 | 久久天天躁夜夜躁狠狠85台湾 | 三级视频在线播放线观看 | 国产精品永久免费自在线观看 | 亚洲成人在线播放 | 久青草国产高清在线视频 | 四虎国产精品高清在线观看 | 午夜欧美福利 | 午夜影院在线免费 | 午夜综合 | 999av视频 | 天天做天天爱天天大综合 | 国产在线播放你懂的 | 午夜女上男下xx00xx00动态 | 六月婷婷导航福利在线 | 天堂资源在线观看 |