深度學習模型介紹
DeepDive系統(tǒng)在數(shù)據(jù)處理階段很大程度上依賴于NLP工具,如果NLP的過程中存在錯誤,這些錯誤將會在后續(xù)的標注和學習步驟中被不斷傳播放大,影響最終的關(guān)系抽取效果。為了避免這種傳播和影響,近年來深度學習技術(shù)開始越來越多地在關(guān)系抽取任務(wù)中得到重視和應(yīng)用。本章主要介紹一種遠程監(jiān)督標注與基于卷積神經(jīng)網(wǎng)絡(luò)的模型相結(jié)合的關(guān)系抽取方法以及該方法的一些改進技術(shù)。
Piecewise Convolutional Neural Networks(PCNNs)模型
PCNNs模型由Zeng et al.于2015提出,主要針對兩個問題提出解決方案:
針對遠程監(jiān)督的wrong label problem,該模型提出采用多示例學習的方式從訓練集中抽取取置信度高的訓練樣例訓練模型。
針對傳統(tǒng)統(tǒng)計模型特征抽取過程中出現(xiàn)的錯誤和后續(xù)的錯誤傳播問題,該模型提出用 piecewise 的卷積神經(jīng)網(wǎng)絡(luò)自動學習特征,從而避免了復雜的NLP過程。
下圖是PCNNs的模型示意圖:
PCNNs模型主要包括以下幾個步驟:
實驗證明,PCNNs + 多實例學習的方法 Top N 上平均值比單純使用多示例學習的方法高了 5 個百分點。
Attention機制和其它改進
上述模型對于每個實體對只選用一個句子進行學習和預(yù)測,損失了大量的來自其它正確標注句子的信息。為了在濾除wrong label case的同時,能更有效地利用盡量多的正確標注的句子,Lin et al. 于2016年提出了PCNNs+Attention(APCNNs)算法。相比之前的PCNNs模型,該算法在池化層之后,softmax層之前加入了一種基于句子級別的attention機制,算法的示意圖如下:
除了Attention機制外,還有一些其它的輔助信息也被加入多示例學習模型來改關(guān)系抽取的質(zhì)量,例如在計算實體向量的時候加入實體的描述信息(Ji et al.,2017);利用外部神經(jīng)網(wǎng)絡(luò)獲取數(shù)據(jù)的可靠性和采樣的置信度等信息對模型的訓練進行指導(Tang et al.,2017)。
下圖顯示了各模型和改進算法的準確率和召回率的對比,其中Mintz不對遠程監(jiān)督的wrong label problem做處理,直接用所有標注樣例進行訓練;MultiR和MIML是采用概率圖模型進行示例篩選的兩種多示例學習模型;PCNN+MIL是本章第一小節(jié)介紹的模型;APCNNs 在PCNN+MIL基礎(chǔ)上添加了attention機制;PCNNs+D在PCNN+MIL基礎(chǔ)上添加了對描述信息的使用;APCNNs+D在APCNNs基礎(chǔ)上添加了對描述信息的使用。實驗采用的是該領(lǐng)域評測中使用較廣泛的New York Times(NYT)數(shù)據(jù)集(Riedel et al.,2010)。
深度學習方法在圖譜構(gòu)建中的應(yīng)用進展
深度學習模型在神馬知識圖譜數(shù)據(jù)構(gòu)建中的應(yīng)用目前還處于探索階段,本章將介紹當前的工作進展和業(yè)務(wù)落地過程中遇到的一些問題。
語料準備和實體向量化
深度學習模型較大程度依賴于token向量化的準確性。與基于DeepDive方法的語料準備相同,這里的token切分由以詞為單位,改為以實體為單位,以NER環(huán)節(jié)識別的實體粒度為準。Word2vec生成的向量表征token的能力與語料的全面性和語料的規(guī)模都很相關(guān),因此我們選擇百科全量語料作為word2vec的訓練語料,各統(tǒng)計數(shù)據(jù)和模型參數(shù)設(shè)置如下表所示:
為了驗證詞向量訓練的效果,我們對word2vec的結(jié)果做了多種測試,這里給出部分實驗數(shù)據(jù)。下圖所示的是給定一個實體,查找最相關(guān)實體的實驗:
以下是給定一個實體對和預(yù)測實體對的其中一個實體,計算預(yù)測實體對中另一個實體的實驗。隨機選取了五種預(yù)測關(guān)系,構(gòu)造了15組給定實體對和預(yù)測實體對,預(yù)測結(jié)果如下圖所示,除了飄紅的兩個例子,其余預(yù)測均正確:
模型選取與訓練數(shù)據(jù)準備
具體應(yīng)用中我們選擇采用APCNNs模型。我們在NYT標準數(shù)據(jù)集上復現(xiàn)了上一章提到的幾種關(guān)鍵模型,包括CNN+MIL,PCNN+MIL,CNNs(基于Attention機制的CNN模型)和APCNNs。復現(xiàn)結(jié)果與論文中給出的baseline基本一致,APCNNs模型的表現(xiàn)明顯優(yōu)于其它模型。下圖是幾種模型的準召結(jié)果對比:
為了得到豐富的訓練數(shù)據(jù),我們?nèi)≈R圖譜中建設(shè)相對完善的人物、地理位置、組織機構(gòu)、電影、電視、圖書等領(lǐng)域下的15個核心關(guān)系,如電影演員、圖書作者、公司高管、人物出生地等,對照百科全量語料,產(chǎn)出relation值為15個關(guān)系之一的標注正例,合計數(shù)目在千萬量級,產(chǎn)出無relation值標注(relation值為NA)的示例超過1億。
應(yīng)用嘗試和問題分析
APCNNs模型在輔助知識圖譜數(shù)據(jù)構(gòu)建中目前還處于嘗試階段。就運算能力而言,APCNNs模型相比DeepDive系統(tǒng)更有優(yōu)勢,能在大規(guī)模語料上同時針對多個關(guān)系進行計算,且迭代更新過程無需人工校驗交互。但在業(yè)務(wù)落地過程中,我們也遇到了一些問題,總結(jié)如下:
大規(guī)模實驗耗時過長,給參數(shù)的調(diào)整和每一次算法策略上的迭代增加了難度
目前學術(shù)界通用的測試語料是英文的NYT數(shù)據(jù)集,相同的模型應(yīng)用于中文語料時,存在準召率對標困難的問題
深度學習的過程人工難以干預(yù)。假設(shè)我們要預(yù)測(楊冪,劉愷威)的婚姻關(guān)系,但從最初的基于大規(guī)模語料的詞向量生成開始,如果該語料中(楊冪,劉愷威)共現(xiàn)時的主導關(guān)系就不是婚姻關(guān)系,而是影視劇中的合作關(guān)系(如“該片講述楊冪飾演的夏晚晴在遭遇好友算計、男友婚變的窘境下,被劉愷威飾演的花花公子喬津帆解救,但卻由此陷入更大圈套的故事。”),或基于某些活動的共同出席關(guān)系(如“楊冪與劉愷威共同擔任了新浪廈門愛心圖書館的公益大使”),則在attention步驟中得到的關(guān)系向量就會偏向合作關(guān)系,這將導致計算包中每個句子的權(quán)值時,表達婚姻關(guān)系的句子難以獲得高分,從而導致后續(xù)學習中的偏差。
深度學習模型的結(jié)果較難進行人工評測,尤其對于知識圖譜中沒有出現(xiàn)的實體對,需要在大規(guī)模的中間過程矩陣中進行匹配和提取,將權(quán)重矩陣可視化為包中每個句子的得分,對計算資源和人工都有不小的消耗。
總結(jié)與展望
基于DeepDive的方法和基于深度學習的方法各有優(yōu)勢和缺陷,以下從4個方面對這兩種方法進行總結(jié)和對比:
1、 語料的選取和范圍
Deepdive可適用于較小型、比較專門的語料,例如歷史人物的關(guān)系挖掘;可以針對語料和抽取關(guān)系的特點進行調(diào)整規(guī)則,如婚姻關(guān)系的一對一或一對多,如偏文言文的語料的用語習慣等。
APCNNs模型適用于大規(guī)模語料,因為attention機制能正常運行的前提是word2vec學習到的實體向量比較豐富全面。
2、 關(guān)系抽取
Deepdive僅適用于單一關(guān)系的判斷,分類結(jié)果為實體對間某一關(guān)系成立的期望值。針對不同的關(guān)系,可以運營不同的規(guī)則,通過基于規(guī)則的標注能較好地提升訓練集的標注準確率。
APCNNs模型適用于多分類問題,分類結(jié)果為relation集合中的關(guān)系得分排序。無需針對relation集合中特定的某個關(guān)系做規(guī)則運營。
3、 長尾數(shù)據(jù)
Deepdive更適用于長尾數(shù)據(jù)的關(guān)系挖掘,只要是NER能識別出的實體對,即使出現(xiàn)頻率很低,也能根據(jù)該實體對的上下文特征做出判斷。
APCNNs模型需要保證實體在語料中出現(xiàn)的次數(shù)高于一定的閾值,如min_count>=5,才能保證該實體有word2vec的向量表示。bag中有一定數(shù)量的sentence,便于選取相似度高的用于訓練
4、 結(jié)果生成與檢測
Deepdive對輸出結(jié)果正誤的判斷僅針對單個句子,同樣的實體對出現(xiàn)在不同的句子中可能給出完全不同的預(yù)測結(jié)果。測試需要結(jié)合原句判斷結(jié)果是否準確,好處是有原句作為依據(jù),方便進行人工驗證。
APCNNs模型針對特定的實體對做判斷,對于給定的實體對,系統(tǒng)給出一致的輸出結(jié)果。對于新數(shù)據(jù)的結(jié)果正確性判斷,需要結(jié)合中間結(jié)果,對包中被選取的句子集合進行提取和驗證,增加了人工檢驗有的難度。
在未來的工作中,對于基于DeepDive的方法,我們在擴大抓取關(guān)系數(shù)目的同時,考慮將業(yè)務(wù)實踐中沉淀的改進算法流程化、平臺化,同時構(gòu)建輔助的信息增補工具,幫助減輕DeepDive生成結(jié)果寫入知識圖譜過程中的人工檢驗工作,例如,對于婚姻關(guān)系的實體對,我們可以從圖譜獲取人物的性別、出生年月等信息,來輔助關(guān)系的正誤判斷。
對于基于深度學習的方法,我們將投入更多的時間和精力,嘗試從以下幾方面促進業(yè)務(wù)的落地和模型的改進:
將已被DeepDive證明有效的某些改進算法應(yīng)用到深度學習方法中,例如根據(jù)關(guān)系相關(guān)的關(guān)鍵詞進行過濾,縮小數(shù)據(jù)規(guī)模,提高運行效率。
將計算中間結(jié)果可視化,分析attention過程中關(guān)系向量與sentence選取的關(guān)聯(lián),嘗試建立選取結(jié)果好壞的評判機制,嘗試利用更豐富的信息獲得更準確的關(guān)系向量。
考慮如何突破預(yù)先設(shè)定的關(guān)系集合的限制,面向開放領(lǐng)域進行關(guān)系抽取,自動發(fā)現(xiàn)新的關(guān)系和知識。
探索除了文本以外其它形式數(shù)據(jù)的關(guān)系抽取,如表格、音頻、圖像等。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4795瀏覽量
102165 -
深度學習
+關(guān)注
關(guān)注
73文章
5544瀏覽量
122269
原文標題:首次公開:深度學習在阿里知識圖譜構(gòu)建中的應(yīng)用
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
如何才能高效地進行深度學習模型訓練?

深度學習在預(yù)測和健康管理中的應(yīng)用
深度學習模型是如何創(chuàng)建的?
什么是深度學習?使用FPGA進行深度學習的好處?
Attention的具體原理詳解
為什么要有attention機制,Attention原理

移植深度學習算法模型到海思AI芯片

評論