基于本體約束的知識抽取方法
在信息抽取領(lǐng)域,命名實體識別方法可以為實體賦予正確的語義,實體關(guān)系抽取則可以明確兩個實體間的關(guān)系語義。但從知識的角度來看,無論是命名實體識別還是實體關(guān)系抽取都屬于“小粒度”限口識片段)的抽取,抽取結(jié)果并非獨立完整的知識實例。命名實體識別和實體關(guān)系抽取的成果只有經(jīng)過知識合成才能成為獨立完整的知識實例。但由于知識體系的復(fù)雜性和多樣性,合成“知識片段”往往是非常困難的。此外,傳統(tǒng)的信息抽取主要采用基于規(guī)則的方法,這種方法會導(dǎo)致在抽取信息時因無法克服不同的信息項滿足同一或具有包含關(guān)系抽取規(guī)則時無法確定信息項類型的問題。
本體是共享的、規(guī)范化的概念模型,是對某一領(lǐng)域中知識結(jié)構(gòu)的系統(tǒng)描述,因此從知識的角度來看,領(lǐng)域本體是知識抽取最有效的工具之一。但從目前來看,基于本體信息抽取和知識抽取的研究工作對領(lǐng)域本體的利用非常有限,且主要集中在一些信息本身格式和信息上下文格式的利用;而領(lǐng)域本體中蘊含的邏輯知識以及推理能力很少被利用,因此這類方法在抽取結(jié)構(gòu)比較復(fù)雜的知識時抽取效果就明顯下降了。
本文研究的思路是:將領(lǐng)域本體中蘊含的邏輯知識轉(zhuǎn)換為一個Alloy語言表示的模型,在完成命名實體識別和實體關(guān)系抽取的基礎(chǔ)上,使用約束邏輯求解方法(Alloy分析器)來對領(lǐng)域內(nèi)的信息進行更為精確的定位,最終得到一個具有明確語義的知識實例。本文的組織如下,第二節(jié)給出兩個引例,明確本文要解決的問題;第三節(jié)介紹相關(guān)的概念;第四節(jié)是本文的重點,介紹知識抽取的算法;第五節(jié)是實驗;最后是相關(guān)工作和結(jié)論。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%