1.摘要
本數(shù)據(jù)集由哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心(哈工大SCIR)秦兵教授和劉銘教授主持開(kāi)發(fā),是一個(gè)通用領(lǐng)域大規(guī)模條件性知識(shí)圖譜數(shù)據(jù)集。本數(shù)據(jù)集源自于AG News文本分類(lèi)語(yǔ)料,包含四個(gè)類(lèi)別,2440 條數(shù)據(jù),每條數(shù)據(jù)都是人工標(biāo)注的條件知識(shí)圖譜。該數(shù)據(jù)集的提出能夠?yàn)闂l件性知識(shí)圖譜的研究提供數(shù)據(jù)支持。
2.條件性知識(shí)圖譜
在大多數(shù)情況下,事實(shí)的成立都是有條件的。條件和事實(shí)起著同樣重要的作用,然而目前的知識(shí)圖譜只關(guān)注事實(shí)而忽略了條件的存在。與此同時(shí),信息提取技術(shù)也只關(guān)注從給定文本中提取事實(shí),而忽略了條件信息。
為了能夠讓知識(shí)圖譜建模條件信息更加充分,我們提出了一個(gè)三層的網(wǎng)絡(luò)結(jié)構(gòu)條件性知識(shí)圖譜(Conditional-KG)。條件性知識(shí)圖譜和傳統(tǒng)知識(shí)圖譜都是由三元組組成,但是條件性知識(shí)圖譜同時(shí)包含事實(shí)元組和條件元組,以及元組之間的條件關(guān)系。
3.數(shù)據(jù)集
為了支持條件性知識(shí)圖譜的研究,我們手動(dòng)標(biāo)注了一個(gè)條件性知識(shí)圖譜數(shù)據(jù)集。我們選擇了AG News文本分類(lèi)語(yǔ)料作為條件性知識(shí)圖譜的語(yǔ)料。AG News語(yǔ)料具有三大優(yōu)勢(shì):
AG News中的數(shù)據(jù)是新聞的標(biāo)題和一部分正文,每條數(shù)據(jù)平均包含2.1個(gè)句子、6.4個(gè)元組和3.5個(gè)條件關(guān)系;
AG News中的數(shù)據(jù)具有完整的語(yǔ)法結(jié)構(gòu),長(zhǎng)度較長(zhǎng),語(yǔ)言嚴(yán)謹(jǐn),代詞、口語(yǔ)、習(xí)語(yǔ)等較少。
AG News的文本數(shù)量足夠大,多樣性豐富。它包含12萬(wàn)條訓(xùn)練數(shù)據(jù)和7600條測(cè)試數(shù)據(jù),涉及World、Sports、Business、 和Sci/Tech四個(gè)類(lèi)別。
我們標(biāo)注的數(shù)據(jù)集追求信息的完整性和元組的原子性。完整性的意思是標(biāo)注者應(yīng)該嘗試從句子中提取所有斷言和條件,我們將原子性定義為每個(gè)元組必須是一個(gè)不可分割的單元。只要有可能,標(biāo)注者必須從帶有連詞的句子中提取多個(gè)原子元組。
我們通過(guò)兩輪標(biāo)注最終得到了人工標(biāo)注的通用領(lǐng)域條件性知識(shí)圖譜數(shù)據(jù)集。本數(shù)據(jù)集源自于AG News文本分類(lèi)語(yǔ)料,包含四個(gè)類(lèi)別,2440 條數(shù)據(jù),每條數(shù)據(jù)都是人工標(biāo)注的條件知識(shí)圖譜。
4.結(jié)語(yǔ)
為了建模條件信息,我們提出了一個(gè)具有三層網(wǎng)絡(luò)結(jié)構(gòu)的條件性知識(shí)圖譜,并且為社區(qū)貢獻(xiàn)了一個(gè)人工標(biāo)注的通用領(lǐng)域大規(guī)模條件性知識(shí)圖譜。
編輯:jq
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25305 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7941
原文標(biāo)題:賽爾筆記 | 通用領(lǐng)域條件性知識(shí)圖譜數(shù)據(jù)集
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
CMOS超大規(guī)模集成電路制造工藝流程的基礎(chǔ)知識(shí)

三維高斯?jié)姙R大規(guī)模視覺(jué)SLAM系統(tǒng)解析

薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊 skyworksinc

輕輕松松學(xué)電工(識(shí)圖篇)
5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級(jí)封裝 skyworksinc

電路識(shí)圖從入門(mén)到精通高清電子資料
AgiBot World Colosseo:構(gòu)建通用機(jī)器人智能的規(guī)模化數(shù)據(jù)平臺(tái)

傳音旗下人工智能項(xiàng)目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)

三星自主研發(fā)知識(shí)圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗(yàn)與數(shù)據(jù)安全
通用汽車(chē)中國(guó)裁員并籌劃大規(guī)模業(yè)務(wù)改革
萬(wàn)里紅入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》8個(gè)細(xì)分領(lǐng)域

三星電子將收購(gòu)英國(guó)知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)
知識(shí)圖譜與大模型之間的關(guān)系
Al大模型機(jī)器人
40億,今年芯片領(lǐng)域最大規(guī)模融資誕生

評(píng)論