怎么写网络小说,玄幻小说排行榜,完美世界辰东小说下载

摘要：2018年4月阿里巴巴業(yè)務(wù)平臺事業(yè)部——知識圖譜團(tuán)隊聯(lián)合清華大學(xué)、浙江大學(xué)、中科院自動化所、中科院軟件所、蘇州大學(xué)等五家機(jī)構(gòu)，聯(lián)合發(fā)布藏經(jīng)閣（知識引擎）研究計劃。藏經(jīng)閣計劃依賴阿里強(qiáng)大的計算能力（例如Igraph圖數(shù)據(jù)庫），和先進(jìn)的機(jī)器學(xué)習(xí)算法（例如PAI平臺）。計劃發(fā)布一年以來，阿里知識圖譜團(tuán)隊有哪些技術(shù)突破？今天一起來了解。

背景

藏經(jīng)閣計劃發(fā)布一年以來，我們對知識引擎技術(shù)進(jìn)行了重新定義，將其定義成五大技術(shù)模塊：知識獲取、知識建模、知識推理、知識融合、知識服務(wù)，并將其開發(fā)落地。

其中知識建模的任務(wù)是定義通用/特定領(lǐng)域知識描述的概念、事件、規(guī)則及其相互關(guān)系的知識表示方法，建立通用/特定領(lǐng)域知識圖譜的概念模型；知識獲取是對知識建模定義的知識要素進(jìn)行實(shí)例化的獲取過程，將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化為圖譜里的知識；而知識融合是對異構(gòu)和碎片化知識進(jìn)行語義集成的過程，通過發(fā)現(xiàn)碎片化以及異構(gòu)知識之間的關(guān)聯(lián)，獲得更完整的知識描述和知識之間的關(guān)聯(lián)關(guān)系，實(shí)現(xiàn)知識互補(bǔ)和融合；知識推理是根據(jù)知識圖譜提供知識計算和推理模型，發(fā)現(xiàn)知識圖譜中的相關(guān)知識和隱含知識的過程。知識服務(wù)則是通過構(gòu)建好的知識圖譜提供以知識為核心的知識智能服務(wù)，提升應(yīng)用系統(tǒng)的智能化服務(wù)能力。

圖1 藏經(jīng)閣-知識引擎產(chǎn)品

經(jīng)過一年的工作，在知識建模模塊我們開發(fā)了Ontology自動搭建、屬性自動發(fā)現(xiàn)等算法，搭建了知識圖譜Ontology構(gòu)建的工具；在知識獲取模塊我們研發(fā)了新實(shí)體識別、緊湊型事件識別，關(guān)系抽取等算法，達(dá)到了業(yè)界最高水平；在知識融合模塊，我們設(shè)計了實(shí)體對齊和屬性對齊的深度學(xué)習(xí)算法，使之可以在不同知識庫上達(dá)到更好的擴(kuò)展性，大大豐富了知識圖譜里的知識；在知識推理模塊，我們提出了基于Charac ter Embedding的知識圖譜表示學(xué)習(xí)模型CharTransE、可解釋的知識圖譜學(xué)習(xí)表示模型XTransE，并開發(fā)出了強(qiáng)大的推理引擎。

基于上面的這些技術(shù)模塊，我們開發(fā)了通用的知識引擎產(chǎn)品，目前已經(jīng)在全阿里經(jīng)濟(jì)體的淘寶、天貓、盒馬鮮生、飛豬、天貓精靈等幾十種產(chǎn)品上取得了成功應(yīng)用，每天有8000多萬次在線調(diào)用，日均離線輸出9億條知識。目前在知識引擎產(chǎn)品上，已經(jīng)構(gòu)建成功并運(yùn)行著商品、旅游、新制造等5個垂直領(lǐng)域圖譜的服務(wù)。

圖2 知識引擎四個層次圖示

在每個模塊的構(gòu)建過程中，我們陸續(xù)攻克了一系列的技術(shù)問題。本文將選取其中的兩項工作來介紹給大家：

1、在眾包數(shù)據(jù)上進(jìn)行對抗學(xué)習(xí)的命名實(shí)體識別方法

知識獲取模塊包含實(shí)體識別、實(shí)體鏈接、新實(shí)體發(fā)現(xiàn)、關(guān)系抽取、事件挖掘等基本任務(wù)，而實(shí)體識別（NER）又是其中最核心的任務(wù)。

目前學(xué)術(shù)界最好的命名實(shí)體識別算法主要是基于有監(jiān)督學(xué)習(xí)的。構(gòu)建高性能NER系統(tǒng)的關(guān)鍵是獲取高質(zhì)量標(biāo)注語料。但是高質(zhì)量標(biāo)注數(shù)據(jù)通常需要專家進(jìn)行標(biāo)注，代價高并且速度較慢，因此目前工業(yè)界比較流行的方案是依賴眾包來標(biāo)注數(shù)據(jù)，但是由于眾包人員素質(zhì)參差不齊，對問題理解也千差萬別，所以用其訓(xùn)練的算法效果會受到影響?；诖藛栴}，我們提出了針對眾包標(biāo)注數(shù)據(jù)，設(shè)計對抗網(wǎng)絡(luò)來學(xué)習(xí)眾包標(biāo)注員之間的共性，消除噪音，提高中文NER的性能的方法。

這項工作的具體網(wǎng)絡(luò)框架如圖3所示：

圖3基于對抗網(wǎng)絡(luò)的實(shí)體識別模型

標(biāo)注員ID：對于各個標(biāo)注員ID信息，我們使用一個Looking-up表，表內(nèi)存儲著每個WorkerID的向量表示。向量的初始值通過隨機(jī)數(shù)進(jìn)行初始化。在模型訓(xùn)練過程中，ID向量的所有數(shù)值作為模型的參數(shù)，在迭代過程中隨同其他參數(shù)一起優(yōu)化。在訓(xùn)練時每個標(biāo)注樣例的標(biāo)注員，我們直接通過查表獲取對應(yīng)的ID向量表示。在測試時，由于缺乏標(biāo)注員信息，我們使用所有向量的平均值作為ID向量輸入。

對抗學(xué)習(xí)（WorkerAdversarial）：眾包數(shù)據(jù)作為訓(xùn)練語料，存在一定數(shù)量的標(biāo)注錯誤，即“噪音”。這些標(biāo)注不當(dāng)或標(biāo)注錯誤都是由標(biāo)注員帶來的。不同標(biāo)注員對于規(guī)范的理解和背景認(rèn)識是不同的。對抗學(xué)習(xí)的各LSTM模塊如下：

私有信息的LSTM稱為“private”，它的學(xué)習(xí)目標(biāo)是擬合各位標(biāo)注員的獨(dú)立分布；而共有信息的LSTM稱為“common”，它的輸入是句子，它的作用是學(xué)習(xí)標(biāo)注結(jié)果之間的共有特征，

。

標(biāo)注信息的LSTM稱為“l(fā)abel”，以訓(xùn)練樣例的標(biāo)注結(jié)果序列為輸入，

。

再通過標(biāo)注員分類器把label和common的LSTM特征合并，輸入給CNN層進(jìn)行特征組合提取，最終對標(biāo)注員進(jìn)行分類。要注意的是，我們希望標(biāo)注員分類器最終失去判斷能力，也就是學(xué)習(xí)到特征對標(biāo)注員沒有區(qū)分能力，也就是共性特征。所以在訓(xùn)練參數(shù)優(yōu)化時，它要反向更新。

在實(shí)際的實(shí)體識別任務(wù)中，我們把common和private的LSTM特征和標(biāo)注員ID向量合并，作為實(shí)體標(biāo)注部分的輸入，最后用CRF層解碼完成標(biāo)注任務(wù)。

實(shí)驗結(jié)果如圖4所示，我們的算法在商品Title和用戶搜索Query的兩個數(shù)據(jù)集上均取得最好的性能：

圖4基于對抗網(wǎng)絡(luò)的實(shí)體識別模型實(shí)驗結(jié)果

2、基于規(guī)則與graph embedding迭代學(xué)習(xí)的知識圖譜推理算法

知識圖譜推理計算是補(bǔ)充和校驗圖譜關(guān)系及屬性的必不可少的技術(shù)手段。規(guī)則和嵌入（Embedding）是兩種不同的知識圖譜推理的方式，并各有優(yōu)劣，規(guī)則本身精確且人可理解，但大部分規(guī)則學(xué)習(xí)方法在大規(guī)模知識圖譜上面臨效率問題，而嵌入（Embedding）表示本身具有很強(qiáng)的特征捕捉能力，也能夠應(yīng)用到大規(guī)模復(fù)雜的知識圖譜上，但好的嵌入表示依賴于訓(xùn)練信息的豐富程度，所以對稀疏的實(shí)體很難學(xué)到很好的嵌入表示。我們提出了一種迭代學(xué)習(xí)規(guī)則和嵌入的思路，在這項工作中我們利用表示學(xué)習(xí)來學(xué)習(xí)規(guī)則，并利用規(guī)則對稀疏的實(shí)體進(jìn)行潛在三元組的預(yù)測，并將預(yù)測的三元組添加到嵌入表示的學(xué)習(xí)過程中，然后不斷進(jìn)行迭代學(xué)習(xí)。工作的整體框架如圖5所示：

圖5基于對抗網(wǎng)絡(luò)的實(shí)體識別模型實(shí)驗結(jié)果

嵌入學(xué)習(xí)優(yōu)化的目標(biāo)函數(shù)是：

其中：

lsro表示三元組的標(biāo)記，表示三元組的評分函數(shù)，vs表示圖譜三元組中主語(subject)的映射，Mr表示圖譜中兩個實(shí)體間關(guān)系的映射，vo表示圖譜三元組中賓語(object)的映射。

基于學(xué)習(xí)到的規(guī)則（axiom），就可以進(jìn)行推理執(zhí)行了。通過一種迭代策略，先使用嵌入（Embedding）的方法從圖譜中學(xué)習(xí)到規(guī)則，再將規(guī)則推理執(zhí)行，將新增的關(guān)系再加入到圖譜中，通過這種不斷學(xué)習(xí)迭代的算法，能夠?qū)D譜中的關(guān)系預(yù)測做的越來越準(zhǔn)。最終我們的算法取得了非常優(yōu)秀的性能：

除了上述兩項工作以外，在知識引擎技術(shù)的研發(fā)上我們還有一系列的前沿工作，取得了領(lǐng)先業(yè)界的效果，研究成果發(fā)表在AAAI、WWW、EMNLP、WSDM等會議上。

之后阿里巴巴知識圖譜團(tuán)隊會持續(xù)推進(jìn)藏經(jīng)閣計劃，構(gòu)建通用可遷移的知識圖譜算法，并將知識圖譜里的數(shù)據(jù)輸出到阿里巴巴內(nèi)外部的各項應(yīng)用之中，為這些應(yīng)用插上AI的翅膀，成為阿里巴巴經(jīng)濟(jì)體乃至全社會的基礎(chǔ)設(shè)施。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

云計算

云計算

+關(guān)注

關(guān)注
39

文章
7972

瀏覽量
139443
阿里巴巴

阿里巴巴

+關(guān)注

關(guān)注
7

文章
1637

瀏覽量
48109

原文標(biāo)題：藏經(jīng)閣計劃發(fā)布一年，阿里知識引擎有哪些技術(shù)突破？

文章出處：【微信號：AItists，微信公眾號：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

藏經(jīng)閣計劃發(fā)布一年以來,阿里知識圖譜團(tuán)隊有哪些技術(shù)突破?

評論