在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

藏經(jīng)閣計劃發(fā)布一年以來,阿里知識圖譜團(tuán)隊有哪些技術(shù)突破?

mK5P_AItists ? 來源:YXQ ? 2019-04-17 09:31 ? 次閱讀

摘要:2018年4月阿里巴巴業(yè)務(wù)平臺事業(yè)部——知識圖譜團(tuán)隊聯(lián)合清華大學(xué)、浙江大學(xué)、中科院自動化所、中科院軟件所、蘇州大學(xué)等五家機(jī)構(gòu),聯(lián)合發(fā)布藏經(jīng)閣(知識引擎)研究計劃。藏經(jīng)閣計劃依賴阿里強(qiáng)大的計算能力(例如Igraph圖數(shù)據(jù)庫),和先進(jìn)的機(jī)器學(xué)習(xí)算法(例如PAI平臺)。計劃發(fā)布一年以來,阿里知識圖譜團(tuán)隊有哪些技術(shù)突破?今天一起來了解。

背景

藏經(jīng)閣計劃發(fā)布一年以來,我們對知識引擎技術(shù)進(jìn)行了重新定義,將其定義成五大技術(shù)模塊:知識獲取、知識建模、知識推理、知識融合、知識服務(wù),并將其開發(fā)落地。

其中知識建模的任務(wù)是定義通用/特定領(lǐng)域知識描述的概念、事件、規(guī)則及其相互關(guān)系的知識表示方法,建立通用/特定領(lǐng)域知識圖譜的概念模型;知識獲取是對知識建模定義的知識要素進(jìn)行實(shí)例化的獲取過程,將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化為圖譜里的知識;而知識融合是對異構(gòu)和碎片化知識進(jìn)行語義集成的過程,通過發(fā)現(xiàn)碎片化以及異構(gòu)知識之間的關(guān)聯(lián),獲得更完整的知識描述和知識之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)知識互補(bǔ)和融合;知識推理是根據(jù)知識圖譜提供知識計算和推理模型,發(fā)現(xiàn)知識圖譜中的相關(guān)知識和隱含知識的過程。知識服務(wù)則是通過構(gòu)建好的知識圖譜提供以知識為核心的知識智能服務(wù),提升應(yīng)用系統(tǒng)的智能化服務(wù)能力。

圖1 藏經(jīng)閣-知識引擎產(chǎn)品

經(jīng)過一年的工作,在知識建模模塊我們開發(fā)了Ontology自動搭建、屬性自動發(fā)現(xiàn)等算法,搭建了知識圖譜Ontology構(gòu)建的工具;在知識獲取模塊我們研發(fā)了新實(shí)體識別、緊湊型事件識別,關(guān)系抽取等算法,達(dá)到了業(yè)界最高水平;在知識融合模塊,我們設(shè)計了實(shí)體對齊和屬性對齊的深度學(xué)習(xí)算法,使之可以在不同知識庫上達(dá)到更好的擴(kuò)展性,大大豐富了知識圖譜里的知識;在知識推理模塊,我們提出了基于Character Embedding的知識圖譜表示學(xué)習(xí)模型CharTransE、可解釋的知識圖譜學(xué)習(xí)表示模型XTransE,并開發(fā)出了強(qiáng)大的推理引擎。

基于上面的這些技術(shù)模塊,我們開發(fā)了通用的知識引擎產(chǎn)品,目前已經(jīng)在全阿里經(jīng)濟(jì)體的淘寶、天貓、盒馬鮮生、飛豬、天貓精靈等幾十種產(chǎn)品上取得了成功應(yīng)用,每天有8000多萬次在線調(diào)用,日均離線輸出9億條知識。目前在知識引擎產(chǎn)品上,已經(jīng)構(gòu)建成功并運(yùn)行著商品、旅游、新制造等5個垂直領(lǐng)域圖譜的服務(wù)。

圖2 知識引擎四個層次圖示

在每個模塊的構(gòu)建過程中,我們陸續(xù)攻克了一系列的技術(shù)問題。本文將選取其中的兩項工作來介紹給大家:

1、在眾包數(shù)據(jù)上進(jìn)行對抗學(xué)習(xí)的命名實(shí)體識別方法

知識獲取模塊包含實(shí)體識別、實(shí)體鏈接、新實(shí)體發(fā)現(xiàn)、關(guān)系抽取、事件挖掘等基本任務(wù),而實(shí)體識別(NER)又是其中最核心的任務(wù)。

目前學(xué)術(shù)界最好的命名實(shí)體識別算法主要是基于有監(jiān)督學(xué)習(xí)的。構(gòu)建高性能NER系統(tǒng)的關(guān)鍵是獲取高質(zhì)量標(biāo)注語料。但是高質(zhì)量標(biāo)注數(shù)據(jù)通常需要專家進(jìn)行標(biāo)注,代價高并且速度較慢,因此目前工業(yè)界比較流行的方案是依賴眾包來標(biāo)注數(shù)據(jù),但是由于眾包人員素質(zhì)參差不齊,對問題理解也千差萬別,所以用其訓(xùn)練的算法效果會受到影響?;诖藛栴},我們提出了針對眾包標(biāo)注數(shù)據(jù),設(shè)計對抗網(wǎng)絡(luò)來學(xué)習(xí)眾包標(biāo)注員之間的共性,消除噪音,提高中文NER的性能的方法。

這項工作的具體網(wǎng)絡(luò)框架如圖3所示:

圖3基于對抗網(wǎng)絡(luò)的實(shí)體識別模型

標(biāo)注員ID:對于各個標(biāo)注員ID信息,我們使用一個Looking-up表,表內(nèi)存儲著每個WorkerID的向量表示。向量的初始值通過隨機(jī)數(shù)進(jìn)行初始化。在模型訓(xùn)練過程中,ID向量的所有數(shù)值作為模型的參數(shù),在迭代過程中隨同其他參數(shù)一起優(yōu)化。在訓(xùn)練時每個標(biāo)注樣例的標(biāo)注員,我們直接通過查表獲取對應(yīng)的ID向量表示。在測試時,由于缺乏標(biāo)注員信息,我們使用所有向量的平均值作為ID向量輸入。

對抗學(xué)習(xí)(WorkerAdversarial):眾包數(shù)據(jù)作為訓(xùn)練語料,存在一定數(shù)量的標(biāo)注錯誤,即“噪音”。這些標(biāo)注不當(dāng)或標(biāo)注錯誤都是由標(biāo)注員帶來的。不同標(biāo)注員對于規(guī)范的理解和背景認(rèn)識是不同的。對抗學(xué)習(xí)的各LSTM模塊如下:

私有信息的LSTM稱為“private”,它的學(xué)習(xí)目標(biāo)是擬合各位標(biāo)注員的獨(dú)立分布;而共有信息的LSTM稱為“common”,它的輸入是句子,它的作用是學(xué)習(xí)標(biāo)注結(jié)果之間的共有特征,

標(biāo)注信息的LSTM稱為“l(fā)abel”,以訓(xùn)練樣例的標(biāo)注結(jié)果序列為輸入,

。

再通過標(biāo)注員分類器把label和common的LSTM特征合并,輸入給CNN層進(jìn)行特征組合提取,最終對標(biāo)注員進(jìn)行分類。要注意的是,我們希望標(biāo)注員分類器最終失去判斷能力,也就是學(xué)習(xí)到特征對標(biāo)注員沒有區(qū)分能力,也就是共性特征。所以在訓(xùn)練參數(shù)優(yōu)化時,它要反向更新。

在實(shí)際的實(shí)體識別任務(wù)中,我們把common和private的LSTM特征和標(biāo)注員ID向量合并,作為實(shí)體標(biāo)注部分的輸入,最后用CRF層解碼完成標(biāo)注任務(wù)。

實(shí)驗結(jié)果如圖4所示,我們的算法在商品Title和用戶搜索Query的兩個數(shù)據(jù)集上均取得最好的性能:

圖4基于對抗網(wǎng)絡(luò)的實(shí)體識別模型實(shí)驗結(jié)果

2、基于規(guī)則與graph embedding迭代學(xué)習(xí)的知識圖譜推理算法

知識圖譜推理計算是補(bǔ)充和校驗圖譜關(guān)系及屬性的必不可少的技術(shù)手段。規(guī)則和嵌入(Embedding)是兩種不同的知識圖譜推理的方式,并各有優(yōu)劣,規(guī)則本身精確且人可理解,但大部分規(guī)則學(xué)習(xí)方法在大規(guī)模知識圖譜上面臨效率問題,而嵌入(Embedding)表示本身具有很強(qiáng)的特征捕捉能力,也能夠應(yīng)用到大規(guī)模復(fù)雜的知識圖譜上,但好的嵌入表示依賴于訓(xùn)練信息的豐富程度,所以對稀疏的實(shí)體很難學(xué)到很好的嵌入表示。我們提出了一種迭代學(xué)習(xí)規(guī)則和嵌入的思路,在這項工作中我們利用表示學(xué)習(xí)來學(xué)習(xí)規(guī)則,并利用規(guī)則對稀疏的實(shí)體進(jìn)行潛在三元組的預(yù)測,并將預(yù)測的三元組添加到嵌入表示的學(xué)習(xí)過程中,然后不斷進(jìn)行迭代學(xué)習(xí)。工作的整體框架如圖5所示:

圖5基于對抗網(wǎng)絡(luò)的實(shí)體識別模型實(shí)驗結(jié)果

嵌入學(xué)習(xí)優(yōu)化的目標(biāo)函數(shù)是:

其中:

lsro表示三元組的標(biāo)記,表示三元組的評分函數(shù),vs表示圖譜三元組中主語(subject)的映射,Mr表示圖譜中兩個實(shí)體間關(guān)系的映射,vo表示圖譜三元組中賓語(object)的映射。

基于學(xué)習(xí)到的規(guī)則(axiom),就可以進(jìn)行推理執(zhí)行了。通過一種迭代策略,先使用嵌入(Embedding)的方法從圖譜中學(xué)習(xí)到規(guī)則,再將規(guī)則推理執(zhí)行,將新增的關(guān)系再加入到圖譜中,通過這種不斷學(xué)習(xí)迭代的算法,能夠?qū)D譜中的關(guān)系預(yù)測做的越來越準(zhǔn)。最終我們的算法取得了非常優(yōu)秀的性能:

除了上述兩項工作以外,在知識引擎技術(shù)的研發(fā)上我們還有一系列的前沿工作,取得了領(lǐng)先業(yè)界的效果,研究成果發(fā)表在AAAI、WWW、EMNLP、WSDM等會議上。

之后阿里巴巴知識圖譜團(tuán)隊會持續(xù)推進(jìn)藏經(jīng)閣計劃,構(gòu)建通用可遷移的知識圖譜算法,并將知識圖譜里的數(shù)據(jù)輸出到阿里巴巴內(nèi)外部的各項應(yīng)用之中,為這些應(yīng)用插上AI的翅膀,成為阿里巴巴經(jīng)濟(jì)體乃至全社會的基礎(chǔ)設(shè)施。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關(guān)注

    關(guān)注

    39

    文章

    7972

    瀏覽量

    139443
  • 阿里巴巴
    +關(guān)注

    關(guān)注

    7

    文章

    1637

    瀏覽量

    48109

原文標(biāo)題:藏經(jīng)閣計劃發(fā)布一年,阿里知識引擎有哪些技術(shù)突破?

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    輕輕松松學(xué)電工(識圖篇)

    內(nèi)容介紹 結(jié)合廣大電工人員的實(shí)際需要,主要介紹了常用電工電路識圖的基礎(chǔ)知識、方法及技巧,內(nèi)容包括常用電氣符號、電工識圖基本方法,以及識讀供配電系統(tǒng)圖、建筑電氣圖、電力拖動系統(tǒng)電氣圖、PLC梯形圖
    發(fā)表于 04-30 17:18

    典型電路原理、電路識圖從入門到精通等資料

    1、電路識圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎(chǔ)知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識、典型單元電路的
    的頭像 發(fā)表于 04-15 15:53 ?4812次閱讀
    典型電路原理、電路<b class='flag-5'>識圖</b>從入門到精通等資料

    每周推薦!電子工程師必學(xué)!典型電路原理、電路識圖從入門到精通等資料

    1、 電路識圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎(chǔ)知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識、典型單元電路的
    發(fā)表于 04-11 15:17

    電路識圖從入門到精通高清電子資料

    、彩色電視機(jī)等電器的電路圖識圖技巧。 純分享貼,需要可以直接下載附件獲取完整資料! (如果內(nèi)容幫助可以關(guān)注、點(diǎn)贊、評論支持下哦~)
    發(fā)表于 04-10 16:22

    淵亭KGAG升級引入“高級策略推理”

    為了突破現(xiàn)有AI技術(shù)在決策推理方面的局限,淵亭科技對其知識圖譜分析平臺KGAG進(jìn)行了最新升級,創(chuàng)新性地引入了“高級策略推理”模式。這模式的引入,實(shí)現(xiàn)了“大模型×
    的頭像 發(fā)表于 02-14 15:07 ?481次閱讀

    新的一年 RISC-V前景如何呢?

    1 月 7 日消息,RISC-V 領(lǐng)軍企業(yè) SiFive 成立中國分公司,中文名稱定為“芯伍科技”。 1 月 14 日消息,專注傳統(tǒng)與 AI 業(yè)務(wù),Imagination 放棄 RISC-V CPU 開發(fā)。 新的一年,RISC-V前景如何呢?
    發(fā)表于 01-24 16:19

    傳音旗下人工智能項目榮獲2024“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”等獎

    和華東師范大學(xué)聯(lián)合申報的“跨語言知識圖譜構(gòu)建與推理技術(shù)研究及應(yīng)用”項目憑借創(chuàng)新性和技術(shù)先進(jìn)性榮獲等獎。該項目成功突破了多形態(tài)信息抽取
    的頭像 發(fā)表于 12-16 17:04 ?618次閱讀
    傳音旗下人工智能項目榮獲2024<b class='flag-5'>年</b>“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”<b class='flag-5'>一</b>等獎

    傳音旗下小語種AI技術(shù)榮獲2024“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”等獎

    和華東師范大學(xué)聯(lián)合申報的“跨語言知識圖譜構(gòu)建與推理技術(shù)研究及應(yīng)用”項目憑借創(chuàng)新性和技術(shù)先進(jìn)性榮獲等獎。 該項目成功突破了多形態(tài)信息抽取
    的頭像 發(fā)表于 12-16 16:21 ?762次閱讀
    傳音旗下小語種AI<b class='flag-5'>技術(shù)</b>榮獲2024<b class='flag-5'>年</b>“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”<b class='flag-5'>一</b>等獎

    三星自主研發(fā)知識圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗與數(shù)據(jù)安全

    據(jù)外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術(shù),旨在進(jìn)步優(yōu)化Galaxy AI的功能,提升其易用性,并加強(qiáng)用戶數(shù)據(jù)的隱私保護(hù)。
    的頭像 發(fā)表于 11-07 15:19 ?1305次閱讀

    易智瑞榮獲“信息技術(shù)應(yīng)用創(chuàng)新工作委員會技術(shù)活動單位”

    易智瑞公司以創(chuàng)新作為企業(yè)發(fā)展的內(nèi)核,技術(shù)上的每突破,都將賦予產(chǎn)品符合當(dāng)下市場需求和技術(shù)環(huán)境下的特定能力。在202411月5-6日召開的
    的頭像 發(fā)表于 10-11 10:41 ?712次閱讀
    易智瑞榮獲“信息<b class='flag-5'>技術(shù)</b>應(yīng)用創(chuàng)新工作委員會<b class='flag-5'>技術(shù)</b>活動單位”

    星閃技術(shù)已經(jīng)發(fā)布一年多了,應(yīng)用何去何從?

    星閃技術(shù)已經(jīng)發(fā)布一年多了,想必大家也都有關(guān)注,大家觀察觀察身邊所經(jīng)歷的項目及其他無線應(yīng)用場景,來說說星閃技術(shù)應(yīng)用都有哪些落腳點(diǎn)。咱們踴躍討論發(fā)言
    發(fā)表于 09-13 09:46

    記錄次RPC服務(wù)有損上線的分析過程

    1. 問題背景 某應(yīng)用在啟動完提供JSF服務(wù)后,短時間內(nèi)出現(xiàn)了大量的空指針異常。 分析日志,發(fā)現(xiàn)是服務(wù)依賴的藏經(jīng)閣配置數(shù)據(jù)未加載完成導(dǎo)致。即所謂的 有損上線 或者是 直接發(fā)布 , 當(dāng) 應(yīng)用啟動時
    的頭像 發(fā)表于 07-30 09:58 ?443次閱讀
    記錄<b class='flag-5'>一</b>次RPC服務(wù)有損上線的分析過程

    三星電子成功收購英國初創(chuàng)公司,致力開發(fā)AI核心技術(shù)

    7月18日,三星電子正式對外宣布了項重要戰(zhàn)略舉措——成功收購英國新興科技企業(yè)Oxford Semantic Technologies。這家初創(chuàng)公司成立于2017,專注于前沿的知識圖譜技術(shù)
    的頭像 發(fā)表于 07-18 15:40 ?796次閱讀

    三星電子將收購英國知識圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對英國領(lǐng)先的人工智能(AI)與知識圖譜技術(shù)初創(chuàng)企業(yè)Oxford Seman
    的頭像 發(fā)表于 07-18 14:46 ?727次閱讀

    知識圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識圖譜與大模型是兩個至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢和應(yīng)用場景,同時又相互補(bǔ)充,共同推動著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?1971次閱讀
    主站蜘蛛池模板: 91大神在线精品网址 | 琪琪see色原在线20 | 男女吃奶一进一出动态图 | 在线永久免费观看黄网站 | 1024手机最新手机在线 | 日本黄色站 | 国模吧| 人人澡人人澡碰人人看软件 | 色多多网站在线观看 | 80s国产成年女人毛片 | 夜夜澡人人爽人人喊_欧美 夜夜综合网 | 亚洲网站在线看 | 伊人久久精品成人网 | 在线成人看片 | 大喷水吹潮magnet | 成人窝窝午夜看片 | 久久久国产乱子伦精品 | 国产亚洲婷婷香蕉久久精品 | 操女人免费视频 | 欧美另类图片亚洲偷 | 免费观看黄a一级视频 | www.伊人网| 视频一区二区在线 | 亚洲久优优色优在线播放 | 亚洲午夜网站 | 免费日韩三级 | 天天精品视频在线观看资源 | 海外毛片| 色综合五月婷婷 | 亚洲区一二三四区2021 | 亚洲成综合人影院在院播放 | 亚洲精品成人a在线观看 | 国产做a爰片久久毛片 | 波多野结衣一级毛片 | 亚洲欧美日韩综合一区 | 久久久综合视频 | 手机看片福利盒子久久青 | 免费看一级片 | jizjizjizjiz日本护士出水 | 午夜在线观看完整高清免费 | 激情综合婷婷 |