在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

領(lǐng)域知識(shí)圖譜落地實(shí)踐中的問(wèn)題與對(duì)策

電子工程師 ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-08-07 08:21 ? 次閱讀

本報(bào)告結(jié)合復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室十多個(gè)領(lǐng)域知識(shí)圖譜落地項(xiàng)目實(shí)踐,嘗試對(duì)這些問(wèn)題進(jìn)行初步解答,梳理這些問(wèn)題背后的關(guān)鍵科學(xué)問(wèn)題,總結(jié)領(lǐng)域知識(shí)圖譜技術(shù)落地的最佳實(shí)踐,以期為各行業(yè)的知識(shí)圖譜落地實(shí)踐提供參考。

下文根據(jù)肖仰華教授近期所作報(bào)告《領(lǐng)域知識(shí)圖譜落地實(shí)踐中的問(wèn)題與對(duì)策》整理而成,并經(jīng)肖仰華教授親自審核。

隨著近幾年知識(shí)圖譜技術(shù)的進(jìn)步,知識(shí)圖譜研究與落地發(fā)生了一些轉(zhuǎn)向。其中一個(gè)重要變化就是越來(lái)越多的研究與落地工作從通用知識(shí)圖譜轉(zhuǎn)向了領(lǐng)域或行業(yè)知識(shí)圖譜,轉(zhuǎn)向了企業(yè)知識(shí)圖譜。知識(shí)圖譜技術(shù)與各行業(yè)的深度融合已經(jīng)成為一個(gè)重要趨勢(shì)。

在這一過(guò)程當(dāng)中,涌現(xiàn)出一系列理論與技術(shù)問(wèn)題。例如:知識(shí)圖譜技術(shù)到底能夠解決怎樣的行業(yè)痛點(diǎn)問(wèn)題?知識(shí)圖譜技術(shù)與各行業(yè)融合的具體路徑是怎樣的?領(lǐng)域知識(shí)圖譜與通用知識(shí)圖譜的聯(lián)系與區(qū)別是什么?領(lǐng)域知識(shí)圖譜落地過(guò)程當(dāng)中的關(guān)鍵科學(xué)技術(shù)問(wèn)題是什么?

這一系列問(wèn)題的剖析與回答是進(jìn)一步推動(dòng)知識(shí)圖譜技術(shù)落地實(shí)踐、生根開(kāi)花的關(guān)鍵所在。本次報(bào)告主要結(jié)合復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室在十多個(gè)行業(yè)的領(lǐng)域知識(shí)圖譜實(shí)踐經(jīng)歷,對(duì)領(lǐng)域知識(shí)圖譜落地實(shí)踐中的關(guān)鍵問(wèn)題以及主要對(duì)策做個(gè)初步解答。

報(bào)告思路很簡(jiǎn)單,是一問(wèn)一答的形式。這里列出的問(wèn)題是各個(gè)行業(yè)普遍關(guān)心的代表性的關(guān)鍵問(wèn)題。

首先回答什么是領(lǐng)域知識(shí)圖譜?領(lǐng)域知識(shí)圖譜(Domain-specific Knowledge Graph: DKG)的概念是從通用知識(shí)圖譜(General-purpose Knowledge Graph: GKG)演化而來(lái),所以我們首先闡述什么是知識(shí)圖譜(knowledge graph)。

在回答什么是知識(shí)圖譜這個(gè)問(wèn)題上有個(gè)非常有意思的現(xiàn)象,一直以來(lái),工業(yè)界和學(xué)術(shù)界都沒(méi)有對(duì)于知識(shí)圖譜給出一個(gè)嚴(yán)格的定義。如果大家去搜維基百科,會(huì)看到維基百科說(shuō)知識(shí)圖譜是Google的一種知識(shí)表示。然而,一個(gè)相對(duì)嚴(yán)格的定義是必要的,我給出的定義是“大規(guī)模語(yǔ)義網(wǎng)絡(luò)”。

理解這個(gè)定義有兩個(gè)要點(diǎn)。第一個(gè)是語(yǔ)義網(wǎng)絡(luò),語(yǔ)義網(wǎng)絡(luò)包含的是實(shí)體、概念以及實(shí)體和概念之間各種各樣的語(yǔ)義關(guān)系。比如C羅是一個(gè)足球運(yùn)動(dòng)員,是一個(gè)實(shí)體,金球獎(jiǎng)也是一個(gè)實(shí)體。

何為實(shí)體?黑格爾在《小邏輯》里面曾經(jīng)給實(shí)體下過(guò)一個(gè)定義:“能夠獨(dú)立存在的,作為一切屬性的基礎(chǔ)和萬(wàn)物本原的東西”。也就是說(shuō)實(shí)體是屬性賴(lài)以存在的基礎(chǔ),必須是自在的,也就是獨(dú)立的、不依附于其他東西而存在的。比如身高,單單說(shuō)身高是沒(méi)有意義的,說(shuō)“運(yùn)動(dòng)員”這個(gè)類(lèi)別的身高也是沒(méi)有意義的,必須說(shuō)某個(gè)人的身高,才是有明確所指,有意義的。理解何為實(shí)體,對(duì)于進(jìn)一步理解屬性、概念是十分必要的。

再來(lái)看概念(concept),概念又稱(chēng)之為類(lèi)別(type)、類(lèi)(category)等。比如“運(yùn)動(dòng)員”,不是指某一個(gè)運(yùn)動(dòng)員,而是指一類(lèi)人,這就是一個(gè)概念。語(yǔ)義網(wǎng)絡(luò)中的關(guān)聯(lián)都是語(yǔ)義關(guān)聯(lián),這些語(yǔ)義關(guān)聯(lián)發(fā)生在實(shí)體之間、概念之間或者實(shí)體與概念之間。

實(shí)體與概念之間是instanceOf(實(shí)例)關(guān)系,比如“C羅”是“運(yùn)動(dòng)員”的一個(gè)實(shí)例。概念之間是subclassOf(子類(lèi))關(guān)系,比如“足球運(yùn)動(dòng)員”是“運(yùn)動(dòng)員”的一個(gè)子類(lèi)。實(shí)體與實(shí)體之間的關(guān)系十分多樣,比如“C羅”效力于“皇家馬德里球隊(duì)”。

理解知識(shí)圖譜的第二個(gè)要點(diǎn)是大規(guī)模。除了語(yǔ)義網(wǎng)絡(luò)之外,上個(gè)世紀(jì)伴隨著專(zhuān)家系統(tǒng)的研制而發(fā)展出了類(lèi)別多樣的知識(shí)表示形式,比如產(chǎn)生式規(guī)則、本體、框架,還有決策樹(shù)、貝葉斯網(wǎng)絡(luò)、馬爾可夫邏輯網(wǎng)絡(luò)等。

這些知識(shí)表示表達(dá)了現(xiàn)實(shí)世界各種復(fù)雜語(yǔ)義。知識(shí)表示多種多樣,語(yǔ)義網(wǎng)絡(luò)只是各種知識(shí)表示中的一種而已。既然上世紀(jì)七八十年代有如此多的知識(shí)表示,而且知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò),為什么今天還要提知識(shí)圖譜?那是因?yàn)橹R(shí)圖譜與傳統(tǒng)七八十年代的知識(shí)表示有一個(gè)根本的差別,那就是在規(guī)模上的差別。知識(shí)圖譜是一個(gè)大規(guī)模語(yǔ)義網(wǎng)絡(luò),而七八十年代的語(yǔ)義網(wǎng)絡(luò)是個(gè)典型的小知識(shí)(small knowledge)。

知識(shí)圖譜的規(guī)模巨大,像Google knowledge graph在2012年發(fā)布之初就有5億多的實(shí)體,10億多的關(guān)系,如今規(guī)模更大。知識(shí)圖譜的規(guī)模之所以如此巨大,是因?yàn)樗鼜?qiáng)調(diào)對(duì)于實(shí)體的覆蓋。比如說(shuō)運(yùn)動(dòng)員作為一個(gè)類(lèi)別在知識(shí)圖譜里涵蓋了數(shù)以萬(wàn)計(jì)諸如C羅這樣的實(shí)體。知識(shí)圖譜的規(guī)模效應(yīng)帶來(lái)了效用方面的質(zhì)變。知識(shí)圖譜是典型的大數(shù)據(jù)時(shí)代產(chǎn)物。關(guān)于這些觀點(diǎn)的詳細(xì)描述參考本人的《知識(shí)圖譜與認(rèn)知智能》,在此不再贅述。

那什么是領(lǐng)域知識(shí)圖譜呢?比如“足球知識(shí)圖譜”,里面大多都是跟足球相關(guān)的實(shí)體和概念。如果知識(shí)圖譜聚焦在特定領(lǐng)域,就可以認(rèn)為是領(lǐng)域知識(shí)圖譜。領(lǐng)域知識(shí)圖譜的范疇再大一些就是行業(yè)知識(shí)圖譜了,比如農(nóng)業(yè)知識(shí)圖譜。

近幾年一些大型企業(yè)對(duì)于利用知識(shí)圖譜解決企業(yè)自身的問(wèn)題十分感興趣,于是就有了橫貫企業(yè)各核心流程的企業(yè)知識(shí)圖譜。領(lǐng)域知識(shí)圖譜、行業(yè)知識(shí)圖譜與企業(yè)知識(shí)圖譜有時(shí)邊界也十分模糊。近幾年,這幾類(lèi)知識(shí)圖譜得到越來(lái)越多的關(guān)注。

在理解領(lǐng)域知識(shí)圖譜時(shí),我想指出一個(gè)非常重要的觀點(diǎn),我稱(chēng)之為“NoKG”,也就是Not only KG。這里是借鑒“NoSQL”的說(shuō)法。首先,知識(shí)圖譜只是知識(shí)表示的一種,單單知識(shí)圖譜不足以表達(dá)現(xiàn)實(shí)世界的豐富語(yǔ)義,不足以解決所有問(wèn)題。比如很多領(lǐng)域有著豐富的if-then規(guī)則(比如故障維修、計(jì)算機(jī)系統(tǒng)配置),這些規(guī)則利用知識(shí)圖譜表達(dá)就很牽強(qiáng),特別是對(duì)于if A and B then C 這樣的規(guī)則。

條件部分的原子表達(dá)式之間的關(guān)系可以很復(fù)雜,利用知識(shí)圖譜難以表達(dá)。知識(shí)表示方面的缺陷限制了知識(shí)圖譜解決問(wèn)題的范圍。其次,知識(shí)圖譜輔以其他知識(shí)表示則有可能解決很多復(fù)雜的實(shí)際問(wèn)題。作為一種語(yǔ)義網(wǎng)絡(luò),知識(shí)圖譜在大數(shù)據(jù)的賦能下就已經(jīng)能夠解決很多實(shí)際問(wèn)題。

可以設(shè)想一下,還有更多的知識(shí)表示沒(méi)有突破規(guī)模瓶頸。在大數(shù)據(jù)的賦能下,其他類(lèi)型的知識(shí)表示也將能夠解決更多實(shí)際的問(wèn)題。越來(lái)越多的領(lǐng)域應(yīng)用需要的知識(shí)已經(jīng)突破了知識(shí)圖譜的范圍,對(duì)其他知識(shí)(比如產(chǎn)生式規(guī)則、貝葉斯網(wǎng)絡(luò)、決策樹(shù)等)提出了訴求。比如,我們正在嘗試聯(lián)合使用知識(shí)圖譜與產(chǎn)生式規(guī)則實(shí)現(xiàn)面向故障診斷的精準(zhǔn)語(yǔ)義檢索。

NoKG的另一層含義在于領(lǐng)域應(yīng)用不僅需要靜態(tài)知識(shí),更需要?jiǎng)討B(tài)知識(shí)。知識(shí)圖譜側(cè)重于表達(dá)實(shí)體、概念之間的語(yǔ)義關(guān)聯(lián),這些語(yǔ)義關(guān)聯(lián)大多是靜態(tài)的、顯性的、客觀的、明確的。而實(shí)際應(yīng)用中對(duì)過(guò)程性、決策性知識(shí)是有著大量需求的,這些知識(shí)大部分是動(dòng)態(tài)的、隱形的、帶有一定主觀性的,比如疾病診斷、投資決策、司法解釋等等。

這些應(yīng)用需要把決策的因素、機(jī)制與過(guò)程加以表達(dá)。動(dòng)態(tài)知識(shí)的沉淀對(duì)于很多行業(yè)來(lái)說(shuō)是強(qiáng)需求。隨著我國(guó)人口紅利消失,人力成本持續(xù)提高,特別是富有經(jīng)驗(yàn)的領(lǐng)域?qū)<页杀驹郊痈甙骸_@些人員一旦流失,會(huì)給企業(yè)造成巨大損失。為此,企業(yè)特別需要將領(lǐng)域?qū)<掖竽X中的決策知識(shí)加以沉淀,賦予機(jī)器,從而一定程度上降低對(duì)專(zhuān)家的依賴(lài)。

但是,動(dòng)態(tài)知識(shí)的表達(dá)與獲取仍然是個(gè)具有重大挑戰(zhàn)的技術(shù)問(wèn)題。很多決策過(guò)程難以明確表達(dá),很多決策因素是隱性的。比如老中醫(yī)看病,中醫(yī)智能化一直希望將有經(jīng)驗(yàn)的老中醫(yī)的看病經(jīng)驗(yàn)沉淀下來(lái)。但是老中醫(yī)自己也未必說(shuō)得清楚是根據(jù)什么看病的。雖然中醫(yī)也有樸素的理論在支撐其診斷,但總體而言整個(gè)過(guò)程是模糊的。在傳統(tǒng)知識(shí)管理領(lǐng)域曾經(jīng)設(shè)計(jì)出很多激勵(lì)制度以促進(jìn)企業(yè)內(nèi)的知識(shí)表達(dá)與沉淀,但是阻力重重,收效甚微。

關(guān)鍵問(wèn)題在于工程師、分析師、醫(yī)生等等領(lǐng)域?qū)<易约阂膊恢廊绾伪磉_(dá)。傳統(tǒng)知識(shí)工程通過(guò)專(zhuān)業(yè)的知識(shí)工程師協(xié)助領(lǐng)域?qū)<疫M(jìn)行知識(shí)獲取,但總體上的代價(jià)太大,過(guò)程太重,不易成功。動(dòng)態(tài)過(guò)程的知識(shí)表達(dá)已經(jīng)困難重重,知識(shí)獲取就更加雪上加霜了。

曾有人設(shè)想獲取金牌投資經(jīng)理投資決策的知識(shí),嘗試為投資經(jīng)理提供新聞閱讀工具,通過(guò)其點(diǎn)擊行為把握其所關(guān)注新聞,甚至通過(guò)眼球跟蹤捕捉其關(guān)注的文章片段,以期精準(zhǔn)捕捉其決策要素。知識(shí)獲取之困難可見(jiàn)一斑。但是知識(shí)表示及獲取的重心將逐步過(guò)渡到動(dòng)態(tài)知識(shí)是必然趨勢(shì),也是擺在研究人員面前的攻關(guān)戰(zhàn)。

現(xiàn)在回答第二個(gè)問(wèn)題,DKG(領(lǐng)域知識(shí)圖譜)和GKG(通用知識(shí)圖譜)的關(guān)系和區(qū)別。首先來(lái)看GKG和DKG的區(qū)別。兩者之間的區(qū)別是明顯的,體現(xiàn)在知識(shí)表示、知識(shí)獲取和知識(shí)應(yīng)用三個(gè)層面。在知識(shí)表示層面的差別可以從廣度、深度和粒度這三個(gè)維度加以考察。從廣度來(lái)看,GKG涵蓋的范圍明顯大于DKG。

從深度來(lái)看,DKG通常更深,尤其體現(xiàn)在概念圖譜的層級(jí)體系上。比如,在娛樂(lè)領(lǐng)域,追星族們可能很關(guān)心“內(nèi)地鼻子長(zhǎng)得帥的男明星”,在電商領(lǐng)域單單“連衣裙”不足以滿(mǎn)足人們的購(gòu)物需求,電商圖譜中往往要涵蓋“韓版夏裝連衣裙”這樣的細(xì)分品類(lèi)。

如何表達(dá)與處理這些較深層次的概念對(duì)于很多領(lǐng)域知識(shí)圖譜應(yīng)用而言是個(gè)巨大挑戰(zhàn)。需要指出的是層次較深的細(xì)粒度概念往往不是基本概念(basic concept)。這意味著不同人對(duì)這些深層次概念有著不同的認(rèn)知體驗(yàn)的,因而會(huì)有較大的主觀分歧。這就是很多人工構(gòu)建的概念層級(jí)深到一定層次就很難繼續(xù)下去的重要原因。此時(shí),數(shù)據(jù)驅(qū)動(dòng)的自下而上的自動(dòng)化方法往往比較適合。

第三個(gè)維度是知識(shí)表示的粒度,DKG通常涵蓋細(xì)粒度的知識(shí)。知識(shí)表示是有粒度的,知識(shí)的基本單元可以是一個(gè)文檔,也可以是文章中的段落、法律中的條款、教育資源中的知識(shí)點(diǎn)等等。傳統(tǒng)知識(shí)管理往往以文檔為單位組織企業(yè)知識(shí)資源。

在司法智能中的司法解釋往往需要將知識(shí)粒度控制在條款級(jí)別。在教育智能化領(lǐng)域,學(xué)科的知識(shí)點(diǎn)往往是個(gè)合適的粒度,以知識(shí)點(diǎn)為中心組織教學(xué)素材和資源是個(gè)可行的思路。知識(shí)表示的粒度也可以細(xì)化到知識(shí)圖譜中的實(shí)體與屬性級(jí)別,或者是邏輯規(guī)則中的條件與結(jié)果。比如法律條款可以進(jìn)一步細(xì)化到由條件與結(jié)果構(gòu)成的產(chǎn)生式規(guī)則,數(shù)學(xué)中的很多定理也可以進(jìn)一步細(xì)化為相關(guān)的公理系統(tǒng)(一組產(chǎn)生式規(guī)則)。

既然知識(shí)表示的粒度是可控的,我們應(yīng)該如何控制呢?很多場(chǎng)景下知識(shí)表示的粒度是個(gè)需要仔細(xì)斟酌的問(wèn)題。一般而言,粒度越細(xì)表達(dá)能力越強(qiáng),但是其表達(dá)與獲取代價(jià)也越大。細(xì)粒度知識(shí)表示一般是領(lǐng)域應(yīng)用的強(qiáng)需求之一。比如在知識(shí)管理領(lǐng)域,粒度粗放已經(jīng)成為阻礙企業(yè)知識(shí)管理發(fā)展的根本問(wèn)題。傳統(tǒng)知識(shí)搜索只能搜索到文檔級(jí)別,如果不幸這個(gè)文檔含有1000頁(yè)內(nèi)容,則會(huì)給用戶(hù)帶來(lái)巨大麻煩。

但是,凡事過(guò)猶不及,太細(xì)粒度的知識(shí)表示也往往會(huì)給知識(shí)獲取帶來(lái)巨大的復(fù)雜性。合理控制知識(shí)表示的粒度,不盲目求精求細(xì),是知識(shí)庫(kù)技術(shù)落地成功的關(guān)鍵思路之一。很多落地實(shí)踐中過(guò)早地陷入細(xì)粒度知識(shí)獲取的泥潭當(dāng)中,消耗巨大但收效甚微。但事實(shí)上細(xì)粒度的知識(shí)表示在很多場(chǎng)景下也是不必要的。因此,在實(shí)踐中建議緊扣應(yīng)用需求,從應(yīng)用出發(fā)反推需要怎樣粒度的知識(shí)表示。

在知識(shí)獲取層面,DKG對(duì)質(zhì)量往往有著極為苛刻的要求。因?yàn)楹芏囝I(lǐng)域應(yīng)用場(chǎng)景是極為嚴(yán)肅的(也就是mission critical 的AI應(yīng)用)。比如醫(yī)療,某個(gè)藥物有哪些禁忌癥,這類(lèi)知識(shí)是不能出錯(cuò)的。

對(duì)質(zhì)量的苛刻要求自然就意味著領(lǐng)域知識(shí)圖譜構(gòu)建過(guò)程中專(zhuān)家參與的程度相對(duì)較高。需要指出的是,專(zhuān)家的積極干預(yù)并不意味著盲目的手動(dòng)構(gòu)建。如何應(yīng)用好人力資源,包括哪些環(huán)節(jié)讓人參與以及專(zhuān)家參與的具體方式等問(wèn)題一直以來(lái)就是領(lǐng)域知識(shí)圖譜落地的關(guān)鍵問(wèn)題。在眾包計(jì)算中有不少方法值得借鑒。但是對(duì)于有著依賴(lài)專(zhuān)家經(jīng)驗(yàn)的歷史傳統(tǒng)而言,如何盡可能降低人力資源的成本是個(gè)值得深入研究的問(wèn)題。

一般而言,我們期望構(gòu)建過(guò)程盡可能自動(dòng)化;但是由于對(duì)目標(biāo)圖譜有著苛刻的質(zhì)量要求,最終的知識(shí)驗(yàn)證過(guò)程還是要訴諸人力。較多的人工干預(yù)自然決定了領(lǐng)域知識(shí)圖譜落地過(guò)程自動(dòng)化程度相對(duì)較低。相比較而言,通用知識(shí)圖譜構(gòu)建一定要高度自動(dòng)化,因?yàn)橥ㄓ弥R(shí)圖譜規(guī)模太大(動(dòng)輒數(shù)千萬(wàn)的實(shí)體,數(shù)億的關(guān)系),如果沒(méi)有自動(dòng)化的辦法,根本無(wú)法推進(jìn),除非存在有效的大規(guī)模眾包化手段,比如知識(shí)類(lèi)互動(dòng)游戲等。

在知識(shí)應(yīng)用層面,首先,領(lǐng)域知識(shí)圖譜的推理鏈條往往相對(duì)較長(zhǎng)。原因有兩個(gè)方面。一是領(lǐng)域知識(shí)圖譜相對(duì)密集。比如某個(gè)疾病在通用知識(shí)庫(kù)中相關(guān)實(shí)體可能寥寥無(wú)幾,但是在一個(gè)醫(yī)療知識(shí)圖譜中相關(guān)實(shí)體可能數(shù)以百計(jì)。知識(shí)庫(kù)建設(shè)有一個(gè)有意思的現(xiàn)象那就是永遠(yuǎn)不要指望知識(shí)庫(kù)是完備的。完備是知識(shí)庫(kù)建設(shè)永遠(yuǎn)在追求但卻無(wú)法企及的目標(biāo)。

但是,DKG相對(duì)于GKG在單個(gè)實(shí)體的相關(guān)知識(shí)覆蓋面有著明顯優(yōu)勢(shì)。也正是基于此,領(lǐng)域知識(shí)圖譜上的推理鏈條可以較長(zhǎng)。在一個(gè)相對(duì)稠密的領(lǐng)域知識(shí)圖譜上長(zhǎng)距離推理之后的結(jié)果仍然還可能是個(gè)有意義的結(jié)果。但是在通用知識(shí)圖譜上,由于其相對(duì)稀疏,多步推理之后語(yǔ)義漂移(semantic drift)嚴(yán)重,其推理結(jié)果很容易“面目全非”、“離題千里”,令人難以理解了。

所以在GKG之上的推理操作大都是基于上下文的一到兩步的推理。比如搜索“劉德華”,可以推薦他的歌曲,那是因?yàn)橹R(shí)圖譜告知我們劉德華是一個(gè)歌星,主要作品是歌曲,這是兩步的推理鏈條。

其次,領(lǐng)域知識(shí)圖譜上的計(jì)算操作也相對(duì)復(fù)雜一些。像之前提到的深度推理就是一種復(fù)雜的應(yīng)用。此外,領(lǐng)域應(yīng)用往往會(huì)涉及復(fù)雜查詢(xún)。比如在公共安全領(lǐng)域,對(duì)于重點(diǎn)監(jiān)控人群,通常需要在相關(guān)圖譜中查詢(xún)?cè)撊巳盒纬傻某砻茏訄D。諸如此類(lèi)的復(fù)雜計(jì)算和操作,在領(lǐng)域知識(shí)圖譜中并不罕見(jiàn)。相反,通用知識(shí)圖譜的查詢(xún)多為一到兩步的鄰居查詢(xún),相對(duì)簡(jiǎn)單。

現(xiàn)在來(lái)看聯(lián)系,通用知識(shí)圖譜與領(lǐng)域知識(shí)圖譜關(guān)系是十分密切的,根本原因是人類(lèi)的知識(shí)體系是有結(jié)構(gòu)的。我個(gè)人認(rèn)為人類(lèi)的知識(shí)體系呈現(xiàn)出倒三角形的結(jié)構(gòu)。三角結(jié)構(gòu)越是接近底層的部分越是最為基本的、形式簡(jiǎn)單的知識(shí);越往上層知識(shí)越為抽象、越加多樣,也越加細(xì)分、專(zhuān)業(yè)性越強(qiáng)。

在個(gè)人成長(zhǎng)的早期階段,人類(lèi)通過(guò)自身身體與世界的交互習(xí)得了最為基本的常識(shí),特別是關(guān)于時(shí)間、空間、因果的基本常識(shí)。我們知道時(shí)間是在流逝的、我們知道空間是有一定位置關(guān)系的、我們明白有因必有果。這些都是最為基本的常識(shí)。這些常識(shí)是構(gòu)建認(rèn)知體系的基礎(chǔ)。

在此基礎(chǔ)上,通過(guò)“隱喻”或者“類(lèi)比”(美國(guó)的侯世達(dá)教授甚至認(rèn)為類(lèi)比是智能的本質(zhì),見(jiàn)其《哥德?tīng)?、艾舍爾、巴赫》一?shū)),人類(lèi)發(fā)展出更為高層的知識(shí),包括對(duì)于世界的知識(shí)(比如我們知道太陽(yáng)從東邊升起,人是要呼吸的等等)、簡(jiǎn)單關(guān)聯(lián)事實(shí)(比如下雨了,地面會(huì)潮濕)。

基于這些簡(jiǎn)單知識(shí),再通過(guò)隱喻和類(lèi)比,進(jìn)一步形成特定領(lǐng)域的知識(shí)。很多領(lǐng)域知識(shí)本質(zhì)上是通過(guò)隱喻從基本知識(shí)發(fā)展而來(lái)的。比如人們關(guān)于社會(huì)地位的認(rèn)識(shí),某個(gè)人社會(huì)地位較高實(shí)際上是從空間上的高低隱喻而來(lái)的。說(shuō)某個(gè)人很積極、很激進(jìn),實(shí)際上是從時(shí)間的先后隱喻而來(lái)的。

最近還有一個(gè)例子,將各種芯片與人體的各器官相類(lèi)比:做人工智能的芯片就好比在做大腦,做通用芯片就好比在做血管,做計(jì)算芯片就好比在做心臟,這都是典型的隱喻。所以很多領(lǐng)域知識(shí)都是從人類(lèi)的基本常識(shí)和世界知識(shí)通過(guò)隱喻發(fā)展而來(lái)的。因此,領(lǐng)域知識(shí)和通用知識(shí)之間存在著千絲萬(wàn)縷的聯(lián)系。理解自然語(yǔ)言中的隱喻現(xiàn)象也一直是自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。

DKG與GKG的另一個(gè)聯(lián)系在于行業(yè)應(yīng)用對(duì)于領(lǐng)域知識(shí)的需求難以閉合。也就是說(shuō),很多行業(yè)應(yīng)用看上去好像只需要領(lǐng)域知識(shí),但是實(shí)際應(yīng)用過(guò)程中往往會(huì)超出領(lǐng)域所預(yù)先設(shè)定的知識(shí)邊界。

比如在金融知識(shí)圖譜落地過(guò)程中,本以為涵蓋公司、法人、機(jī)構(gòu)、產(chǎn)品等就足夠了。但是實(shí)際應(yīng)用過(guò)程中我們發(fā)現(xiàn)這些類(lèi)型的知識(shí)還遠(yuǎn)遠(yuǎn)不夠。比如基于金融知識(shí)圖譜的關(guān)聯(lián)分析往往會(huì)牽扯出幾乎萬(wàn)事萬(wàn)物。比如說(shuō)諸如龍卷風(fēng)的氣候?yàn)?zāi)害,會(huì)使得農(nóng)作物產(chǎn)量下降,農(nóng)業(yè)機(jī)械的出貨量因而就會(huì)下降,農(nóng)機(jī)的發(fā)動(dòng)機(jī)產(chǎn)量也就相應(yīng)要下降,從事農(nóng)機(jī)發(fā)動(dòng)機(jī)關(guān)鍵部件生產(chǎn)的公司業(yè)績(jī)就會(huì)下降,相關(guān)公司的股票可能就會(huì)下跌。這個(gè)例子形象地說(shuō)明幾乎一切事物在某種意義下都是跟金融有關(guān)系。

事實(shí)上,一切實(shí)體都身處在一個(gè)復(fù)雜的因果網(wǎng)絡(luò)中,世界是普遍關(guān)聯(lián)的。這就導(dǎo)致沿著任何一個(gè)實(shí)體開(kāi)展關(guān)聯(lián)分析都極為容易超出預(yù)先設(shè)定的知識(shí)邊界。因此,行業(yè)應(yīng)用中的知識(shí)需求難以封閉于領(lǐng)域知識(shí)的邊界范圍內(nèi)。換言之,越為封閉的應(yīng)用場(chǎng)景,機(jī)器越容易取得成功。

所謂封閉是指一個(gè)有限的知識(shí)子集足以支撐應(yīng)用需求。比如,AlphaGo的成功很大程度上得益于圍棋游戲規(guī)則有限,整個(gè)游戲過(guò)程不會(huì)用到下棋規(guī)則之外的知識(shí)。但對(duì)于星際爭(zhēng)霸之類(lèi)的游戲,機(jī)器取得優(yōu)異成績(jī)就顯得較為困難。因?yàn)檫@類(lèi)策略性游戲所用到的知識(shí)類(lèi)型多樣,不僅需要有關(guān)排兵布陣、武器應(yīng)用、戰(zhàn)場(chǎng)環(huán)境等相關(guān)知識(shí),還可能涉及很多與社會(huì)及文化相關(guān)的知識(shí)。智能客服等領(lǐng)域的成功也一定程度上歸功于客服知識(shí)的相對(duì)封閉。

所以,領(lǐng)域應(yīng)用所涉及的知識(shí)體系越是封閉,越容易成功。這是在很多領(lǐng)域知識(shí)圖譜落地過(guò)程中選擇應(yīng)用試點(diǎn)時(shí),應(yīng)該遵循的一個(gè)基本原則。

延續(xù)上面的分析,進(jìn)一步可以回答業(yè)界十分關(guān)心的一個(gè)問(wèn)題:知識(shí)圖譜在什么樣的應(yīng)用中易于成功?知識(shí)圖譜落地應(yīng)用往往遵循一個(gè)循序漸進(jìn)的推進(jìn)過(guò)程。因此,很多行業(yè)都希望選取特定場(chǎng)景先行試點(diǎn),那么選擇什么樣的場(chǎng)景進(jìn)行優(yōu)先驗(yàn)證呢?知識(shí)圖譜只是整個(gè)智能化技術(shù)的手段之一。

知識(shí)圖譜不能解決行業(yè)的所有問(wèn)題,那么,某個(gè)特定的行業(yè)應(yīng)用到底能否受益于知識(shí)圖譜技術(shù)?這些都是知識(shí)圖譜的行業(yè)應(yīng)用亟需回答的問(wèn)題。

我根據(jù)前兩頁(yè)內(nèi)容中觀點(diǎn),給出幾個(gè)選擇依據(jù)。第一、領(lǐng)域知識(shí)相對(duì)封閉。已經(jīng)闡明,越是封閉的領(lǐng)域越容易成功。第二、簡(jiǎn)單知識(shí)與簡(jiǎn)單應(yīng)用。何為簡(jiǎn)單知識(shí)?關(guān)于知識(shí)復(fù)雜性的評(píng)估實(shí)際上是個(gè)非常復(fù)雜的問(wèn)題。知識(shí)復(fù)雜性的內(nèi)在機(jī)理和評(píng)測(cè)機(jī)制是個(gè)十分有趣的科學(xué)問(wèn)題。從操作層面來(lái)看,可以從特定人群學(xué)習(xí)某類(lèi)知識(shí)所需要時(shí)間來(lái)評(píng)估。假設(shè)我們只考慮完成了基礎(chǔ)教育(比如中國(guó)的九年制基礎(chǔ)教育)的人群。對(duì)于不同知識(shí),這一人群學(xué)習(xí)周期不一。

比如,很顯然對(duì)于某個(gè)企業(yè)的客服知識(shí),幾乎一周簡(jiǎn)單培訓(xùn)就可以上崗。但是對(duì)于治病的知識(shí),即便一個(gè)醫(yī)學(xué)院學(xué)生可能也要十多年才能掌握。所以,大部分對(duì)于人而言簡(jiǎn)單崗位培訓(xùn)就能勝任的工作,也往往適用于機(jī)器,是有可能優(yōu)先被機(jī)器所代替的。還有些應(yīng)用場(chǎng)景屬于知識(shí)的簡(jiǎn)單應(yīng)用,比如同樣是在醫(yī)療領(lǐng)域,醫(yī)院的導(dǎo)診崗位,就屬于醫(yī)學(xué)知識(shí)的簡(jiǎn)單應(yīng)用。只需要根據(jù)癥狀進(jìn)行簡(jiǎn)單的分類(lèi),即便不夠精準(zhǔn),在具體科室醫(yī)生治療時(shí)還有進(jìn)一步糾正的機(jī)會(huì)。

第三、較少涉及常識(shí)。如果領(lǐng)域應(yīng)用所涉及的知識(shí)集中在人類(lèi)知識(shí)結(jié)構(gòu)的上層(也就是專(zhuān)業(yè)性較強(qiáng)的知識(shí)),較少涉及底層的常識(shí),則相對(duì)容易成功。其根本原因在于常識(shí)的獲取是異常困難的。人類(lèi)很容易理解常識(shí),但是對(duì)于機(jī)器而言常識(shí)理解卻十分困難。我們知道太陽(yáng)從東邊升起,人是兩條腿走路的,魚(yú)是在水里游的,而機(jī)器很難知道這些常識(shí)。因?yàn)槌WR(shí)是人類(lèi)在學(xué)齡前通過(guò)身體與世界的交互與體驗(yàn)積累而得。我們每個(gè)人都理解常識(shí),因而不用掛在嘴邊說(shuō)明,就能彼此理解。

因此,文本或者語(yǔ)料中對(duì)于常識(shí)鮮有提及,常識(shí)因而也就無(wú)從抽取。常識(shí)缺失也就成了知識(shí)庫(kù)、知識(shí)工程,乃至整個(gè)人工智能的痛點(diǎn)問(wèn)題。目前機(jī)器智能在常識(shí)理解方面仍然舉步維艱。因此,我認(rèn)為大量用到常識(shí)的應(yīng)用面臨巨大挑戰(zhàn)。比如說(shuō)有公司想做財(cái)務(wù)報(bào)銷(xiāo)方面的智能化,此類(lèi)場(chǎng)景就有可能涉及很多常識(shí)。比如半夜12點(diǎn)打出租車(chē),或者說(shuō)打出租車(chē)打了四五個(gè)小時(shí),又或者從美國(guó)飛到上海只飛了一個(gè)小時(shí),這都是有問(wèn)題的。這些問(wèn)題我們?nèi)祟?lèi)很容易識(shí)別,因?yàn)槎际浅WR(shí)問(wèn)題,但對(duì)機(jī)器而言就很困難。

還有一個(gè)非常典型的大量用到常識(shí)的場(chǎng)景就是刑偵智能化。公安人員在破案過(guò)程中用到大量常識(shí),嫌疑人往往是基于證據(jù)根據(jù)常識(shí)進(jìn)行推理而鎖定的,因此讓機(jī)器代替刑偵人員破案仍十分困難。

很多領(lǐng)域知識(shí)圖譜應(yīng)用的方案是建立在通用知識(shí)圖譜基礎(chǔ)之上的。GKG對(duì)于DKG有著重要的支撐作用。一方面,GKG可以給很多DKG提供高質(zhì)量的種子事實(shí)。這些種子事實(shí)可以用做樣本指導(dǎo)抽取模型的訓(xùn)練。

另一方面,GKG可以提供領(lǐng)域模式(Schema)。領(lǐng)域知識(shí)圖譜構(gòu)建時(shí)需要花費(fèi)巨大精力設(shè)計(jì)領(lǐng)域模式,比如為了構(gòu)建娛樂(lè)領(lǐng)域知識(shí)圖譜,必須首先明確描述歌手的屬性列表(有時(shí)又稱(chēng)作template)中應(yīng)該包括專(zhuān)輯、代表作、簽約公司等屬性。

雖然GKG對(duì)于特定領(lǐng)域的實(shí)體覆蓋率不高,但是通過(guò)聚合GKG中所有歌手信息,有關(guān)歌手的描述模板基本上已經(jīng)能夠滿(mǎn)足初步需要。后續(xù)只需要在初始模板基礎(chǔ)上逐步完善即可。能否充分利用通用知識(shí)圖譜對(duì)很多領(lǐng)域知識(shí)圖譜的構(gòu)建具有重要意義。這就是為什么很多團(tuán)隊(duì)不遺余力地做好通用知識(shí)圖譜(比如我們實(shí)驗(yàn)室的通用百科知識(shí)圖譜CN-DBpedia和通用概念圖譜CN-Probase)的重要原因。

領(lǐng)域圖譜建好之后又可以反哺通用知識(shí)圖譜。復(fù)旦知識(shí)工場(chǎng)實(shí)驗(yàn)室就是按照這個(gè)思路持續(xù)運(yùn)營(yíng)多年。我們先通過(guò)通用知識(shí)圖譜為各領(lǐng)域知識(shí)圖譜構(gòu)建提供大量的種子事實(shí),使得快速構(gòu)建很多領(lǐng)域知識(shí)圖譜成為可能。各領(lǐng)域知識(shí)圖譜做的很深很細(xì)之后,可以反過(guò)來(lái)補(bǔ)充通用知識(shí)圖譜。GKG與DKG這種互補(bǔ)形式的架構(gòu)在很多領(lǐng)域的知識(shí)圖譜落地中是個(gè)非常重要的架構(gòu)。

知識(shí)表示其實(shí)一直以來(lái)都有兩種基本的方式:符號(hào)化表示與數(shù)值型表示。兩者孰優(yōu)孰劣?各自的適用場(chǎng)景是怎樣的?一直是知識(shí)圖譜落地過(guò)程中常被問(wèn)及的問(wèn)題。第一種是符號(hào)化(Symbol)的表示,比如說(shuō)PPT左上角的小規(guī)模語(yǔ)義網(wǎng)絡(luò),表達(dá)了約翰給瑪麗一本書(shū)這樣的事實(shí)。這個(gè)例子中大量的使用了字符、箭頭等符號(hào)。顯然,符號(hào)表示形象直觀,易于我們理解。人是可以理解符號(hào)的,但是沒(méi)辦法理解向量。知識(shí)表示還有一種表示是數(shù)值化的分布式表示,它是面向機(jī)器的。機(jī)器是無(wú)法“理解”符號(hào)的,只能處理數(shù)值和向量。分布式表示是將符號(hào)知識(shí)集成到深度學(xué)習(xí)框架中的一種基本方式。符號(hào)化表示是一種顯性的表示,而分布式表示是一種隱性的表示。符號(hào)化表示易理解、可解釋?zhuān)植际奖硎臼请y解釋、難理解的。符號(hào)化表示的另一優(yōu)點(diǎn)在于推理能力。比如數(shù)學(xué)定理證明都是基于符號(hào)推理進(jìn)行的。雖然基于知識(shí)圖譜的分布式表示,也可以開(kāi)展一定程度上的推理,但是需要指出的是分布式推理已經(jīng)很大程度上丟失了知識(shí)圖譜原有的語(yǔ)義,分布式推理只能推理語(yǔ)義相關(guān)性,而無(wú)法明確是何種意義下的語(yǔ)義相關(guān)。我個(gè)人傾向于認(rèn)為分布式推理離實(shí)用還很遙遠(yuǎn)。如果非要為知識(shí)圖譜上的分布式推理找到應(yīng)用場(chǎng)景,那只能作為很多復(fù)雜任務(wù)的預(yù)處理步驟,將明顯語(yǔ)義不相關(guān)的元素加以剪枝,后續(xù)仍需要能夠充分利用符號(hào)語(yǔ)義的方法進(jìn)行精準(zhǔn)的語(yǔ)義推理。

不管是大數(shù)據(jù)時(shí)代還是人工智能時(shí)代,都需要領(lǐng)域知識(shí)圖譜。我曾在《知識(shí)圖譜與認(rèn)知智能》這一報(bào)告中詳細(xì)闡述過(guò)相關(guān)觀點(diǎn)。這里補(bǔ)充幾個(gè)觀點(diǎn)。首先,需要知識(shí)圖譜去構(gòu)建知識(shí)引擎,去釋放大數(shù)據(jù)的價(jià)值。很多行業(yè)和企業(yè)都有數(shù)據(jù),都有大數(shù)據(jù)。但是這些大數(shù)據(jù)非但沒(méi)有創(chuàng)造價(jià)值,反而成為了很多行業(yè)的負(fù)擔(dān)。阻礙大數(shù)據(jù)價(jià)值變現(xiàn)的根本原因在于缺少智能化的手段,更具體而言就是缺少一個(gè)能像人一樣能夠理解行業(yè)數(shù)據(jù)的知識(shí)引擎。

行業(yè)從業(yè)人員為什么能理解行業(yè)數(shù)據(jù)進(jìn)而開(kāi)展行業(yè)工作呢,那是因?yàn)樾袠I(yè)從業(yè)人員具有相應(yīng)的行業(yè)知識(shí)。如果把同樣的行業(yè)知識(shí)賦予機(jī)器,構(gòu)建一個(gè)行業(yè)知識(shí)引擎,那么機(jī)器也就可能代替人去理解、挖掘、分析、使用數(shù)據(jù),可以代替行業(yè)從業(yè)人員挖掘數(shù)據(jù)中的價(jià)值。

簡(jiǎn)言之,將行業(yè)知識(shí)賦予機(jī)器,讓機(jī)器代替行業(yè)從業(yè)人員從事簡(jiǎn)單知識(shí)工作,是當(dāng)下以及未來(lái)一段時(shí)間內(nèi)基于機(jī)器認(rèn)知智能的行業(yè)智能化的本質(zhì)。在行業(yè)智能化的實(shí)現(xiàn)進(jìn)程中,通過(guò)領(lǐng)域知識(shí)圖譜對(duì)數(shù)據(jù)進(jìn)行提煉、萃取、關(guān)聯(lián)、整合,形成行業(yè)知識(shí)或領(lǐng)域知識(shí),讓機(jī)器形成對(duì)于行業(yè)工作的認(rèn)知能力,從而實(shí)現(xiàn)一個(gè)行業(yè)知識(shí)引擎,實(shí)現(xiàn)知識(shí)工作自動(dòng)化,已經(jīng)成為了行業(yè)智能化日漸清晰的一條路徑。

伴隨著人工智能時(shí)代的到來(lái),“智能”機(jī)器無(wú)處不在,手表、手環(huán)、手機(jī)、音響、電視、機(jī)器人等等都已是隨處可見(jiàn)的“智能”實(shí)體,這些機(jī)器逐步走入人們的生活。但是現(xiàn)在機(jī)器普遍不具備人們所期望的智能,與人類(lèi)智能相比只能算是機(jī)器“智障”。機(jī)器“智障”的根本原因是這些機(jī)器沒(méi)有一個(gè)像人一樣聰慧的大腦。

事實(shí)上,機(jī)器最缺的是一個(gè)機(jī)器智腦。沒(méi)有這樣的智腦,機(jī)器只能是一具沒(méi)有“靈魂”的僵尸。人腦之所以能給人類(lèi)帶來(lái)智慧的根本原因在于人腦能夠存儲(chǔ)知識(shí)與利用知識(shí)。類(lèi)似地,機(jī)器智腦也需要有知識(shí)的充實(shí),才能夠形成真正意義上的機(jī)器智能。富含各類(lèi)知識(shí)的機(jī)器智腦,可以理解人類(lèi)的語(yǔ)言與行為,能夠理解我們所從事的行業(yè)工作,從而使得自然人機(jī)交互成為可能,使得人機(jī)協(xié)同混合智能成為可能。最終為機(jī)器融入人類(lèi)社會(huì)掃清障礙,促進(jìn)人機(jī)和諧共存。

從社會(huì)發(fā)展的角度來(lái)看,可以說(shuō)將領(lǐng)域知識(shí)賦予機(jī)器,將是進(jìn)一步提高機(jī)器生產(chǎn)力、釋放勞動(dòng)力資源、降低人力成本的重要技術(shù)。伴隨著我國(guó)人口紅利的逐步消失,各行業(yè)的人力成本普遍提高,各行業(yè)對(duì)于機(jī)器生產(chǎn)力的提升提出了普遍訴求。伴隨著工業(yè)4.0的推進(jìn)以及自動(dòng)化技術(shù)普及,傳統(tǒng)實(shí)體行業(yè)人的體力勞動(dòng)已經(jīng)逐步被解放。人力資源成本釋放的空間已經(jīng)逐步從體力勞動(dòng)轉(zhuǎn)向腦力勞動(dòng)。

當(dāng)下,人工智能技術(shù)給人力成本降低帶來(lái)的新機(jī)遇主要體現(xiàn)在用機(jī)器代替人的腦力勞動(dòng),特別是各行業(yè)的簡(jiǎn)單知識(shí)工作將逐步為機(jī)器所代替。機(jī)器的記憶幾乎是無(wú)窮無(wú)盡的,機(jī)器決策時(shí)可以同時(shí)考慮數(shù)百萬(wàn)變量,機(jī)器運(yùn)算的速度遠(yuǎn)超人類(lèi),所以一旦把行業(yè)知識(shí)賦予機(jī)器,就能實(shí)現(xiàn)高度自動(dòng)化的機(jī)器工作。在這一背景下,各行業(yè)都走上了智能化升級(jí)轉(zhuǎn)型的道路,而實(shí)現(xiàn)機(jī)器的認(rèn)知能力是智能化升級(jí)轉(zhuǎn)型的基本路徑。

以政府?dāng)?shù)據(jù)治理為例,在政府領(lǐng)域,由于歷史原因,政府各部門(mén)的信息系統(tǒng)的建設(shè)多是各自為陣,形成了大量的信息孤島,這就給政府?dāng)?shù)據(jù)價(jià)值發(fā)揮帶來(lái)了巨大障礙。這些障礙尤為集中地體現(xiàn)在政府?dāng)?shù)據(jù)治理與應(yīng)用方面,碎片化數(shù)據(jù)難以融合、數(shù)據(jù)共享開(kāi)放缺乏必要依據(jù)、政府決策仍然缺乏來(lái)自數(shù)據(jù)的有效支撐、政府?dāng)?shù)據(jù)的應(yīng)用模式相對(duì)單一。

但如果有了領(lǐng)域知識(shí)圖譜,就可以為數(shù)據(jù)融合提供元數(shù)據(jù),將政府?dāng)?shù)據(jù)融合從繁重的手工整合中解放出來(lái)。比如ID與身份證通常指代相同的字段,這樣的元數(shù)據(jù)可以自動(dòng)建立A數(shù)據(jù)庫(kù)中名為“ID”的字段與B數(shù)據(jù)庫(kù)中名為“身份證”字段的映射。政府在大力推進(jìn)政府?dāng)?shù)據(jù)共享和開(kāi)放過(guò)程中,必須確保數(shù)據(jù)安全。

比如個(gè)人隱私數(shù)據(jù)很敏感是不可以開(kāi)放的,當(dāng)前擬開(kāi)放的數(shù)據(jù)都要經(jīng)過(guò)人工的審慎判斷,耗時(shí)耗力。但事實(shí)上知識(shí)圖譜可以為政府?dāng)?shù)據(jù)開(kāi)放提供必要的背景知識(shí)。比如如果設(shè)定了個(gè)人信息是不能開(kāi)放的,那么個(gè)人的住址、出生日期等等都是不能開(kāi)放的,這可以通過(guò)背景知識(shí)庫(kù)自動(dòng)推斷得到。政府?dāng)?shù)據(jù)的決策和分析缺乏可解釋依據(jù),這些依據(jù)都可以從領(lǐng)域知識(shí)圖譜里去尋找。

當(dāng)前政府?dāng)?shù)據(jù)的應(yīng)用多是簡(jiǎn)單的檢索與分析,缺乏基于深度推理的智能應(yīng)用。而推理需要一個(gè)基本的載體,推理載體的天然選擇是知識(shí)圖譜。基于符號(hào)化的知識(shí)圖譜,可以開(kāi)展有效的深度推理。

領(lǐng)域知識(shí)圖譜系統(tǒng)的生命周期包含四個(gè)重要環(huán)節(jié):知識(shí)表示、知識(shí)獲取、知識(shí)管理與知識(shí)應(yīng)用。這四個(gè)環(huán)節(jié)循環(huán)迭代。知識(shí)應(yīng)用環(huán)節(jié)明確應(yīng)用場(chǎng)景,明確知識(shí)的應(yīng)用方式。

知識(shí)表示定義了領(lǐng)域的基本認(rèn)知框架,明確領(lǐng)域有哪些基本的概念,概念之間有哪些基本的語(yǔ)義關(guān)聯(lián)。比如企業(yè)家與企業(yè)之間的關(guān)系可以是創(chuàng)始人關(guān)系,這是認(rèn)知企業(yè)領(lǐng)域的基本知識(shí)。知識(shí)表示只提供機(jī)器認(rèn)知的基本骨架,還要通過(guò)知識(shí)獲取環(huán)節(jié)來(lái)充實(shí)大量知識(shí)實(shí)例。比如喬布斯是個(gè)企業(yè)家,蘋(píng)果公司是家企業(yè),喬布斯與蘋(píng)果公司就是“企業(yè)家-創(chuàng)始人-企業(yè)”這個(gè)關(guān)系的一個(gè)具體實(shí)例。知識(shí)實(shí)例獲取完成之后,就是知識(shí)管理。這個(gè)環(huán)節(jié)將知識(shí)加以存儲(chǔ)與索引,并為上層應(yīng)用提供高效的檢索與查詢(xún)方式,實(shí)現(xiàn)高效的知識(shí)訪(fǎng)問(wèn)。

四個(gè)環(huán)節(jié)環(huán)環(huán)相扣,彼此構(gòu)成相鄰環(huán)節(jié)的輸入與輸出。在知識(shí)的具體應(yīng)用過(guò)程中,會(huì)不斷得到用戶(hù)的反饋,這些反饋會(huì)對(duì)知識(shí)表示、獲取與管理提出新的要求,因此整個(gè)生命周期會(huì)不斷迭代持續(xù)演進(jìn)下去。

在整個(gè)生命周期中,我認(rèn)為最重要的是明確知識(shí)的應(yīng)用場(chǎng)景,也就是回答清楚一個(gè)問(wèn)題:利用領(lǐng)域知識(shí)解決怎樣的應(yīng)用問(wèn)題。再根據(jù)應(yīng)用來(lái)反推到底需要怎樣的知識(shí)表示,明確知識(shí)邊界。在當(dāng)下的很多知識(shí)圖譜應(yīng)用實(shí)踐中,有一個(gè)不好的苗頭就是“為了圖譜而圖譜”。雖然知識(shí)圖譜是當(dāng)下的熱點(diǎn)技術(shù),盡管每年各行業(yè)大量的信息化預(yù)算苦苦尋求好的落地項(xiàng)目,盡管資本界熱錢(qián)涌動(dòng)尋求好的投資標(biāo)的,但是不應(yīng)以知識(shí)圖譜為名,不應(yīng)盲目炒作知識(shí)圖譜技術(shù)。

知識(shí)圖譜技術(shù)是當(dāng)下熱點(diǎn)不假,但絕不是萬(wàn)能技術(shù)。它能解決的問(wèn)題是有限的,它的成功應(yīng)用有著苛刻的條件。需要謹(jǐn)慎選擇落地場(chǎng)景;需要客觀評(píng)估技術(shù)成熟度以及技術(shù)與應(yīng)用的適配程度;需要充分考慮資源與收益的平衡等一系列問(wèn)題。

為圖譜而圖譜,或者僅以圖譜為名而行悖圖譜之實(shí),對(duì)知識(shí)圖譜產(chǎn)業(yè)有百害而無(wú)一利。歷史上前車(chē)之鑒太多了。很多做AI的研究人員與公司,最終落得個(gè)“騙子”下場(chǎng)。歷史上的AI技術(shù)的演進(jìn)道路呈現(xiàn)出大起大落之勢(shì)。

這一系列現(xiàn)象歸根結(jié)底是因?yàn)槿藗儗?duì)于AI預(yù)期過(guò)高,盲目大規(guī)模上線(xiàn)很多知識(shí)工程項(xiàng)目,無(wú)視應(yīng)用場(chǎng)景而對(duì)知識(shí)庫(kù)盲目求大求全。殊不知人之所以偉大其實(shí)就在于任何一個(gè)普通人所掌握的知識(shí)都可以說(shuō)是無(wú)邊無(wú)界的。我們現(xiàn)在構(gòu)建的知識(shí)庫(kù)離機(jī)器達(dá)到普通人認(rèn)知世界所需要的水平還十分遙遠(yuǎn)。知識(shí)資源建設(shè)可以說(shuō)是永遠(yuǎn)在路上,沒(méi)有最好,只有更好。

所以,比較務(wù)實(shí)的作法是:謹(jǐn)慎選擇合適的應(yīng)用場(chǎng)景,構(gòu)建滿(mǎn)足場(chǎng)景需要的知識(shí)資源。這背后體現(xiàn)的也是典型的自下而上的建設(shè)思路。大而全、自上而下、運(yùn)動(dòng)式知識(shí)資源建設(shè)(這個(gè)經(jīng)常是國(guó)內(nèi)的典型方式),容易遇到難以逾越的技術(shù)瓶頸。一言以蔽之,知識(shí)資源建設(shè)的基本原則是適度。“適”是指對(duì)于特定應(yīng)用場(chǎng)景的適配,“度”是指合理把控知識(shí)的邊界與體量。

我們常用三元組表示領(lǐng)域知識(shí)圖譜。我想強(qiáng)調(diào)一點(diǎn),知識(shí)圖譜只能表達(dá)一些簡(jiǎn)單的關(guān)聯(lián)事實(shí),但很多領(lǐng)域應(yīng)用的需求已經(jīng)遠(yuǎn)遠(yuǎn)超出了三元組所能表達(dá)的簡(jiǎn)單關(guān)聯(lián)事實(shí),實(shí)際應(yīng)用日益對(duì)于利用更加多元的知識(shí)表示豐富和增強(qiáng)知識(shí)圖譜的語(yǔ)義表達(dá)能力提出了需求。

這一趨勢(shì)首先體現(xiàn)在對(duì)于時(shí)間和空間語(yǔ)義的拓展與表達(dá)方面。有很多知識(shí)和事實(shí)是有時(shí)間和空間條件的,比如說(shuō)“美國(guó)總統(tǒng)是特朗普”這個(gè)事實(shí)的成立是有時(shí)間條件的,十年前美國(guó)的總統(tǒng)不是特朗普,十年之后應(yīng)該也不大可能是特朗普。還有很多事實(shí)是有空間條件的,比如“早餐是燒餅與油條”這件事,在中國(guó)是這樣,但是在西方并非如此,西方的早餐可能是咖啡、面包。

從時(shí)空維度拓展知識(shí)表示對(duì)很多特定領(lǐng)域具有較強(qiáng)的現(xiàn)實(shí)意義。比如在位置相關(guān)的應(yīng)用中,如何將POI(Point of Interest)與該P(yáng)OI相關(guān)實(shí)體加以關(guān)聯(lián),成為當(dāng)下拓展POI語(yǔ)義表示的重要任務(wù)之一。比如將“邯鄲路220號(hào)”(復(fù)旦大學(xué)地址)關(guān)聯(lián)到“復(fù)旦大學(xué)”是十分有意義的。在互聯(lián)網(wǎng)娛樂(lè)領(lǐng)域,粉絲們往往不僅僅關(guān)心某個(gè)明星的妻子是誰(shuí),可能更關(guān)心明星的前任妻子、前任女友等信息,這些應(yīng)用都對(duì)事實(shí)成立的時(shí)間提出了需求。

第二、增強(qiáng)知識(shí)圖譜的跨媒體語(yǔ)義表示。當(dāng)前的知識(shí)圖譜主要以文本為主,但是實(shí)際應(yīng)用需要有關(guān)某個(gè)實(shí)體的各種媒體表示方式,包括聲音、圖片、視頻等等。比如對(duì)于實(shí)體“Tesla Model S”,我們需要將其關(guān)聯(lián)到相應(yīng)圖片和視頻。知識(shí)圖譜時(shí)空維度拓展在物理實(shí)現(xiàn)上可以通過(guò)定義四元組或者五元組加以實(shí)現(xiàn)??缑襟w表示可以通過(guò)定義相關(guān)的屬性加以實(shí)現(xiàn)。

知識(shí)圖譜的語(yǔ)義增強(qiáng)總體上而言將是未來(lái)一段時(shí)間知識(shí)表示的重要任務(wù)。知識(shí)圖譜作為語(yǔ)義網(wǎng)絡(luò),側(cè)重于表達(dá)實(shí)體、概念之間的語(yǔ)義關(guān)聯(lián),還難以表達(dá)復(fù)雜因果關(guān)聯(lián)與復(fù)雜決策過(guò)程。

如何利用傳統(tǒng)知識(shí)表示增強(qiáng)知識(shí)圖譜,或者說(shuō)如何融合知識(shí)圖譜與傳統(tǒng)知識(shí)表示,更充分地滿(mǎn)足實(shí)際應(yīng)用需求,是知識(shí)圖譜領(lǐng)域值得研究的問(wèn)題之一。在一些實(shí)際應(yīng)用中,研究人員已經(jīng)開(kāi)始嘗試各種定制的知識(shí)表示,在知識(shí)圖譜基礎(chǔ)上適當(dāng)擴(kuò)展其他知識(shí)表示是一個(gè)值得嘗試的思路。

領(lǐng)域知識(shí)圖譜的構(gòu)建是個(gè)領(lǐng)域知識(shí)的獲取過(guò)程。這一過(guò)程系統(tǒng)性強(qiáng),涉及眾多技術(shù)手段。但是其基本流程具有一定共性,如PPT所示。

第一步是模式(Schema)設(shè)計(jì)。這一步是傳統(tǒng)本體設(shè)計(jì)所要解決的問(wèn)題?;灸繕?biāo)是把認(rèn)知領(lǐng)域的基本框架賦予機(jī)器。在所謂認(rèn)知基本框架中需要指定領(lǐng)域的基本概念,以及概念之間subclassof關(guān)系(比如足球領(lǐng)域需要建立“足球運(yùn)動(dòng)員”是“運(yùn)動(dòng)員”的子類(lèi));需要明確領(lǐng)域的基本屬性;明確屬性的適用概念;明確屬性值的類(lèi)別或者范圍。比如“效力球隊(duì)”這個(gè)屬性一般是定義在足球運(yùn)動(dòng)員這個(gè)概念上,其合理取值是一個(gè)球隊(duì)。

此外,領(lǐng)域還有大量的約束或規(guī)則,比如對(duì)于屬性是否可以取得多值的約束(比如“獎(jiǎng)項(xiàng)”作為屬性是可以取得多值的),再比如球隊(duì)的“隸屬球員”屬性與球員的“效力球隊(duì)”是一對(duì)互逆屬性。這些元數(shù)據(jù)對(duì)于消除知識(shí)庫(kù)不一致、提升知識(shí)庫(kù)質(zhì)量具有重要意義。

第二步是明確數(shù)據(jù)來(lái)源。在這一步要明確建立領(lǐng)域知識(shí)圖譜的數(shù)據(jù)來(lái)源??赡軄?lái)自互聯(lián)網(wǎng)上的領(lǐng)域百科爬取,可能來(lái)自通用百科圖譜的導(dǎo)出、可能來(lái)自?xún)?nèi)部業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)換,可能來(lái)自外部業(yè)務(wù)系統(tǒng)的導(dǎo)入。應(yīng)該盡量選擇結(jié)構(gòu)化程度相對(duì)較高、質(zhì)量較好的數(shù)據(jù)源,以盡可能降低知識(shí)獲取代價(jià)。

第三步是詞匯挖掘。人們從事某個(gè)行業(yè)的知識(shí)的學(xué)習(xí),都是從該行業(yè)的基本詞匯開(kāi)始的。在傳統(tǒng)圖書(shū)情報(bào)學(xué)領(lǐng)域,領(lǐng)域知識(shí)的積累往往是從敘詞表的構(gòu)建開(kāi)始的。敘詞表里涵蓋的大都是領(lǐng)域的主題詞,及這些詞匯之間的基本語(yǔ)義關(guān)聯(lián)。在這一步我們是要識(shí)別領(lǐng)域的高質(zhì)量詞匯、同義詞、縮寫(xiě)詞,以及領(lǐng)域的常見(jiàn)情感詞。比如在政治領(lǐng)域,我們需要知道特朗普又被稱(chēng)為川普,其英文簡(jiǎn)稱(chēng)為T(mén)rump。

第四步是領(lǐng)域?qū)嶓w發(fā)現(xiàn)(或挖掘)。需要指出的是領(lǐng)域詞匯只是識(shí)別出領(lǐng)域中的重要短語(yǔ)和詞匯。但是這些短語(yǔ)未必是一個(gè)領(lǐng)域?qū)嶓w。從領(lǐng)域文本識(shí)別某個(gè)領(lǐng)域常見(jiàn)實(shí)體是理解領(lǐng)域文本和數(shù)據(jù)的關(guān)鍵一步。

在實(shí)體識(shí)別后,還需對(duì)實(shí)體進(jìn)行實(shí)體歸類(lèi)。能否把實(shí)體歸到相應(yīng)的類(lèi)別(或者說(shuō)將某個(gè)實(shí)體與領(lǐng)域類(lèi)別或概念進(jìn)行關(guān)聯(lián)),是實(shí)體概念化的基本目標(biāo),是理解實(shí)體的關(guān)鍵步驟。比如將特朗普歸類(lèi)到政治人物、美國(guó)總統(tǒng)等類(lèi)別,對(duì)于理解特朗普的含義具有重要意義。

實(shí)體挖掘的另一個(gè)重要任務(wù)是實(shí)體鏈接,也就是將文本里的實(shí)體提及(Mention)鏈接到知識(shí)庫(kù)中的相應(yīng)實(shí)體。實(shí)體鏈接是拓展實(shí)體理解,豐富實(shí)體語(yǔ)義表示的關(guān)鍵步驟。

第五步是關(guān)系發(fā)現(xiàn)。關(guān)系發(fā)現(xiàn),或者知識(shí)庫(kù)中的關(guān)系實(shí)例填充,是整個(gè)領(lǐng)域知識(shí)圖譜構(gòu)建的重要步驟。關(guān)系發(fā)現(xiàn)根據(jù)不同的問(wèn)題模型又可以分為關(guān)系分類(lèi)、關(guān)系抽取和開(kāi)放關(guān)系抽取等不同變種。

關(guān)系分類(lèi)旨在將給定的實(shí)體對(duì)分類(lèi)到某個(gè)已知關(guān)系;關(guān)系抽取旨在從文本中抽取某個(gè)實(shí)體對(duì)的具體關(guān)系;開(kāi)放關(guān)系抽?。∣penIE)從文本中抽取出實(shí)體對(duì)之間的關(guān)系描述。也可以綜合使用這幾種模型與方法,比如根據(jù)開(kāi)放關(guān)系抽取得到的關(guān)系描述將實(shí)體對(duì)分類(lèi)到知識(shí)庫(kù)中的已知關(guān)系。

第六步是知識(shí)融合。因?yàn)橹R(shí)抽取來(lái)源多樣,不同的來(lái)源得到的知識(shí)不盡相同,這就對(duì)知識(shí)融合提出了需求。知識(shí)融合需要完成實(shí)體對(duì)齊、屬性融合、值規(guī)范化。實(shí)體對(duì)齊是識(shí)別不同來(lái)源的同一實(shí)體。屬性融合是識(shí)別同一屬性的不同描述。不同來(lái)源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數(shù)十種表達(dá)方式,這些需要規(guī)范化到統(tǒng)一格式。

最后一步是質(zhì)量控制。知識(shí)圖譜的質(zhì)量是構(gòu)建的核心問(wèn)題。知識(shí)圖譜的質(zhì)量可能存在幾個(gè)基本問(wèn)題:缺漏、錯(cuò)誤、陳舊。先談知識(shí)庫(kù)的缺漏問(wèn)題。某種意義上,知識(shí)完備對(duì)于知識(shí)資源建設(shè)而言似乎是個(gè)偽命題,我們總能枚舉出知識(shí)庫(kù)中缺漏的知識(shí)。

知識(shí)缺漏對(duì)于自動(dòng)化方法構(gòu)建的知識(shí)庫(kù)而言尤為嚴(yán)重。但是即便如此,構(gòu)建一個(gè)盡可能全的知識(shí)庫(kù)仍是任何一個(gè)知識(shí)工程的首要目標(biāo)。既然自動(dòng)化構(gòu)建無(wú)法做到完整,補(bǔ)全也就成為了提升知識(shí)庫(kù)質(zhì)量的重要手段。補(bǔ)全可以是基于預(yù)定義規(guī)則(比如一個(gè)人出生地是中國(guó),我們可以推斷其國(guó)籍也可能是中國(guó)),也可以從外部互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行補(bǔ)充(比如很多百科圖譜沒(méi)有魯迅身高的信息,需要從互聯(lián)網(wǎng)文本尋找答案進(jìn)行補(bǔ)充)。

其次是糾錯(cuò)。自動(dòng)化知識(shí)獲取不可避免地會(huì)引入錯(cuò)誤,這就需要糾錯(cuò)。根據(jù)規(guī)則進(jìn)行糾錯(cuò)是基本手段,比如A的妻子是B,但B的老公是C,那么根據(jù)妻子和老公是互逆屬性,我們知道這對(duì)事實(shí)可能有錯(cuò)。知識(shí)圖譜的結(jié)構(gòu)也可以提供一定的信息幫助推斷錯(cuò)誤關(guān)聯(lián)。比如在由概念和實(shí)例構(gòu)成的Taxonomy中,理想情況下應(yīng)該是個(gè)有向無(wú)環(huán)圖,如果其中存在環(huán),那么有可能存在錯(cuò)誤關(guān)聯(lián)。最后一個(gè)質(zhì)量控制的重要問(wèn)題是知識(shí)更新。

更新是一個(gè)具有重大研究?jī)r(jià)值,卻未得到充分研究的問(wèn)題。很多領(lǐng)域都有一定的知識(shí)積累。但問(wèn)題的關(guān)鍵在于這些知識(shí)無(wú)法實(shí)時(shí)更新。比如電商的商品知識(shí)圖譜,往往內(nèi)容陳舊,無(wú)法滿(mǎn)足用戶(hù)的實(shí)時(shí)消費(fèi)需求(比如“戰(zhàn)狼同款飾品”這類(lèi)與熱點(diǎn)電影相關(guān)的消費(fèi)需求很難在現(xiàn)有知識(shí)庫(kù)中涵蓋)。

因此,電商領(lǐng)域的圖譜構(gòu)建要從被動(dòng)的供給側(cè)構(gòu)建過(guò)渡到主動(dòng)的消費(fèi)側(cè)構(gòu)建,要從管理者視角轉(zhuǎn)變成消費(fèi)者視角。消費(fèi)側(cè)的需求充分體現(xiàn)在搜索日志和購(gòu)物籃中。面向日志、購(gòu)物籃的自動(dòng)知識(shí)獲取將成為研究熱點(diǎn)。

經(jīng)歷了上述步驟之后得到一個(gè)初步的領(lǐng)域知識(shí)圖譜。在實(shí)際應(yīng)用中會(huì)得到不少反饋,這些反饋?zhàn)鳛檩斎脒M(jìn)一步指導(dǎo)上述流程的完善,從而形成閉環(huán)。此外,除了上述自動(dòng)化構(gòu)建的閉環(huán)流程,還應(yīng)充分考慮人工的干預(yù)。人工補(bǔ)充很多時(shí)候是行之有效的方法。

比如一旦發(fā)現(xiàn)部分知識(shí)缺漏或陳舊,可以通過(guò)特定的知識(shí)編輯工具實(shí)現(xiàn)知識(shí)的添加、編輯和修改。也可以利用眾包手段將很多知識(shí)獲取任務(wù)分發(fā)下去。如何利用眾包手段進(jìn)行大規(guī)模知識(shí)獲取,是個(gè)十分有意思的問(wèn)題,涉及到知識(shí)貢獻(xiàn)的激勵(lì)機(jī)制,我前幾年有個(gè)題為《未來(lái)人機(jī)區(qū)分》的報(bào)告,專(zhuān)門(mén)討論如何利用知識(shí)問(wèn)答形式的驗(yàn)證碼來(lái)做知識(shí)獲取,可以百度此文獲取更多信息。

可以看出,整個(gè)領(lǐng)域知識(shí)圖譜的構(gòu)建是個(gè)系統(tǒng)工程,流程復(fù)雜,內(nèi)涵豐富,涉及到知識(shí)表示、自然語(yǔ)言處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、眾包等一系列技術(shù)。也正是這個(gè)原因使得知識(shí)圖譜落地對(duì)很多行業(yè)或者企業(yè)來(lái)講都是一個(gè)十分重要的舉措,甚至是戰(zhàn)略性舉措。

領(lǐng)域圖譜的評(píng)價(jià)標(biāo)準(zhǔn)是落地過(guò)程中常常被問(wèn)及的問(wèn)題??傮w而言有三個(gè)方面的指標(biāo)應(yīng)該予以充分考慮。第一個(gè)是規(guī)模。前面已經(jīng)指出,絕對(duì)完備的知識(shí)庫(kù)是不存在的,完備只能相對(duì)于一些封閉領(lǐng)域而言。因此,規(guī)模一般而言是個(gè)相對(duì)指標(biāo)。

關(guān)于規(guī)模問(wèn)題,在落地過(guò)程有兩個(gè)有意思的問(wèn)題。一是,當(dāng)前知識(shí)庫(kù)是否足以支撐實(shí)際應(yīng)用,或者多大規(guī)模就夠了?這個(gè)問(wèn)題沒(méi)有絕對(duì)答案。我給出的是看實(shí)際應(yīng)用的反饋,也就是知識(shí)圖譜上線(xiàn)后的用戶(hù)滿(mǎn)意率。比如在利用知識(shí)圖譜支撐語(yǔ)義搜索方面,多少查詢(xún)能被準(zhǔn)確理解,這個(gè)比率是個(gè)重要的指標(biāo)。

當(dāng)然查詢(xún)理解率不僅涉及知識(shí)圖譜的覆蓋率也關(guān)系到理解模型的準(zhǔn)確率。因此,在實(shí)際評(píng)估中需要客觀對(duì)待查詢(xún)理解率,不能簡(jiǎn)單地將查詢(xún)理解率直接等同于圖譜覆蓋率。

第二個(gè)指標(biāo)是質(zhì)量。當(dāng)前AI系統(tǒng)努力避免的一個(gè)事實(shí)就是“Garbage-In-Garbage-Out”。喂給機(jī)器的是錯(cuò)誤知識(shí),就只會(huì)導(dǎo)致錯(cuò)誤的應(yīng)用結(jié)果。提升知識(shí)圖譜質(zhì)量是知識(shí)圖譜構(gòu)建的核心命題。那么知識(shí)圖譜質(zhì)量又應(yīng)該從哪些維度進(jìn)行衡量呢?

我想至少有幾個(gè)維度。一是、準(zhǔn)確率。比如是否存在錯(cuò)誤事實(shí),錯(cuò)誤事實(shí)所占比例都是質(zhì)量的直接反映。二是、知識(shí)的深度。比如很多知識(shí)庫(kù)只涵蓋人物這樣的大類(lèi),無(wú)法細(xì)化到作家、音樂(lè)家、運(yùn)動(dòng)員這些細(xì)分類(lèi)目(fine-grained concepts)。三是、知識(shí)的粒度。粒度越細(xì)應(yīng)用越靈活,應(yīng)用時(shí)精讀越高。細(xì)化知識(shí)表示的粒度是領(lǐng)域知識(shí)圖譜的構(gòu)建過(guò)程中的重要任務(wù)之一。

第三個(gè)方面是實(shí)時(shí)。絕對(duì)實(shí)時(shí)是不現(xiàn)實(shí)的,因而實(shí)時(shí)大都從知識(shí)的延時(shí)(latency)角度進(jìn)行刻畫(huà)。短延時(shí)顯然是我們期望的。知識(shí)圖譜的更新是個(gè)復(fù)雜問(wèn)題,不同的更新策略導(dǎo)致不同的延時(shí)。

一般而言,知識(shí)圖譜更新包括被動(dòng)更新和主動(dòng)更新兩種方式。實(shí)際應(yīng)用中往往是兩種策略的結(jié)合。被動(dòng)更新往往采取周期性更新策略,這種策略延時(shí)長(zhǎng),適用于大規(guī)模知識(shí)更新。主動(dòng)更新,往往從需求側(cè)、消費(fèi)側(cè)、應(yīng)用側(cè)出發(fā),主動(dòng)觸發(fā)相關(guān)知識(shí)更新,適用于頭部或者高頻實(shí)體及知識(shí)的更新。

領(lǐng)域知識(shí)圖譜如何存儲(chǔ)也是大家很關(guān)注的問(wèn)題。由于知識(shí)圖譜本質(zhì)上在表達(dá)關(guān)聯(lián),天然地可以用圖加以建模,因而很多人想到用圖數(shù)據(jù)庫(kù)對(duì)領(lǐng)域知識(shí)圖譜加以存儲(chǔ)。圖數(shù)據(jù)庫(kù)的確是知識(shí)圖譜存儲(chǔ)選型的重要選擇,但是不是唯一選擇。傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù),近幾年充分發(fā)展的其他類(lèi)型的NoSQL數(shù)據(jù)庫(kù)在很多場(chǎng)景下也是合理選擇。那么數(shù)據(jù)庫(kù)的選擇考慮的要素是什么呢?

有兩類(lèi)重要的選型要素:圖譜的規(guī)模以及操作復(fù)雜度。從圖譜的規(guī)模角度來(lái)看,百萬(wàn)、千萬(wàn)的節(jié)點(diǎn)和關(guān)系規(guī)模(以及以下規(guī)模)的圖譜對(duì)于圖數(shù)據(jù)庫(kù)的需求并不強(qiáng)烈,圖數(shù)據(jù)庫(kù)的必要性在中等或者小規(guī)模知識(shí)圖譜上體現(xiàn)并不充分。但是如果圖譜規(guī)模在數(shù)億節(jié)點(diǎn)規(guī)模以上,圖數(shù)據(jù)庫(kù)就十分必要了。

從操作復(fù)雜性來(lái)看,圖譜上的操作越是復(fù)雜,圖數(shù)據(jù)庫(kù)的必要性越是明顯。圖譜上的全局計(jì)算(比如平均最短路徑的計(jì)算),圖譜上的復(fù)雜遍歷,圖譜上的復(fù)雜子圖查詢(xún)等等都涉及圖上的多步遍歷。圖上的多步遍歷操作如果是在關(guān)系數(shù)據(jù)庫(kù)上實(shí)現(xiàn)需要多個(gè)聯(lián)結(jié)(Join)操作。多個(gè)聯(lián)結(jié)操作的優(yōu)化一直以來(lái)是關(guān)系數(shù)據(jù)庫(kù)的難題。圖數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)時(shí)針對(duì)多步遍歷做了大量?jī)?yōu)化,能夠?qū)崿F(xiàn)高效圖遍歷操作。

除了上述因素之外,還應(yīng)該充分考慮系統(tǒng)的易用性、普及性與成熟度??傮w而言圖數(shù)據(jù)庫(kù)還是發(fā)展中的技術(shù),對(duì)于復(fù)雜圖數(shù)據(jù)管理系統(tǒng)的優(yōu)化也是只有少部分專(zhuān)業(yè)人員才能從事的工作。在數(shù)據(jù)庫(kù)選型時(shí)需要充分考慮這些因素。我們實(shí)驗(yàn)室在實(shí)現(xiàn)CN-DBpedia(2000萬(wàn)實(shí)體、2.2億關(guān)系)在線(xiàn)服務(wù)系統(tǒng)時(shí)先后采用了Relational DB、Graph DB、MongoDB,最后出于綜合考慮選用的是MongoDB,已經(jīng)穩(wěn)定運(yùn)行了三年,累計(jì)提供10億多次API服務(wù)。

領(lǐng)域知識(shí)圖譜如何查詢(xún)?通常對(duì)于表達(dá)為RDF形式的知識(shí)圖譜,可以使用SPARQL查詢(xún)語(yǔ)言。SPARQL語(yǔ)言針對(duì)RDF數(shù)據(jù)定義了大量的算子,對(duì)于推理操作有著很好支撐,因而能夠適應(yīng)領(lǐng)域中的復(fù)雜查詢(xún)與復(fù)雜推理。

從應(yīng)用角度來(lái)看,也可以將知識(shí)圖譜僅僅表達(dá)為無(wú)類(lèi)型的三元組。對(duì)于這種輕量級(jí)的表示,關(guān)系數(shù)據(jù)庫(kù)與傳統(tǒng)NoSQL數(shù)據(jù)庫(kù)也是較好選擇。那么此時(shí),SQL語(yǔ)句就是比較好的選擇。SQL十分成熟,語(yǔ)法簡(jiǎn)單,用戶(hù)眾多且有著幾十年的成功應(yīng)用基礎(chǔ)。很多領(lǐng)域圖譜上的查詢(xún)是相對(duì)簡(jiǎn)單的,以單步或者兩到三步遍歷居多。

此時(shí),SQL完全能夠勝任。但是不排除有一些特定場(chǎng)景,特別是公共安全、風(fēng)控管理等領(lǐng)域,通常需要進(jìn)行復(fù)雜關(guān)聯(lián)分析,需要較長(zhǎng)路徑的遍歷,需要開(kāi)展復(fù)雜子圖挖掘,此時(shí)SQL的表達(dá)能力就顯得相對(duì)較弱了。

未來(lái)的趨勢(shì)是直接利用自然語(yǔ)言進(jìn)行知識(shí)圖譜數(shù)據(jù)訪(fǎng)問(wèn)。但是總體而言這還只是個(gè)比較熱門(mén)的研究主題,離成熟還有一定距離。其根本困難在于自然語(yǔ)言的復(fù)雜性,在于自然語(yǔ)言自動(dòng)化轉(zhuǎn)成形式語(yǔ)言的巨大復(fù)雜性。

但這顯然是有著巨大商業(yè)價(jià)值的問(wèn)題。數(shù)據(jù)(知識(shí))訪(fǎng)問(wèn)方法的呆板是制約數(shù)據(jù)(知識(shí))價(jià)值發(fā)揮的重大瓶頸。一旦突破這一瓶頸,數(shù)據(jù)與知識(shí)的使用將從傳統(tǒng)的被動(dòng)式定制獲取變成主動(dòng)式按需獲取,傳統(tǒng)管理信息系統(tǒng)以及知識(shí)管理將面臨全新機(jī)遇。

領(lǐng)域知識(shí)圖譜的應(yīng)用落腳點(diǎn)無(wú)外乎搜索、推薦、問(wèn)答、解釋與決策。對(duì)于這幾個(gè)應(yīng)用我在《知識(shí)圖譜與認(rèn)知智能》一文中有詳細(xì)論述,在此不再贅述。這里補(bǔ)充回答幾個(gè)問(wèn)題。第一、知識(shí)圖譜支撐下的應(yīng)用與沒(méi)有知識(shí)圖譜特別是與基于機(jī)器學(xué)習(xí)的方案相比有何優(yōu)勢(shì)?這是很多應(yīng)用單位會(huì)提出的問(wèn)題。

首先,從宏觀層面來(lái)講,通過(guò)領(lǐng)域知識(shí)圖譜對(duì)于領(lǐng)域知識(shí)進(jìn)行表達(dá)與沉淀,使得機(jī)器能夠具備領(lǐng)域數(shù)據(jù)認(rèn)知能力。這種能力使得推理和解釋成為可能。推理和解釋是當(dāng)前的機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))還難以有效解決的問(wèn)題。

其次,從具體任務(wù)來(lái)看,知識(shí)圖譜能顯著提升一些具體任務(wù)的效果。知識(shí)圖譜支撐下的搜索相對(duì)于傳統(tǒng)搜索,能夠顯著提高召回率,也就是能夠解決“搜的到”的問(wèn)題;知識(shí)圖譜支撐下的推薦相對(duì)于傳統(tǒng)推薦,能夠顯著提高推薦的個(gè)性化,也就是能夠解決“推得準(zhǔn)”的問(wèn)題;知識(shí)圖譜支撐下的推薦相對(duì)于其他問(wèn)答方式,能夠顯著提高問(wèn)答的召回率,特別是需要推理才能回答的問(wèn)題。

知識(shí)圖譜支撐下的決策分析相對(duì)于傳統(tǒng)決策,能夠提供決策的可解釋依據(jù),能夠?yàn)闆Q策提供背景知識(shí)支持。解釋是知識(shí)圖譜的天然使命,因?yàn)槿酥荒芾斫夥?hào)知識(shí),人是解釋的對(duì)象。

另一個(gè)更為深刻的問(wèn)題是相對(duì)于機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí),符號(hào)化知識(shí)對(duì)于機(jī)器智能是否必要?一些機(jī)器學(xué)習(xí)專(zhuān)家認(rèn)為,機(jī)器智能只需要數(shù)值表示就可以了,所謂知識(shí)也無(wú)外乎就是深度神經(jīng)網(wǎng)絡(luò)中足夠抽象層次上的分布式表示,體現(xiàn)為相應(yīng)層次上的網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)。符號(hào)知識(shí)對(duì)于機(jī)器智能是個(gè)偽命題,知識(shí)表達(dá)與沉淀對(duì)于機(jī)器智能也就無(wú)從談起。

深度學(xué)習(xí)頂級(jí)專(zhuān)家Hinton也有類(lèi)似觀點(diǎn)。一定程度上,我贊同這個(gè)觀念。但問(wèn)題在于,雖然我們身處在大數(shù)據(jù)時(shí)代,但是當(dāng)前的數(shù)據(jù)還不足以讓機(jī)器習(xí)得人類(lèi)所具有的高度抽象知識(shí)。

我們現(xiàn)在的大數(shù)據(jù)大部分還只是應(yīng)用場(chǎng)景下產(chǎn)生的直接數(shù)據(jù),缺乏產(chǎn)生這些數(shù)據(jù)的需求與動(dòng)機(jī)的背景數(shù)據(jù),缺乏能夠解釋數(shù)據(jù)之所以如此的因果鏈條數(shù)據(jù)。比如我們都知道數(shù)據(jù)挖掘領(lǐng)域的啤酒尿布的例子,意思是說(shuō)大部分買(mǎi)尿布的人也會(huì)同時(shí)買(mǎi)啤酒。可是我們從來(lái)都不知道為什么。事實(shí)上很可能是產(chǎn)婦行動(dòng)不便,讓爸爸來(lái)買(mǎi)尿布,一個(gè)家庭有了新生兒之后,初為人父的爸爸們或多或少比較緊張興奮,因而順帶購(gòu)買(mǎi)啤酒以緩解壓力。我們現(xiàn)在的數(shù)據(jù)采集還無(wú)法延伸到能夠理解統(tǒng)計(jì)規(guī)律背后的因果鏈條的地步。

還有很多數(shù)據(jù)背后是由常識(shí)支撐的。比如今年夏天冷飲銷(xiāo)售量增長(zhǎng),是由于天氣炎熱,而天氣炎熱,人們自然會(huì)飲用冷飲。這些知識(shí)是我們?nèi)巳硕贾赖模菣C(jī)器無(wú)法知道。常識(shí)缺失使得機(jī)器無(wú)法重建完整的數(shù)據(jù)關(guān)聯(lián)分析鏈條。

所以,大數(shù)據(jù)時(shí)代的“數(shù)據(jù)饑荒”是機(jī)器學(xué)習(xí)無(wú)法習(xí)得人類(lèi)水準(zhǔn)的高層抽象知識(shí)的重要原因之一。那么有人也許會(huì)爭(zhēng)論說(shuō),既然“數(shù)據(jù)饑荒”是根本原因,那么有可能通過(guò)增強(qiáng)數(shù)據(jù)采集廣度與力度來(lái)消弭這一問(wèn)題。我個(gè)人認(rèn)為很難。誠(chéng)然隨著大數(shù)據(jù)日積月累,這一問(wèn)題或許會(huì)得到一定程度上的緩解。 但是常識(shí)獲取的困難仍然會(huì)對(duì)這一問(wèn)題的解決帶來(lái)巨大挑戰(zhàn)。

因此,至少在當(dāng)下一段時(shí)期內(nèi),充分利用符號(hào)知識(shí),補(bǔ)齊數(shù)據(jù)驅(qū)動(dòng)方法的短板應(yīng)該是比較務(wù)實(shí)的思路。但是即便意識(shí)到這一點(diǎn),在方法層面我們也仍然捉襟見(jiàn)肘。如何利用符號(hào)知識(shí)增強(qiáng)統(tǒng)計(jì)學(xué)習(xí)模型仍然是個(gè)具有挑戰(zhàn)性的問(wèn)題。對(duì)于這一問(wèn)題的具體論述可以參考《當(dāng)知識(shí)圖譜“遇見(jiàn)”深度學(xué)習(xí)》一文。

領(lǐng)域知識(shí)圖譜落地有哪些最佳實(shí)踐呢?作為一個(gè)工程性學(xué)科,不斷總結(jié)其最佳實(shí)踐是非常有必要的。這里根據(jù)我們落地的幾個(gè)項(xiàng)目分享幾個(gè)最佳實(shí)踐。

第一、應(yīng)用引領(lǐng)。這個(gè)問(wèn)題在知識(shí)圖譜項(xiàng)目周期時(shí),已經(jīng)強(qiáng)調(diào)了。明確應(yīng)用出口對(duì)于圖譜的規(guī)劃是非常重要的。第二、避難就簡(jiǎn)。在當(dāng)前階段,文本處理仍然面臨不少困難,落地困難重重。即便是一個(gè)簡(jiǎn)單的中文分詞任務(wù)仍然需要大量的研究工作,比如“南京市長(zhǎng)江大橋”分詞,可以是“南京市+長(zhǎng)江大橋”,也可以是“南京市長(zhǎng)+江大橋”。

因此,在實(shí)際落地過(guò)程中,應(yīng)該綜合考慮各條技術(shù)路徑的難度,優(yōu)先考慮從結(jié)構(gòu)化的數(shù)據(jù)中加以轉(zhuǎn)換,其次是半結(jié)構(gòu)化數(shù)據(jù)(比如帶格式標(biāo)記的各類(lèi)文本,如XML、百科文本等等),最后才是無(wú)結(jié)構(gòu)的自然語(yǔ)言文本。

事實(shí)上,如果能夠綜合考慮各類(lèi)技術(shù)路徑,融合各類(lèi)數(shù)據(jù)源,采取一些巧妙的策略可以顯著提升非結(jié)構(gòu)化文本抽取的有效性。比如利用結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)文本進(jìn)行比對(duì),獲取很多高質(zhì)量的關(guān)系描述就是一個(gè)非常有效的策略。

第三、避免從零開(kāi)始。很多行業(yè)或者企業(yè)在建設(shè)知識(shí)圖譜項(xiàng)目時(shí),或多或少已經(jīng)存在很多知識(shí)資源,比如領(lǐng)域本體、敘詞表等等,互聯(lián)網(wǎng)上的公開(kāi)來(lái)源也存在不少相關(guān)的百科資源,通用百科圖譜已經(jīng)涵蓋了某個(gè)領(lǐng)域大量的實(shí)體。充分利用這些資源,提高領(lǐng)域知識(shí)圖譜構(gòu)建的起點(diǎn),是知識(shí)圖譜項(xiàng)目成功落地的一個(gè)關(guān)鍵因素之一。

已經(jīng)存在的這些知識(shí)資源很多是消耗了巨大人工成本經(jīng)過(guò)多年持續(xù)積累而得到的,充分利用這些知識(shí)資源對(duì)于領(lǐng)域知識(shí)圖譜的構(gòu)建與完善具有重要意義。知識(shí)資源建設(shè)有個(gè)很有意思的現(xiàn)象,那就是讓人從無(wú)到有的貢獻(xiàn)一條知識(shí)的代價(jià)要顯著高于讓人在一個(gè)不那么完善的知識(shí)庫(kù)上進(jìn)行完善的代價(jià)。因此,盡可能復(fù)用是知識(shí)資源建設(shè)的重要策略之一。

最后一條是跨領(lǐng)域遷移。其思路很簡(jiǎn)單,如果我們?yōu)橹袊?guó)移動(dòng)做了個(gè)領(lǐng)域知識(shí)圖譜,那么為中國(guó)電信建設(shè)圖譜,是不需要從零開(kāi)始的。相近領(lǐng)域的知識(shí)是可以復(fù)用的。這個(gè)原則也意味著知識(shí)圖譜落地過(guò)程中,將來(lái)會(huì)涌現(xiàn)出一大批面向特定行業(yè)知識(shí)圖譜解決方案的企業(yè)。

領(lǐng)域知識(shí)圖譜還存在哪些挑戰(zhàn)?總體上在知識(shí)表示、獲取和應(yīng)用等各層面均存在很多挑戰(zhàn)。在知識(shí)表示層面,越來(lái)越多的領(lǐng)域應(yīng)用不僅僅需要關(guān)聯(lián)事實(shí)這種簡(jiǎn)單知識(shí)表示,還要表達(dá)包括邏輯規(guī)則、決策過(guò)程在內(nèi)的復(fù)雜知識(shí);需要同時(shí)表達(dá)靜態(tài)知識(shí)和動(dòng)態(tài)知識(shí)。

單單知識(shí)圖譜已經(jīng)不足以解決領(lǐng)域的很多實(shí)際問(wèn)題。如何去增強(qiáng)知識(shí)圖譜的語(yǔ)義表達(dá)能力,如何綜合使用多種知識(shí)表示來(lái)解決實(shí)際應(yīng)用中的復(fù)雜問(wèn)題是非常重要的研究課題。第二,在知識(shí)獲取方面,領(lǐng)域知識(shí)圖譜一般樣本很小,如果需要構(gòu)建抽取模型,那就需要基于小樣本構(gòu)建有效的模型。

目前基于小樣本的機(jī)器學(xué)習(xí)仍然面臨巨大挑戰(zhàn)。解決這一問(wèn)題的思路之一就是利用知識(shí)引導(dǎo)機(jī)器學(xué)習(xí)模型的學(xué)習(xí)過(guò)程。具體實(shí)現(xiàn)手段已經(jīng)有不少團(tuán)隊(duì)在開(kāi)展相關(guān)的探索工作,比如利用知識(shí)增強(qiáng)樣本、利用知識(shí)構(gòu)建目標(biāo)函數(shù)的正則項(xiàng)以及利用知識(shí)構(gòu)建優(yōu)化目標(biāo)的約束等等。

總體而言,這仍然是個(gè)開(kāi)放問(wèn)題需要巨大的研究投入。第三,知識(shí)的深度應(yīng)用。如何將領(lǐng)域知識(shí)圖譜有效應(yīng)用于各類(lèi)應(yīng)用場(chǎng)景,特別是推薦、搜索、問(wèn)答之外的應(yīng)用,包括解釋、推理、決策等方面的應(yīng)用仍然面臨巨大挑戰(zhàn),仍然存在很多開(kāi)放性問(wèn)題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7949

原文標(biāo)題:復(fù)旦肖仰華:領(lǐng)域知識(shí)圖譜落地實(shí)踐中的問(wèn)題與對(duì)策

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    輕輕松松學(xué)電工(識(shí)圖篇)

    內(nèi)容介紹 結(jié)合廣大電工人員的實(shí)際需要,主要介紹了常用電工電路識(shí)圖的基礎(chǔ)知識(shí)、方法及技巧,內(nèi)容包括常用電氣符號(hào)、電工識(shí)圖基本方法,以及識(shí)讀供配電系統(tǒng)圖、建筑電氣圖、電力拖動(dòng)系統(tǒng)電氣圖、PLC梯形圖
    發(fā)表于 04-30 17:18

    中興通訊發(fā)布創(chuàng)新與知識(shí)產(chǎn)權(quán)白皮書(shū)

    在第25個(gè)世界知識(shí)產(chǎn)權(quán)日到來(lái)之際,中興通訊以“守護(hù)創(chuàng)新價(jià)值,共創(chuàng)數(shù)智未來(lái)”為主題,發(fā)布《中興通訊創(chuàng)新與知識(shí)產(chǎn)權(quán)白皮書(shū)》,白皮書(shū)系統(tǒng)梳理了中興通訊四十年來(lái)的創(chuàng)新歷程與知識(shí)產(chǎn)權(quán)管理體系建設(shè)實(shí)踐
    的頭像 發(fā)表于 04-28 16:18 ?353次閱讀

    東軟集團(tuán)入選中國(guó)央國(guó)企數(shù)字化平臺(tái)廠(chǎng)商圖譜

    成功實(shí)踐。東軟入選中國(guó)央國(guó)企數(shù)字化平臺(tái)廠(chǎng)商圖譜并在多個(gè)領(lǐng)域被列為代表廠(chǎng)商之一,另有兩大標(biāo)桿案例被遴選為行業(yè)最佳實(shí)踐
    的頭像 發(fā)表于 04-18 16:15 ?285次閱讀

    典型電路原理、電路識(shí)圖從入門(mén)到精通等資料

    1、電路識(shí)圖從入門(mén)到精通高清電子資料 由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,通過(guò)“入門(mén)篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的
    的頭像 發(fā)表于 04-15 15:53 ?5010次閱讀
    典型電路原理、電路<b class='flag-5'>識(shí)圖</b>從入門(mén)到精通等資料

    每周推薦!電子工程師必學(xué)!典型電路原理、電路識(shí)圖從入門(mén)到精通等資料

    1、 電路識(shí)圖從入門(mén)到精通高清電子資料 由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,通過(guò)“入門(mén)篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的
    發(fā)表于 04-11 15:17

    電路識(shí)圖從入門(mén)到精通高清電子資料

    由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,通過(guò)“入門(mén)篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,以及典型小家電、電動(dòng)車(chē)、洗衣機(jī)、
    發(fā)表于 04-10 16:22

    微軟發(fā)布《GraphRAG實(shí)踐應(yīng)用白皮書(shū)》助力開(kāi)發(fā)者

    近日,微軟針對(duì)開(kāi)發(fā)者群體,重磅推出了《GraphRAG實(shí)踐應(yīng)用白皮書(shū)》。該白皮書(shū)全面而深入地涵蓋了知識(shí)圖譜的核心內(nèi)容,為開(kāi)發(fā)者和企業(yè)提供了寶貴的指導(dǎo)和啟示。 從知識(shí)圖譜的基礎(chǔ)概念出發(fā),白皮書(shū)詳細(xì)闡述
    的頭像 發(fā)表于 01-13 16:11 ?898次閱讀

    微軟重磅推出《GraphRAG實(shí)踐應(yīng)用白皮書(shū)》

    和應(yīng)用知識(shí),則成為企業(yè)提升決策效率、增強(qiáng)業(yè)務(wù)創(chuàng)新力、在市場(chǎng)競(jìng)爭(zhēng)搶占先機(jī)的關(guān)鍵所在。其中,知識(shí)圖譜作為一項(xiàng)強(qiáng)大的語(yǔ)義網(wǎng)絡(luò)技術(shù),以其清晰呈現(xiàn)復(fù)雜知識(shí)關(guān)系的優(yōu)勢(shì),為企業(yè)的數(shù)據(jù)處理和智能應(yīng)用
    的頭像 發(fā)表于 01-13 15:20 ?850次閱讀

    利智方:驅(qū)動(dòng)企業(yè)知識(shí)管理與AI創(chuàng)新加速的平臺(tái)

    利智方致力于深度整合企業(yè)知識(shí)資產(chǎn),全面打通知識(shí)生命周期的各個(gè)環(huán)節(jié)。通過(guò)構(gòu)建強(qiáng)大的知識(shí)庫(kù)和精準(zhǔn)的知識(shí)圖譜,支持快速定制和部署各類(lèi)AI應(yīng)用,為企業(yè)創(chuàng)新發(fā)展提供堅(jiān)實(shí)的技術(shù)支撐??啥嗑S度提升企
    的頭像 發(fā)表于 12-30 11:07 ?869次閱讀

    傳音旗下人工智能項(xiàng)目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)

    和華東師范大學(xué)聯(lián)合申報(bào)的“跨語(yǔ)言知識(shí)圖譜構(gòu)建與推理技術(shù)研究及應(yīng)用”項(xiàng)目憑借創(chuàng)新性和技術(shù)先進(jìn)性榮獲一等獎(jiǎng)。該項(xiàng)目成功突破了多形態(tài)信息抽取技術(shù)、跨語(yǔ)言知識(shí)圖譜對(duì)齊技術(shù)和知識(shí)問(wèn)答對(duì)
    的頭像 發(fā)表于 12-16 17:04 ?624次閱讀
    傳音旗下人工智能項(xiàng)目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)

    三星自主研發(fā)知識(shí)圖譜技術(shù),強(qiáng)化Galaxy AI用戶(hù)體驗(yàn)與數(shù)據(jù)安全

    據(jù)外媒11月7日?qǐng)?bào)道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識(shí)圖譜技術(shù),旨在進(jìn)一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強(qiáng)用戶(hù)數(shù)據(jù)的隱私保護(hù)。
    的頭像 發(fā)表于 11-07 15:19 ?1319次閱讀

    匯川技術(shù)聯(lián)合啟動(dòng)“產(chǎn)教融合實(shí)踐中心”項(xiàng)目

    匯川技術(shù)與中國(guó)職業(yè)技術(shù)教育學(xué)會(huì)將攜手并進(jìn),緊密?chē)@國(guó)家重大戰(zhàn)略和區(qū)域經(jīng)濟(jì)發(fā)展需求,聚焦工業(yè)智能控制領(lǐng)域的關(guān)鍵產(chǎn)業(yè)鏈和崗位鏈,計(jì)劃在五年內(nèi)建設(shè)100個(gè)開(kāi)放型產(chǎn)教融合實(shí)踐中心,并逐步輻射全國(guó),形成具有廣泛影響力的產(chǎn)教融合標(biāo)桿,真正推動(dòng)工業(yè)智能控制產(chǎn)業(yè)的持續(xù)健康發(fā)展提供堅(jiān)實(shí)的人
    的頭像 發(fā)表于 10-14 13:55 ?901次閱讀

    三星電子將收購(gòu)英國(guó)知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對(duì)英國(guó)領(lǐng)先的人工智能(AI)與知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購(gòu),此舉標(biāo)志著三星在提升設(shè)備端AI能力、深化個(gè)性化用戶(hù)體驗(yàn)方面邁出了重要一步。
    的頭像 發(fā)表于 07-18 14:46 ?729次閱讀

    Autobots應(yīng)用探索:實(shí)踐中的思考與發(fā)現(xiàn)

    背景 背景1:作為一名測(cè)試,日常工作必不可少的幾個(gè)環(huán)節(jié)是查看需求文檔、編寫(xiě)測(cè)試用例、處理線(xiàn)上問(wèn)題、能力提升等,基于集團(tuán)的https://xxx.jd.com/工具能一次性幫我們把這些事情都做
    的頭像 發(fā)表于 07-16 15:00 ?505次閱讀
    Autobots應(yīng)用探索:<b class='flag-5'>實(shí)踐中</b>的思考與發(fā)現(xiàn)

    知識(shí)圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識(shí)圖譜與大模型是兩個(gè)至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢(shì)和應(yīng)用場(chǎng)景,同時(shí)又相互補(bǔ)充,共同推動(dòng)著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識(shí)圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?1985次閱讀
    主站蜘蛛池模板: 亚洲一区免费在线 | 好男人社区www的视频免费 | 色3344| 伊人网综合在线 | 亚洲综合色丁香婷婷六月图片 | 欧美性生交xxxxx久久久 | 婷婷激情亚洲 | 午夜视频在线观看视频 | 唯美久草| 亚洲国产美女精品久久 | 亚洲天堂手机在线 | 激情六月综合 | 九色综合久久综合欧美97 | 色中色软件 | 精品国产成人三级在线观看 | 亚洲吊丝网 | 欧美456| 五月婷婷在线视频 | 日本不卡一区二区三区在线观看 | 亚欧乱色束缚一区二区三区 | 不卡午夜| 三级三级三级网站网址 | 欧美经典三级春潮烂漫海棠红 | 如果我们是季节韩剧在线观看 | 午夜在线观看免费高清在线播放 | 色欧美在线视频 | aaaaaa精品视频在线观看 | 国产乱理论片在线观看理论 | 老色批在线播放视频网站免费 | 天天上天天操 | 天天干夜夜曰 | 男女爱爱免费高清 | 午夜免费视频观看在线播放 | 久久国产乱子伦精品免费一 | 成年人的毛片 | 午夜宅男在线 | 在线观看视频你懂得 | 国产女同 | 午夜理伦片免费 | 日本不卡视频在线 | 乱码中文字幕人成在线 |