1.1 什么是知識(shí)圖譜
知識(shí)圖譜是一種用圖模型來(lái)描述知識(shí)和建模世界萬(wàn)物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法[1]。知識(shí)圖譜由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)可以是實(shí)體,如一個(gè)人、一本書等,或是抽象的概念,如人工智能、知識(shí)圖譜等。邊可以是實(shí)體的屬性,如姓名、書名,或是實(shí)體之間的關(guān)系,如朋友、配偶。知識(shí)圖譜的早期理念來(lái)自Semantic Web[2,3](語(yǔ)義網(wǎng)),其最初理想是把基于文本鏈接的萬(wàn)維網(wǎng)轉(zhuǎn)化成基于實(shí)體鏈接的語(yǔ)義網(wǎng)。
1989年,Tim Berners-Lee 提出構(gòu)建一個(gè)全球化的以“鏈接”為中心的信息系統(tǒng)(Linked Information System)。任何人都可以通過(guò)添加鏈接把自己的文檔鏈入其中。他認(rèn)為,相比基于樹(shù)的層次化組織方式,以鏈接為中心和基于圖的組織方式更加適合互聯(lián)網(wǎng)這種開(kāi)放的系統(tǒng)。這一思想逐步被人們實(shí)現(xiàn),并演化發(fā)展成為今天的World Wide Web。
1994年,Tim Berners-Lee 又提出 Web 不應(yīng)該僅僅只是網(wǎng)頁(yè)之間的互相鏈接。實(shí)際上,網(wǎng)頁(yè)中描述的都是現(xiàn)實(shí)世界中的實(shí)體和人腦中的概念。網(wǎng)頁(yè)之間的鏈接實(shí)際包含語(yǔ)義,即這些實(shí)體或概念之間的關(guān)系;然而,機(jī)器卻無(wú)法有效地從網(wǎng)頁(yè)中識(shí)別出其中蘊(yùn)含的語(yǔ)義。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節(jié)點(diǎn)代表的不只是網(wǎng)頁(yè),而是客觀世界中的實(shí)體(如人、機(jī)構(gòu)、地點(diǎn)等),而超鏈接也被增加了語(yǔ)義描述,具體標(biāo)明實(shí)體之間的關(guān)系(如出生地是、創(chuàng)辦人是等)。相對(duì)于傳統(tǒng)的網(wǎng)頁(yè)互聯(lián)網(wǎng),Semantic Web的本質(zhì)是數(shù)據(jù)的互聯(lián)網(wǎng)(Web of Data)或事物的互聯(lián)網(wǎng)(Web of Things)。
在 Semantic Web 被提出之后,出現(xiàn)了一大批新興的語(yǔ)義知識(shí)庫(kù)。如作為谷歌知識(shí)圖譜后端的Freebase[5],作為IBM Waston后端的DBpedia[6]和Yago[7],作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Wolfram Alpha,以及開(kāi)放的Semantic Web Schema——Schema.ORG[8],目標(biāo)成為世界最大開(kāi)放知識(shí)庫(kù)的Wikidata[9]等。尤其值得一提的是,2010年谷歌收購(gòu)了早期語(yǔ)義網(wǎng)公司 MetaWeb,并以其開(kāi)發(fā)的 Freebase 作為數(shù)據(jù)基礎(chǔ)之一,于2012年正式推出了稱為知識(shí)圖譜的搜索引擎服務(wù)。隨后,知識(shí)圖譜逐步在語(yǔ)義搜索[10,11]、智能問(wèn)答[12-14]、輔助語(yǔ)言理解[15,16]、輔助大數(shù)據(jù)分析[17-19]、增強(qiáng)機(jī)器學(xué)習(xí)的可解釋性[20]、結(jié)合圖卷積輔助圖像分類[21,22]等多個(gè)領(lǐng)域發(fā)揮出越來(lái)越重要的作用。
如圖1-1所示,知識(shí)圖譜旨在從數(shù)據(jù)中識(shí)別、發(fā)現(xiàn)和推斷事物與概念之間的復(fù)雜關(guān)系,是事物關(guān)系的可計(jì)算模型。知識(shí)圖譜的構(gòu)建涉及知識(shí)建模、關(guān)系抽取、圖存儲(chǔ)、關(guān)系推理、實(shí)體融合等多方面的技術(shù),而知識(shí)圖譜的應(yīng)用則涉及語(yǔ)義搜索、智能問(wèn)答、語(yǔ)言理解、決策分析等多個(gè)領(lǐng)域。構(gòu)建并利用好知識(shí)圖譜需要系統(tǒng)性地利用包括知識(shí)表示(Knowledge Representation)、圖數(shù)據(jù)庫(kù)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等多方面的技術(shù)。
![poYBAGKXU1yAcGzcAADMII-G7sI02.jpeg](https://file.elecfans.com//web2/M00/47/0C/poYBAGKXU1yAcGzcAADMII-G7sI02.jpeg)
圖1-1 知識(shí)圖譜:事物關(guān)系的可計(jì)算模型
1.2 知識(shí)圖譜的發(fā)展歷史
知識(shí)圖譜并非突然出現(xiàn)的新技術(shù),而是歷史上很多相關(guān)技術(shù)相互影響和繼承發(fā)展的結(jié)果,包括語(yǔ)義網(wǎng)絡(luò)、知識(shí)表示、本體論、Semantic Web、自然語(yǔ)言處理等,有著來(lái)自Web、人工智能和自然語(yǔ)言處理等多方面的技術(shù)基因。從早期的人工智能發(fā)展歷史來(lái)看, Semantic Web是傳統(tǒng)人工智能與Web融合發(fā)展的結(jié)果,是知識(shí)表示與推理在Web中的應(yīng)用;RDF(Resource Description Framework,資源描述框架)、OWL(Web Ontology Language,網(wǎng)絡(luò)本體語(yǔ)言)都是面向 Web 設(shè)計(jì)實(shí)現(xiàn)的標(biāo)準(zhǔn)化的知識(shí)表示語(yǔ)言;而知識(shí)圖譜則可以看作是Semantic Web的一種簡(jiǎn)化后的商業(yè)實(shí)現(xiàn),如圖1-2所示。
![pYYBAGKXU1yAA9iiAAFFCUfRji895.jpeg](https://file.elecfans.com//web2/M00/47/0C/pYYBAGKXU1yAA9iiAAFFCUfRji895.jpeg)
圖1-2 從語(yǔ)義網(wǎng)絡(luò)到知識(shí)圖譜
在人工智能的早期發(fā)展流派中,符號(hào)派(Symbolism)側(cè)重于模擬人的心智,研究怎樣用計(jì)算機(jī)符號(hào)表示人腦中的知識(shí)并模擬心智的推理過(guò)程;連接派(Connectionism)側(cè)重于模擬人腦的生理結(jié)構(gòu),即人工神經(jīng)網(wǎng)絡(luò)。符號(hào)派一直以來(lái)都處于人工智能研究的核心位置。近年來(lái),隨著數(shù)據(jù)的大量積累和計(jì)算能力的大幅提升,深度學(xué)習(xí)在視覺(jué)、聽(tīng)覺(jué)等感知處理中取得突破性進(jìn)展,進(jìn)而又在圍棋等博弈類游戲、機(jī)器翻譯等領(lǐng)域獲得成功,使得人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)獲得了人工智能研究的核心地位。深度學(xué)習(xí)在處理感知、識(shí)別和判斷等方面表現(xiàn)突出,能幫助構(gòu)建聰明的人工智能,但在模擬人的思考過(guò)程、處理常識(shí)知識(shí)和推理,以及理解人的語(yǔ)言方面仍然舉步維艱。
哲學(xué)家柏拉圖把知識(shí)(Knowledge)定義為“Justified True Belief”,即知識(shí)需要滿足三個(gè)核心要素:合理性(Justified)、真實(shí)性(True)和被相信(Believed)。簡(jiǎn)而言之,知識(shí)是人類通過(guò)觀察、學(xué)習(xí)和思考有關(guān)客觀世界的各種現(xiàn)象而獲得并總結(jié)出的所有事實(shí)(Fact)、概念(Concept)、規(guī)則(Rule)或原則(Principle)的集合。人類發(fā)明了各種手段來(lái)描述、表示和傳承知識(shí),如自然語(yǔ)言、繪畫、音樂(lè)、數(shù)學(xué)語(yǔ)言、物理模型、化學(xué)公式等。具有獲取、表示和處理知識(shí)的能力是人類心智區(qū)別于其他物種心智的重要特征。人工智能的核心也是研究怎樣用計(jì)算機(jī)易于處理的方式表示、學(xué)習(xí)和處理各種各樣的知識(shí)。知識(shí)表示是現(xiàn)實(shí)世界的可計(jì)算模型(Computable Model of Reality)。從廣義上講,神經(jīng)網(wǎng)絡(luò)也是一種知識(shí)表示形式,如圖1-3所示。
![poYBAGKXU16AO_1eAAB3gOY6Ym458.jpeg](https://file.elecfans.com//web2/M00/47/0C/poYBAGKXU16AO_1eAAB3gOY6Ym458.jpeg)
圖1-3 知識(shí)圖譜幫助構(gòu)建有學(xué)識(shí)的人工智能
符號(hào)派關(guān)注的核心正是知識(shí)的表示和推理(KRR,Knowledge Representation and Reasoning)。早在1960年,認(rèn)知科學(xué)家 Allan M.Collins 提出用語(yǔ)義網(wǎng)絡(luò)(Semantic Network)研究人腦的語(yǔ)義記憶。例如,WordNet[23]是典型的語(yǔ)義網(wǎng)絡(luò),它定義了名詞、動(dòng)詞、形容詞和副詞之間的語(yǔ)義關(guān)系。WordNet被廣泛應(yīng)用于語(yǔ)義消歧等自然語(yǔ)言處理領(lǐng)域。
1970年,隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展,知識(shí)庫(kù)(Knowledge Base)構(gòu)建和知識(shí)表示更加得到重視。專家系統(tǒng)的基本想法是:專家是基于大腦中的知識(shí)來(lái)進(jìn)行決策的,因此人工智能的核心應(yīng)該是用計(jì)算機(jī)符號(hào)表示這些知識(shí),并通過(guò)推理機(jī)模仿人腦對(duì)知識(shí)進(jìn)行處理。依據(jù)專家系統(tǒng)的觀點(diǎn),計(jì)算機(jī)系統(tǒng)應(yīng)該由知識(shí)庫(kù)和推理機(jī)兩部分組成,而不是由函數(shù)等過(guò)程性代碼組成。早期的專家系統(tǒng)最常用的知識(shí)表示方法包括基于框架的語(yǔ)言(Frame-based Languages)和產(chǎn)生式規(guī)則(Production Rules)等。框架語(yǔ)言主要用于描述客觀世界的類別、個(gè)體、屬性及關(guān)系等,較多地被應(yīng)用于輔助自然語(yǔ)言理解。產(chǎn)生式規(guī)則主要用于描述類似于IF-THEN的邏輯結(jié)構(gòu),適合于刻畫過(guò)程性知識(shí)。
知識(shí)圖譜與傳統(tǒng)專家系統(tǒng)時(shí)代的知識(shí)工程有著顯著的不同。與傳統(tǒng)專家系統(tǒng)時(shí)代主要依靠專家手工獲取知識(shí)不同,現(xiàn)代知識(shí)圖譜的顯著特點(diǎn)是規(guī)模巨大,無(wú)法單一依靠人工和專家構(gòu)建。如圖1-4所示,傳統(tǒng)的知識(shí)庫(kù),如Douglas Lenat從1984年開(kāi)始創(chuàng)建的常識(shí)知識(shí)庫(kù) Cyc,僅包含700萬(wàn)條[1]的事實(shí)描述(Assertion)。Wordnet 主要依靠語(yǔ)言學(xué)專家定義名詞、動(dòng)詞、形容詞和副詞之間的語(yǔ)義關(guān)系,目前包含大約20萬(wàn)條的語(yǔ)義關(guān)系。由著名人工智能專家 Marvin Minsky于1999年起開(kāi)始構(gòu)建的 ConceptNet[24]常識(shí)知識(shí)庫(kù)依靠了互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲三種方法,但早期的 ConceptNet 規(guī)模在百萬(wàn)級(jí)別,最新的ConceptNet 5.0也僅包含2800萬(wàn)個(gè)RDF三元組關(guān)系描述。谷歌和百度等現(xiàn)代知識(shí)圖譜都已經(jīng)包含超過(guò)千億級(jí)別的三元組,阿里巴巴于2017年8月發(fā)布的僅包含核心商品數(shù)據(jù)的知識(shí)圖譜也已經(jīng)達(dá)到百億級(jí)別。DBpedia已經(jīng)包含約30億個(gè)RDF三元組,多語(yǔ)種的大百科語(yǔ)義網(wǎng)絡(luò)BabelNet包含19億個(gè)RDF三元組[25],Yago3.0包含1.3億個(gè)元組,Wikidata已經(jīng)包含4265萬(wàn)條數(shù)據(jù)條目,元組數(shù)目也已經(jīng)達(dá)到數(shù)十億級(jí)別。截至目前,開(kāi)放鏈接數(shù)據(jù)項(xiàng)目Linked Open Data[2]統(tǒng)計(jì)了其中有效的2973個(gè)數(shù)據(jù)集,總計(jì)包含大約1494億個(gè)三元組。
現(xiàn)代知識(shí)圖譜對(duì)知識(shí)規(guī)模的要求源于“知識(shí)完備性”難題。馮·諾依曼曾估計(jì)單個(gè)個(gè)體大腦的全量知識(shí)需要2.4×1020個(gè)bits存儲(chǔ)[26]。客觀世界擁有不計(jì)其數(shù)的實(shí)體,人的主觀世界還包含無(wú)法統(tǒng)計(jì)的概念,這些實(shí)體和概念之間又具有更多數(shù)量的復(fù)雜關(guān)系,導(dǎo)致大多數(shù)知識(shí)圖譜都面臨知識(shí)不完全的困境。在實(shí)際的領(lǐng)域應(yīng)用場(chǎng)景中,知識(shí)不完全也是困擾大多數(shù)語(yǔ)義搜索、智能問(wèn)答、知識(shí)輔助的決策分析系統(tǒng)的首要難題。
![pYYBAGKXU16AflWBAADcT7n4gn054.jpeg](https://file.elecfans.com//web2/M00/47/0C/pYYBAGKXU16AflWBAADcT7n4gn054.jpeg)
圖1-4 現(xiàn)代知識(shí)圖譜的規(guī)模化發(fā)展
-
人工智能
+關(guān)注
關(guān)注
1796文章
47790瀏覽量
240549 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5518瀏覽量
121603 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7746
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
微軟發(fā)布《GraphRAG實(shí)踐應(yīng)用白皮書》助力開(kāi)發(fā)者
利智方:驅(qū)動(dòng)企業(yè)知識(shí)管理與AI創(chuàng)新加速的平臺(tái)
傳音旗下人工智能項(xiàng)目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)
![傳音旗下<b class='flag-5'>人工智能</b>項(xiàng)目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)](https://file1.elecfans.com/web3/M00/02/7C/wKgZPGdf7RiATKcgAADsawnA0Vk773.png)
軟通動(dòng)力入選《人工智能數(shù)據(jù)標(biāo)注產(chǎn)業(yè)圖譜》
嵌入式和人工智能究竟是什么關(guān)系?
58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈圖譜
![58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈<b class='flag-5'>圖譜</b>](https://file1.elecfans.com/web2/M00/0C/1E/wKgaomcuxqyAHONcAAAwGmMIwIM723.png)
三星自主研發(fā)知識(shí)圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗(yàn)與數(shù)據(jù)安全
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
名單公布!【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新
三星電子將收購(gòu)英國(guó)知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)
知識(shí)圖譜與大模型之間的關(guān)系
中國(guó)生成式人工智能專利數(shù)量傲視群雄
大模型應(yīng)用之路:從提示詞到通用人工智能(AGI)
![大模型應(yīng)用之路:從提示詞到通用<b class='flag-5'>人工智能</b>(AGI)](https://file1.elecfans.com//web2/M00/ED/90/wKgZomZrqM6AVMZZAADa75cpBWs825.png)
嵌入式人工智能的就業(yè)方向有哪些?
利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)
![利用<b class='flag-5'>知識(shí)圖譜</b>與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)](https://file1.elecfans.com/web2/M00/C1/82/wKgaomXW5lKAOabBAABJ6cOiGSI637.png)
評(píng)論