知識圖譜是人工智能三大分支之一——符號主義——在新時期主要的落地技術(shù)方式。該技術(shù)雖然在 2012 年才得名,但它的歷史淵源,卻可以追溯到更早的語義網(wǎng)、描述邏輯、和專家系統(tǒng)。在該技術(shù)的的歷史演變中,多次出現(xiàn)發(fā)展瓶頸,也多次以工程的方式突破了這些瓶頸。
AI科技大本營此次邀請到文因互聯(lián) CEO 鮑捷,作為知識圖譜領(lǐng)域形成過程的親歷者之一,他對知識圖譜的歷史淵源進行了梳理,深度解析了該領(lǐng)域幾次發(fā)展的主要技術(shù)突破,并分析了其工業(yè)落地的幾個關(guān)鍵點。
鮑捷,文因互聯(lián) CEO,聯(lián)合創(chuàng)始人。他曾是三星美國研發(fā)中心研究員,倫斯勒理工學(xué)院(RPI)博士后。他是中國中文信息學(xué)會語言與知識計算專委會委員,W3C 顧問委員會委員,中國計算機協(xié)會會刊編委,中文開放知識圖譜聯(lián)盟(OpenKG)發(fā)起人之一。他的研究領(lǐng)域涉及人工智能諸多方向,如自然語言處理、語義網(wǎng)、機器學(xué)習(xí)、描述邏輯、信息論、神經(jīng)網(wǎng)絡(luò)、圖像識別等,已發(fā)表 70 多篇論文。
▌什么是知識圖譜?
知識圖譜到底是什么?坦白說我也沒有特別好的答案,知識圖譜從某種程度來說是一個營銷名詞,是 2012 年谷歌提出了這樣一個項目叫“Knowledge Graph”。
一個有意思的定義是王昊奮老師提出來的:知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標(biāo)識,稱為它們的標(biāo)識符。每個屬性-值對用來刻畫實體的內(nèi)在特性,而關(guān)系用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。
但是在實踐中我們并不需要太過糾結(jié)什么叫知識圖譜,什么不是知識圖譜。有人問我說是否必須要用RDF(資源描述框架)才是知識圖譜?或者說是不是必須用Neo4j圖數(shù)據(jù)庫才是知識圖譜?其實不是。不在于你具體用了哪一種Syntax,哪一種數(shù)據(jù)存儲的數(shù)據(jù)庫。關(guān)鍵是它的本質(zhì)是什么。
理解本質(zhì)從了解知識圖譜的演化過程入手。
▌知識圖譜的演化
知識圖譜這個概念是最近四、五年才為大家所知的,但是這個技術(shù)本身有非常深厚的發(fā)展基礎(chǔ),我把這個過程分成六個階段,合并一下之后大概分成兩個比較重要的階段。
往前溯可以追溯到五六十年代前,因為在人工智能這個領(lǐng)域里,知識工程作為一個分支很早就有了。人工智能在大體上有三個比較大的分支,一個是神經(jīng)網(wǎng)絡(luò),叫連接主義學(xué)派,另外一個叫統(tǒng)計或者經(jīng)驗主義學(xué)派,后來就衍生出了機器學(xué)習(xí),最后一個知識工程這個方向,我們叫它理性主義或者符號主義,是從 1956 年這個學(xué)科形成時就有的分支。
在六十年代、七十年代的時候,知識工程這個領(lǐng)域往前發(fā)展,不斷的產(chǎn)生出新的邏輯語言和新的實用方法,像描述邏輯是七十年代就興起了的。在六十年代時就有一個叫“Frame Network”(aka “Semantic Network”),語義網(wǎng)絡(luò)。注意,不是“語義網(wǎng)”而是“語義網(wǎng)絡(luò)”,那個時候的語義網(wǎng)絡(luò)跟現(xiàn)在的知識圖譜非常像。所以這個是不斷循環(huán)的,如果我們把六十年的學(xué)科發(fā)展抽象來看,實際上就是一個從簡單到復(fù)雜、再從復(fù)雜回歸簡單的過程。
從最終得到的結(jié)果來看,好像我們現(xiàn)在得到的知識圖譜跟六十年代就已經(jīng)有的語義網(wǎng)絡(luò)非常像,但這種像只是表面上的。因為在發(fā)展過程中,我們構(gòu)造了一個龐大的工業(yè)體系,以及如何從各種各樣的文檔、各種各樣的數(shù)據(jù)里集中編輯、生成知識圖譜的一整套工業(yè)鏈。所以一個技術(shù)不能只看它的定義,而是要看它相關(guān)所有實踐過程中工業(yè)體系的總和。今天知識圖譜的技術(shù)無論從深度還是廣度上,都遠(yuǎn)遠(yuǎn)超越六十年代的語義網(wǎng)絡(luò)技術(shù)。
八十年代、九十年代、到兩千年,這中間還有非常多中間技術(shù),我們從中選些重要的事情說一下。
▌?wù)Z義網(wǎng)絡(luò)
這張圖是對前面那張圖的抽象,我們選其中發(fā)展過程中最重要的節(jié)點。六十年代有一種東西叫“語義網(wǎng)絡(luò)”,語義網(wǎng)絡(luò)在七十年代、八十年代時演化成了描述邏輯。為什么會有這種變化?因為語義網(wǎng)絡(luò)本身只是一種表征,并不具備推理能力。語義網(wǎng)絡(luò)+推理變成了新的邏輯系統(tǒng),叫“描述邏輯”,描述邏輯到兩千年前后跟 Web 技術(shù)結(jié)合在一起,形成了新的語言,比如 OIL 、DAML。
另外一個分支是 1995 年前后有了元數(shù)據(jù),從元數(shù)據(jù)學(xué)科衍生出一個分支叫 RDF,后來 RDF 和 DAML 合并起來就變成了 OWL。下面還有一些更工程的內(nèi)容,包括 schema.org、RDFa、JOSN-LD、GraphpDB,這都是最近 5、6 年興起的新技術(shù)。這些技術(shù)的總和就構(gòu)成了我們所稱的“知識圖譜”技術(shù),但只是其中一部分。
給大家看一個語義網(wǎng)絡(luò),語義網(wǎng)絡(luò)其實就是一個網(wǎng)絡(luò)。這張圖上有各種不同的概念,比如中間的 Mammal 是哺乳動物,貓(cat) 是一種哺乳動物,貓有毛;熊是哺乳動物,熊也有毛;鯨是一種哺乳動物,鯨在水里面生活;魚也在水里面生活,也是一種動物;哺乳動物是一種脊椎動物,也是動物的一種。
所有這些節(jié)點和邊的總和就構(gòu)成了一個網(wǎng)絡(luò),每一條邊上都有一些標(biāo)志的,用術(shù)語來說就是“有類型的邊”,這種“有類型的邊”連在一起的節(jié)點叫“語義網(wǎng)絡(luò)”,概念是非常簡單的。
六十年代時自然語言處理和知識表現(xiàn)的大拿批評這種語義網(wǎng)絡(luò),說這個東西沒辦法用于推理,用術(shù)語來說是最后沒有“semantics”。這里涉及很多關(guān)系,什么叫 semantics?有的學(xué)者認(rèn)為 semantics 必須是有一套嚴(yán)格的語義定義,這通常是用模型論來定義,或者過程方法來定義。其實也有更淺的對語義的理解,萬事萬物之間的關(guān)系就是語義。比如我們打開字典,字典是用一些詞定義另外一些詞,這就是語義。
我們在這樣的語義網(wǎng)絡(luò)里,如何定義一個詞的意義?其實我們是做不到的。比如在這個語義網(wǎng)絡(luò)里,居于中間位置的詞是“哺乳動物”,它到底是什么?我們很難讓計算機理解什么是真正的哺乳動物,很難通過它的內(nèi)涵含義來理解。對于計算機而言,它只能知道萬事萬物之間的聯(lián)系,也許這對于機器自動處理來說就夠了。所以語義網(wǎng)絡(luò)盡管沒有所謂的語義,我們還是把它稱為語義網(wǎng)絡(luò)的原因,因為語義就是關(guān)系。
▌描述邏輯
到了八十年代時,描述邏輯就已經(jīng)比較成熟了。描述邏輯是邏輯的一種,我在這里面列了一張表,這是描述邏輯和一階邏輯 (FOL 邏輯)之間的對應(yīng)。如果大家沒有邏輯基礎(chǔ)也不用害怕,因為這個圖本質(zhì)上是講很基礎(chǔ)的邏輯定義。
我們有了一個描述邏輯之后,就可以用計算機來做一些自動推理的工作。八十年代到九十年代,描述邏輯學(xué)者們一直都在尋找如何讓計算機更好的進行邏輯推理,一些比較可判定的所謂計算機不會死機的那些問題的總和,這種語言稱為“描述邏輯”。
▌OWL
到九十年代時描述邏輯成為知識表現(xiàn)領(lǐng)域的一種非常顯學(xué)、非常重要的分支,正好這時互聯(lián)網(wǎng)興起了。到了 1995 年前后開始了真正知識圖譜化的第一步,開始把描述邏輯用互聯(lián)網(wǎng)的語言來重新來表征,有人用 HTML,也有人用 XML。1999 年馬里蘭大學(xué)開始發(fā)布了第一個這樣的語言,叫“SHOE”。后來這個語言被美國的國防部高等研究所資助了一個項目叫“DAML”,這就是第一個在美國這邊把知識表現(xiàn)語言放在網(wǎng)上一種官方的努力。
與此同時,在歐洲也有一個非常相似的努力叫“OIL”,大西洋兩岸的同行們一看,大家做的事情非常相似,于是在 2001 年時 W3C 開始把兩邊的努力匯總在一起,出現(xiàn)了一個語言叫“DAML+OIL”。到了 2004 年時 W3C 進一步協(xié)調(diào)大家的努力,合并了一個新的語言叫“OWL”,2009年發(fā)布了第二版,叫“OWL2”。
從九十年代到 2009 年這十幾年期間,這個領(lǐng)域不斷向上、向好積極發(fā)展,在那個時候我們曾經(jīng)認(rèn)為 OWL 是描述這個世界非常好的一種工具,因為它對于機器處理是非常友好的,所以我們就希望把它放到互聯(lián)網(wǎng)上去,讓更多人用到,但是這個設(shè)想后來并沒有實現(xiàn)。
▌W3C OWL 工作組的瓶頸
這里多說幾句 OWL,因為我是 OWL 工作組的一員,所以知道一些早期的事情。OWL有兩個工作組,最早的一個工作組是在 2000-2004 年之間,我趕上的是 2007-2010 年的第二個工作組,這個工作組的使命是把現(xiàn)有的 OWL 語言進一步完善,提供所謂更強的表達(dá)力,或者在機器處理上比如要進行語義數(shù)據(jù)的查詢,我們應(yīng)該用什么樣的,什么可以用、什么不能用、什么能說、什么不能說、什么對機器是友好的,OWL 工作組就是做這個事情。
我們寫了 10 來個文檔,加在一起 600 多頁紙,花了兩年時間做這個事情。OWL 工作組除了大學(xué)里來的人,還有一些企業(yè)的成員,包括 IBM、Oracle、惠普等等,還有一些小的創(chuàng)業(yè)公司。
那個時候我們這個領(lǐng)域遇到了一些瓶頸的,就是 OWL 這個語言或者語義網(wǎng)整個領(lǐng)域,在 2000 年前后是大家非常寄予厚望的,就好像現(xiàn)在大家對于深度學(xué)習(xí)寄予厚望一樣。但是往前走到 2006 年前后遇到了瓶頸,就是沒有人真的去產(chǎn)生這樣的數(shù)據(jù),大多數(shù)日常場景用不到語義。于是這時候就產(chǎn)生了內(nèi)部的路線斗爭,叫“SEMANTIC Web or semantic WEB”,就是到底我們是加強語義呢?還是加強互聯(lián)網(wǎng)屬性呢?有兩組不同的人不斷進行爭執(zhí)。
當(dāng)然,還有很多其他的分歧,包括我們到底該怎么去定義什么叫“簡單”,大家沒有一致的意見。所以我們最終生成的文檔從學(xué)術(shù)角度來說是非常有價值,但是對于工業(yè)應(yīng)用特別是 C 端的互聯(lián)網(wǎng)應(yīng)用沒有達(dá)到預(yù)期。
小結(jié) :從弱語義到強語義的嘗試(邏輯)
前面這一段大體總結(jié)了知識圖譜技術(shù)發(fā)展的前兩個大的階段歷史,一個是從六十年代到九十年代,早期知識圖譜的原型,包括語義網(wǎng)絡(luò)等等,后面一系列的技術(shù)。
從 2001-2006 年或者 2007 年這段時間,是不斷加強語義網(wǎng)所謂的語義的過程,就是從弱語義到強語義,從語義網(wǎng)絡(luò)到描述邏輯,一直發(fā)展到 OWL,并行還有另外其他一些,比如基于框架邏輯還有另外一個語言叫“RIF”。這十幾年時間都一直不斷在加強語義表現(xiàn)的表達(dá)力,但最后證明這個做法是不太妥當(dāng)?shù)摹?/p>
▌元數(shù)據(jù)框架到 RDF
我們講過,除了學(xué)術(shù)性非常強的描述邏輯 OWL 分支之外,知識圖譜還有另外一個分支是來自于元數(shù)據(jù)框架的。這個工作最早是 Guha 在 Apple 做的,Guha 這個人是非常值得關(guān)注的,因為某種程度上他是“知識圖譜之父”,在 1995 年時他在 Apple 發(fā)明了一個語言叫“MCF”,因為他那時候面臨一些問題,就是怎么去表征多媒體的數(shù)據(jù),特別是圖像的數(shù)據(jù),所以他就發(fā)明了一整套的元數(shù)據(jù)表征方法。
到了 1997 年時 Guha 跟Tim Bray 做了 RDF/XML。1999 年網(wǎng)景公司發(fā)明了 RSS 語言,這個東西現(xiàn)在新一代的朋友們不一定知道了,回到 10 年前時看新聞都是用 RSS 訂閱的,其實 RSS 的第一個 R 就是 RDF。后來他們改了其他的名字,從本源上來講,技術(shù)剛剛開始的時候這個技術(shù)是 RDF 的應(yīng)用。1999 年 RDF 被 W3C 收編了,變成了國際標(biāo)準(zhǔn)。
▌RDF
什么是 RDF?這里給一個例子,它是非常簡單的語言,本質(zhì)上是三元組,主語、謂語、賓語就是個三元組。比如“我叫鮑婕”,“我”是主語,“是”是謂語,“鮑捷”是賓語。在 RDF 這個框架下,萬事萬物各種復(fù)雜的關(guān)系最后都被拆分成三元組,如果從圖形來表示,三元組就是一個主語、一個謂語,中間有一條線一個箭頭是賓語,可以把各種各樣的模型都分解成這樣的三元組。
從 1997 年有了 RDF,1998 年有了 RDFS,2004 年邏輯學(xué)家給 RDF 加了一個語義,因為他們認(rèn)為 RDF 必須要能夠推理,所以 2014 年進一步加強,最后有了 RDF1.1,這是 RDF 大概 20 多年的發(fā)展史。
小結(jié):從弱語義到強語義的嘗試(元數(shù)據(jù))
RDF 和一開始提到描述邏輯方法是不一樣的,因為描述邏輯方法是從實驗室里來的,它想構(gòu)造一個龐大的體系,構(gòu)建一個完美的知識表現(xiàn)語言,然后再尋找它的落地。
而 RDF 從一開始就是一個從實踐出發(fā)的、自底向上的一個語言。RDF 相對于 OWL 而言,是一個更加偏工程的、應(yīng)用更多的語言,現(xiàn)在有很多人在用 RDF。我們?nèi)粘I钪兴龅降慕^大多數(shù)網(wǎng)站,現(xiàn)在都有某種類型的元數(shù)據(jù),其中相當(dāng)一部分就是用 RDF 不同的變種來實現(xiàn)的,所以 RDF 總的來說是一個比較成功的技術(shù),因為它是來自于現(xiàn)實的技術(shù)。
▌關(guān)聯(lián)數(shù)據(jù) Linked Data
從 2001 年這個領(lǐng)域正式形成,到 2006 年時語義網(wǎng)的技術(shù)堆棧已經(jīng)變得非常復(fù)雜了。1999 年時有一個所謂的“語義網(wǎng)蛋糕模型”,對語義網(wǎng)不同的技術(shù)做了羅列。2006 年時語義網(wǎng)技術(shù)已經(jīng)復(fù)雜到?jīng)]有人看得懂,沒有辦法用二維表達(dá),必須用一個三維的圖才能夠把語義網(wǎng)所有的技術(shù)放在里面。這就帶來了一個嚴(yán)重的問題,就是絕大多數(shù)的企業(yè)、開發(fā)者很難理解,無從下手。
到了 2006 年時我們的“神”Tim Berners-Lee 出來思考這個問題,他想與其要求大家現(xiàn)在把數(shù)據(jù)搞得很漂亮,不如讓大家把數(shù)據(jù)公開出來。只要數(shù)據(jù)能夠公開出來,數(shù)據(jù)能夠連在一起,我們就會建立一個生態(tài),這套想法他稱為“關(guān)聯(lián)數(shù)據(jù)”。
他提出了數(shù)據(jù)發(fā)布的基本原則,上圖是我從他的博客上面提取出來的,我也非常推薦大家好好看他的博客“Design Issues”,Tim Berners-Lee 會提前 20 年時間去想人類的未來是什么樣的,我們的 Web 到底應(yīng)該遵循什么樣的原則。
在關(guān)聯(lián)數(shù)據(jù)的定義上,他定義了幾層什么是好的關(guān)聯(lián)數(shù)據(jù):第一是在網(wǎng)上,一顆星;二是機器能夠自動讀,這就有兩顆星;三是盡可能用一個公有的格式,不要是某個公司私有的,這樣能夠促進公開交換,做到這點就有三顆星;因為是 W3C 提出來的,必須用 RDF,用 RDF 就有四顆星;如果 RDF 有 ID 把它連在一起就是五顆星。這就是 Tim Berners-Lee 提出的關(guān)聯(lián)數(shù)據(jù)的五星標(biāo)準(zhǔn)。
小結(jié):從強語義到弱語義的嘗試(關(guān)聯(lián)數(shù)據(jù))
2006 年之所以 Tim Berners-Lee 要推進這個轉(zhuǎn)變,就是因為他當(dāng)時看到了有些風(fēng)險。語義網(wǎng)的頭 5 年時間并不是特別成功,因為沒有人愿意發(fā)布數(shù)據(jù),這時候 Tim Berners-Lee 出來帶領(lǐng)大家調(diào)整方向,不要再去強調(diào)很強的語義和推理了,可能一個比較弱的語義或者一個結(jié)構(gòu)化本身就已經(jīng)足夠了,這就是 Tim Berners-Lee 用“關(guān)聯(lián)數(shù)據(jù)”概念再次盤活了這個領(lǐng)域。
▌新的綜合:交換語言
這張圖上總結(jié)了知識交換語言一系列的發(fā)展,剛才提到 RDF,RDF+HTML,變成了 RDFa,還有另外一種叫 Microformat,這都是非常多網(wǎng)站上已經(jīng)用到的元數(shù)據(jù)語言。RDF+HTML5 就變成了 Microdata,RDF+JSON 就變成了 JSON-LD。所以傳統(tǒng)的 RDF semantics 就是基于 XML 的 semantics,現(xiàn)在不太多見了,因為那個東西非常復(fù)雜,學(xué)習(xí)成本非常高。
現(xiàn)在我們看到的大部分 RDF 從概念上是 RDF 的變種,但是語法形式在網(wǎng)站上打開元代碼看都有元數(shù)據(jù)。大概 3 年前統(tǒng)計,有 30% 的網(wǎng)頁已經(jīng)有語義數(shù)據(jù)了,現(xiàn)在應(yīng)該至少超過一半的網(wǎng)站都有語義數(shù)據(jù),所以 RDF 是很成功的一個東西。
▌新的綜合:存儲語言(圖數(shù)據(jù)庫)
當(dāng)數(shù)據(jù)多了以后面臨另外一個問題,就是如何去存儲和操作知識圖譜的應(yīng)用數(shù)據(jù)。大公司和小公司各自有自己不同的解決方案,統(tǒng)稱為“圖數(shù)據(jù)庫”。為什么語義網(wǎng)的數(shù)據(jù)庫稱它為“圖數(shù)據(jù)庫”?前面幾張 PPT 講到 RDF 時,其實 RDF 就是各種事情之間的關(guān)聯(lián),我們把這種關(guān)聯(lián)畫出來,變成很大的一個圖,很自然的就用圖數(shù)據(jù)庫進行知識圖譜的存儲。所以谷歌、微軟各個大廠都有自己的圖數(shù)據(jù)庫,至少是定制化的數(shù)據(jù)庫。
圖數(shù)據(jù)庫這件事情上后來產(chǎn)生了兩個新的流派,一個流派叫“RDF 數(shù)據(jù)庫”,另外一個叫“屬性圖數(shù)據(jù)庫”,雖然同樣是圖,但兩種數(shù)據(jù)庫關(guān)聯(lián)系統(tǒng)的定義是完全不一樣的。因為 RDF 這種圖本質(zhì)上強調(diào)推理邏輯;而屬性圖要放開很多,而且屬性圖發(fā)展過程中工程化做得非常好。
小結(jié):從強語義到弱語義的嘗試(圖數(shù)據(jù)庫)
在圖數(shù)據(jù)庫的嘗試當(dāng)中,我們再次把語義給弱化了,從強語義到弱語義,因為如果我們用強語義就用 RDF 數(shù)據(jù)庫,如果我們允許有弱語義就可以用圖數(shù)據(jù)庫。最后證明,圖數(shù)據(jù)庫的發(fā)展速度遠(yuǎn)遠(yuǎn)快于 RDF 數(shù)據(jù)庫。所以從實踐當(dāng)中總結(jié)出來的東西總是有生命力的,如果只是基于純理論的思考設(shè)計出來的東西通常是沒有生命力的。
Lean semantic Web
在整個領(lǐng)域發(fā)展過程中,我慢慢也有一些思考。后來我有一個博客叫“語義噪聲”,這里記錄了很多我對語義網(wǎng)大大小小事情的想法。那天統(tǒng)計了一下,加在一起大概有 300 多頁紙的內(nèi)容,如果有空了會整理出來給大家看。
這里我列舉了一些跟今天講課內(nèi)容關(guān)系比較緊密的東西,包括為什么語義網(wǎng)會不斷的去簡化,為什么鏈接數(shù)據(jù)最后要演化成所謂的知識圖譜。我之前的博客里都寫過,歡迎大家去看一看。
還有 github 上,大連理工大學(xué)的耿新鵬博士把我博客文章整理到 github 上了,大家不用翻墻就可以看得到了。
▌總結(jié)
其實知識圖譜從 2012 年谷歌提出之后,它進入了新的綜合的過程。知識圖譜在理論上并沒有特別大的進步,因為這些工程包括邏輯推理幾十年來一直都是這樣。進步的地方在哪里?通過實踐發(fā)現(xiàn),我們要想實現(xiàn)一個人工智能非常復(fù)雜的分支,其實是沒有辦法用那種學(xué)院派辦法來做的。我們只有理論結(jié)合實際,甚至從實踐中出發(fā)總結(jié)出產(chǎn)品來、總結(jié)出語言來,這樣?xùn)|西的生命力遠(yuǎn)遠(yuǎn)大于一群專家坐在屋子里討論出來的。
知識圖譜的領(lǐng)域從 2006 年往前一直不斷從弱語義到強語義的發(fā)展過程中,這個階段最后被證明是不太成功的。2006 年之后這個領(lǐng)域不斷的強調(diào)工程、強調(diào)應(yīng)用、強調(diào)數(shù)據(jù)、強調(diào)跟實踐最相關(guān)的東西,語義也進一步弱化,又從強語義再次回歸到弱語義。2012 年谷歌的知識圖譜是完全拋棄掉語義的。
從二十年來的歷史表明,從實踐中總結(jié)的方法要優(yōu)于從頂向下設(shè)計的方法。如果你有一個很好的想法或者一個很好的語言,并不能保證別人就能夠用起來,除了要貼合用戶的需求之外,還有大量工具工作和生產(chǎn)工具的工作,這就形成了產(chǎn)業(yè)鏈。
所以在知識圖譜領(lǐng)域,我們不能狹隘看它的某一種語言或者某一種技術(shù),它是一個體系的,就是一大堆結(jié)構(gòu)化數(shù)據(jù)從生產(chǎn)到存儲到檢索的全流程工具豐富程度,才決定這個技術(shù)能不能落地。簡單的優(yōu)于強大的,太過復(fù)雜的比如 OWL 最終用不起來,反而比較簡單的的像 RDF、最近比較火的 JSON-LD 用得越來越多。越簡單越好,這就是 20 年來最核心學(xué)習(xí)到的東西。
▌?wù)雇?/p>
知識圖譜從 2015 年之后,就在實踐中應(yīng)用越來越廣泛。經(jīng)過這幾年培育,在不同的領(lǐng)域里,像醫(yī)療、法律、金融都已經(jīng)有比較好的公司建立起市場口碑了。相信知識圖譜還會向更多其他的垂直領(lǐng)域進行滲透。
我們這幾年時間最主要的工作,不管在中國,還是在美國,都是促進了知識圖譜工具的建設(shè)。這是我今天晚上第三次強調(diào)工具了,如果你離開一整套的工具鏈條的話,比如校驗工具、編輯工具、檢索工具、推理工具,開發(fā)是非常難做的。
知識圖譜本質(zhì)上來說是一種程序,它是為了機器理解世界是什么時寫的一種程序。知識工程和軟件工程一樣,需要很多人在一起協(xié)作才能夠做好。我們經(jīng)過這幾十年軟件工程總結(jié)出一整套的打法來,可以讓比較笨的人或者專業(yè)度不那么強的人,也可以去做開發(fā)工作。對于知識工程而言,目前沒有達(dá)到那個點,這就是為什么知識工程那么貴的原因。但是我相信今后一段時間內(nèi)工具的建設(shè)會不斷改善,我們自己也在做一些工具,將來會提供給大家用。
▌相關(guān)資料
下面是是跟語義網(wǎng)有關(guān)的參考資料,我刻意沒有去列近期的東西,因為絕大多數(shù)重要的東西在 2012 年前就有了,2012 年之后的東西沒有那么太必要搞明白,我們優(yōu)先把這個領(lǐng)域本源的東西看一下,相信對大家是有價值的。如果大家對英文還 OK,我建議大家讀讀 W3C 一系列標(biāo)準(zhǔn),包括 RDF 有一個入門指南寫得非常好,OWL 也有一個入門指南是我參與寫作的。
總的來說,到目前為止知識圖譜在中國沒有特別好的書來講,王昊奮、漆桂林、陳華鈞老師他們正在寫。其他的包括知識抽取、知識檢索工具的總結(jié)在W3C上也有,歡迎大家去看一看,可以解惑。
-
自然語言處理
+關(guān)注
關(guān)注
1文章
625瀏覽量
13923 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7888
原文標(biāo)題:文因互聯(lián)鮑捷:深度解析知識圖譜發(fā)展關(guān)鍵階段及技術(shù)脈絡(luò) | 公開課筆記
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
NLPIR系統(tǒng)KGB知識圖譜技術(shù)助力大數(shù)據(jù)深度挖掘
NLPIR大數(shù)據(jù)知識圖譜完美展現(xiàn)文本數(shù)據(jù)內(nèi)容
KGB知識圖譜基于傳統(tǒng)知識工程的突破分析
KGB知識圖譜技術(shù)能夠解決哪些行業(yè)痛點?
知識圖譜的三種特性評析
KGB知識圖譜幫助金融機構(gòu)進行風(fēng)險預(yù)判
KGB知識圖譜通過智能搜索提升金融行業(yè)分析能力
領(lǐng)域知識圖譜落地實踐中的問題與對策
一文帶你讀懂知識圖譜
通用知識圖譜構(gòu)建技術(shù)的應(yīng)用及發(fā)展趨勢

知識圖譜是什么,它在安全領(lǐng)域的應(yīng)用分析
知識圖譜Knowledge Graph構(gòu)建與應(yīng)用
知識圖譜:知識圖譜的典型應(yīng)用

評論