在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度解析知識圖譜領(lǐng)域幾次發(fā)展的主要技術(shù)突破

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-08-27 10:41 ? 次閱讀

知識圖譜是人工智能三大分支之一——符號主義——在新時期主要的落地技術(shù)方式。該技術(shù)雖然在 2012 年才得名,但它的歷史淵源,卻可以追溯到更早的語義網(wǎng)、描述邏輯、和專家系統(tǒng)。在該技術(shù)的的歷史演變中,多次出現(xiàn)發(fā)展瓶頸,也多次以工程的方式突破了這些瓶頸。

AI科技大本營此次邀請到文因互聯(lián) CEO 鮑捷,作為知識圖譜領(lǐng)域形成過程的親歷者之一,他對知識圖譜的歷史淵源進行了梳理,深度解析了該領(lǐng)域幾次發(fā)展的主要技術(shù)突破,并分析了其工業(yè)落地的幾個關(guān)鍵點。

鮑捷,文因互聯(lián) CEO,聯(lián)合創(chuàng)始人。他曾是三星美國研發(fā)中心研究員,倫斯勒理工學(xué)院(RPI)博士后。他是中國中文信息學(xué)會語言與知識計算專委會委員,W3C 顧問委員會委員,中國計算機協(xié)會會刊編委,中文開放知識圖譜聯(lián)盟(OpenKG)發(fā)起人之一。他的研究領(lǐng)域涉及人工智能諸多方向,如自然語言處理、語義網(wǎng)、機器學(xué)習(xí)、描述邏輯、信息論、神經(jīng)網(wǎng)絡(luò)、圖像識別等,已發(fā)表 70 多篇論文。

▌什么是知識圖譜?

知識圖譜到底是什么?坦白說我也沒有特別好的答案,知識圖譜從某種程度來說是一個營銷名詞,是 2012 年谷歌提出了這樣一個項目叫“Knowledge Graph”。

一個有意思的定義是王昊奮老師提出來的:知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標(biāo)識,稱為它們的標(biāo)識符。每個屬性-值對用來刻畫實體的內(nèi)在特性,而關(guān)系用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。

但是在實踐中我們并不需要太過糾結(jié)什么叫知識圖譜,什么不是知識圖譜。有人問我說是否必須要用RDF(資源描述框架)才是知識圖譜?或者說是不是必須用Neo4j圖數(shù)據(jù)庫才是知識圖譜?其實不是。不在于你具體用了哪一種Syntax,哪一種數(shù)據(jù)存儲的數(shù)據(jù)庫。關(guān)鍵是它的本質(zhì)是什么。

理解本質(zhì)從了解知識圖譜的演化過程入手。

▌知識圖譜的演化

知識圖譜這個概念是最近四、五年才為大家所知的,但是這個技術(shù)本身有非常深厚的發(fā)展基礎(chǔ),我把這個過程分成六個階段,合并一下之后大概分成兩個比較重要的階段。

往前溯可以追溯到五六十年代前,因為在人工智能這個領(lǐng)域里,知識工程作為一個分支很早就有了。人工智能在大體上有三個比較大的分支,一個是神經(jīng)網(wǎng)絡(luò),叫連接主義學(xué)派,另外一個叫統(tǒng)計或者經(jīng)驗主義學(xué)派,后來就衍生出了機器學(xué)習(xí),最后一個知識工程這個方向,我們叫它理性主義或者符號主義,是從 1956 年這個學(xué)科形成時就有的分支。

在六十年代、七十年代的時候,知識工程這個領(lǐng)域往前發(fā)展,不斷的產(chǎn)生出新的邏輯語言和新的實用方法,像描述邏輯是七十年代就興起了的。在六十年代時就有一個叫“Frame Network”(aka “Semantic Network”),語義網(wǎng)絡(luò)。注意,不是“語義網(wǎng)”而是“語義網(wǎng)絡(luò)”,那個時候的語義網(wǎng)絡(luò)跟現(xiàn)在的知識圖譜非常像。所以這個是不斷循環(huán)的,如果我們把六十年的學(xué)科發(fā)展抽象來看,實際上就是一個從簡單到復(fù)雜、再從復(fù)雜回歸簡單的過程。

從最終得到的結(jié)果來看,好像我們現(xiàn)在得到的知識圖譜跟六十年代就已經(jīng)有的語義網(wǎng)絡(luò)非常像,但這種像只是表面上的。因為在發(fā)展過程中,我們構(gòu)造了一個龐大的工業(yè)體系,以及如何從各種各樣的文檔、各種各樣的數(shù)據(jù)里集中編輯、生成知識圖譜的一整套工業(yè)鏈。所以一個技術(shù)不能只看它的定義,而是要看它相關(guān)所有實踐過程中工業(yè)體系的總和。今天知識圖譜的技術(shù)無論從深度還是廣度上,都遠(yuǎn)遠(yuǎn)超越六十年代的語義網(wǎng)絡(luò)技術(shù)。

八十年代、九十年代、到兩千年,這中間還有非常多中間技術(shù),我們從中選些重要的事情說一下。

▌?wù)Z義網(wǎng)絡(luò)

這張圖是對前面那張圖的抽象,我們選其中發(fā)展過程中最重要的節(jié)點。六十年代有一種東西叫“語義網(wǎng)絡(luò)”,語義網(wǎng)絡(luò)在七十年代、八十年代時演化成了描述邏輯。為什么會有這種變化?因為語義網(wǎng)絡(luò)本身只是一種表征,并不具備推理能力。語義網(wǎng)絡(luò)+推理變成了新的邏輯系統(tǒng),叫“描述邏輯”,描述邏輯到兩千年前后跟 Web 技術(shù)結(jié)合在一起,形成了新的語言,比如 OIL 、DAML。

另外一個分支是 1995 年前后有了元數(shù)據(jù),從元數(shù)據(jù)學(xué)科衍生出一個分支叫 RDF,后來 RDF 和 DAML 合并起來就變成了 OWL。下面還有一些更工程的內(nèi)容,包括 schema.org、RDFa、JOSN-LD、GraphpDB,這都是最近 5、6 年興起的新技術(shù)。這些技術(shù)的總和就構(gòu)成了我們所稱的“知識圖譜”技術(shù),但只是其中一部分。

給大家看一個語義網(wǎng)絡(luò),語義網(wǎng)絡(luò)其實就是一個網(wǎng)絡(luò)。這張圖上有各種不同的概念,比如中間的 Mammal 是哺乳動物,貓(cat) 是一種哺乳動物,貓有毛;熊是哺乳動物,熊也有毛;鯨是一種哺乳動物,鯨在水里面生活;魚也在水里面生活,也是一種動物;哺乳動物是一種脊椎動物,也是動物的一種。

所有這些節(jié)點和邊的總和就構(gòu)成了一個網(wǎng)絡(luò),每一條邊上都有一些標(biāo)志的,用術(shù)語來說就是“有類型的邊”,這種“有類型的邊”連在一起的節(jié)點叫“語義網(wǎng)絡(luò)”,概念是非常簡單的。

六十年代時自然語言處理和知識表現(xiàn)的大拿批評這種語義網(wǎng)絡(luò),說這個東西沒辦法用于推理,用術(shù)語來說是最后沒有“semantics”。這里涉及很多關(guān)系,什么叫 semantics?有的學(xué)者認(rèn)為 semantics 必須是有一套嚴(yán)格的語義定義,這通常是用模型論來定義,或者過程方法來定義。其實也有更淺的對語義的理解,萬事萬物之間的關(guān)系就是語義。比如我們打開字典,字典是用一些詞定義另外一些詞,這就是語義。

我們在這樣的語義網(wǎng)絡(luò)里,如何定義一個詞的意義?其實我們是做不到的。比如在這個語義網(wǎng)絡(luò)里,居于中間位置的詞是“哺乳動物”,它到底是什么?我們很難讓計算機理解什么是真正的哺乳動物,很難通過它的內(nèi)涵含義來理解。對于計算機而言,它只能知道萬事萬物之間的聯(lián)系,也許這對于機器自動處理來說就夠了。所以語義網(wǎng)絡(luò)盡管沒有所謂的語義,我們還是把它稱為語義網(wǎng)絡(luò)的原因,因為語義就是關(guān)系。

▌描述邏輯

到了八十年代時,描述邏輯就已經(jīng)比較成熟了。描述邏輯是邏輯的一種,我在這里面列了一張表,這是描述邏輯和一階邏輯 (FOL 邏輯)之間的對應(yīng)。如果大家沒有邏輯基礎(chǔ)也不用害怕,因為這個圖本質(zhì)上是講很基礎(chǔ)的邏輯定義。

我們有了一個描述邏輯之后,就可以用計算機來做一些自動推理的工作。八十年代到九十年代,描述邏輯學(xué)者們一直都在尋找如何讓計算機更好的進行邏輯推理,一些比較可判定的所謂計算機不會死機的那些問題的總和,這種語言稱為“描述邏輯”。

▌OWL

到九十年代時描述邏輯成為知識表現(xiàn)領(lǐng)域的一種非常顯學(xué)、非常重要的分支,正好這時互聯(lián)網(wǎng)興起了。到了 1995 年前后開始了真正知識圖譜化的第一步,開始把描述邏輯用互聯(lián)網(wǎng)的語言來重新來表征,有人用 HTML,也有人用 XML。1999 年馬里蘭大學(xué)開始發(fā)布了第一個這樣的語言,叫“SHOE”。后來這個語言被美國的國防部高等研究所資助了一個項目叫“DAML”,這就是第一個在美國這邊把知識表現(xiàn)語言放在網(wǎng)上一種官方的努力。

與此同時,在歐洲也有一個非常相似的努力叫“OIL”,大西洋兩岸的同行們一看,大家做的事情非常相似,于是在 2001 年時 W3C 開始把兩邊的努力匯總在一起,出現(xiàn)了一個語言叫“DAML+OIL”。到了 2004 年時 W3C 進一步協(xié)調(diào)大家的努力,合并了一個新的語言叫“OWL”,2009年發(fā)布了第二版,叫“OWL2”。

從九十年代到 2009 年這十幾年期間,這個領(lǐng)域不斷向上、向好積極發(fā)展,在那個時候我們曾經(jīng)認(rèn)為 OWL 是描述這個世界非常好的一種工具,因為它對于機器處理是非常友好的,所以我們就希望把它放到互聯(lián)網(wǎng)上去,讓更多人用到,但是這個設(shè)想后來并沒有實現(xiàn)。

▌W3C OWL 工作組的瓶頸

這里多說幾句 OWL,因為我是 OWL 工作組的一員,所以知道一些早期的事情。OWL有兩個工作組,最早的一個工作組是在 2000-2004 年之間,我趕上的是 2007-2010 年的第二個工作組,這個工作組的使命是把現(xiàn)有的 OWL 語言進一步完善,提供所謂更強的表達(dá)力,或者在機器處理上比如要進行語義數(shù)據(jù)的查詢,我們應(yīng)該用什么樣的,什么可以用、什么不能用、什么能說、什么不能說、什么對機器是友好的,OWL 工作組就是做這個事情。

我們寫了 10 來個文檔,加在一起 600 多頁紙,花了兩年時間做這個事情。OWL 工作組除了大學(xué)里來的人,還有一些企業(yè)的成員,包括 IBM、Oracle、惠普等等,還有一些小的創(chuàng)業(yè)公司。

那個時候我們這個領(lǐng)域遇到了一些瓶頸的,就是 OWL 這個語言或者語義網(wǎng)整個領(lǐng)域,在 2000 年前后是大家非常寄予厚望的,就好像現(xiàn)在大家對于深度學(xué)習(xí)寄予厚望一樣。但是往前走到 2006 年前后遇到了瓶頸,就是沒有人真的去產(chǎn)生這樣的數(shù)據(jù),大多數(shù)日常場景用不到語義。于是這時候就產(chǎn)生了內(nèi)部的路線斗爭,叫“SEMANTIC Web or semantic WEB”,就是到底我們是加強語義呢?還是加強互聯(lián)網(wǎng)屬性呢?有兩組不同的人不斷進行爭執(zhí)。

當(dāng)然,還有很多其他的分歧,包括我們到底該怎么去定義什么叫“簡單”,大家沒有一致的意見。所以我們最終生成的文檔從學(xué)術(shù)角度來說是非常有價值,但是對于工業(yè)應(yīng)用特別是 C 端的互聯(lián)網(wǎng)應(yīng)用沒有達(dá)到預(yù)期。

小結(jié) :從弱語義到強語義的嘗試(邏輯)

前面這一段大體總結(jié)了知識圖譜技術(shù)發(fā)展的前兩個大的階段歷史,一個是從六十年代到九十年代,早期知識圖譜的原型,包括語義網(wǎng)絡(luò)等等,后面一系列的技術(shù)。

從 2001-2006 年或者 2007 年這段時間,是不斷加強語義網(wǎng)所謂的語義的過程,就是從弱語義到強語義,從語義網(wǎng)絡(luò)到描述邏輯,一直發(fā)展到 OWL,并行還有另外其他一些,比如基于框架邏輯還有另外一個語言叫“RIF”。這十幾年時間都一直不斷在加強語義表現(xiàn)的表達(dá)力,但最后證明這個做法是不太妥當(dāng)?shù)摹?/p>

▌元數(shù)據(jù)框架到 RDF

我們講過,除了學(xué)術(shù)性非常強的描述邏輯 OWL 分支之外,知識圖譜還有另外一個分支是來自于元數(shù)據(jù)框架的。這個工作最早是 Guha 在 Apple 做的,Guha 這個人是非常值得關(guān)注的,因為某種程度上他是“知識圖譜之父”,在 1995 年時他在 Apple 發(fā)明了一個語言叫“MCF”,因為他那時候面臨一些問題,就是怎么去表征多媒體的數(shù)據(jù),特別是圖像的數(shù)據(jù),所以他就發(fā)明了一整套的元數(shù)據(jù)表征方法。

到了 1997 年時 Guha 跟Tim Bray 做了 RDF/XML。1999 年網(wǎng)景公司發(fā)明了 RSS 語言,這個東西現(xiàn)在新一代的朋友們不一定知道了,回到 10 年前時看新聞都是用 RSS 訂閱的,其實 RSS 的第一個 R 就是 RDF。后來他們改了其他的名字,從本源上來講,技術(shù)剛剛開始的時候這個技術(shù)是 RDF 的應(yīng)用。1999 年 RDF 被 W3C 收編了,變成了國際標(biāo)準(zhǔn)。

▌RDF

什么是 RDF?這里給一個例子,它是非常簡單的語言,本質(zhì)上是三元組,主語、謂語、賓語就是個三元組。比如“我叫鮑婕”,“我”是主語,“是”是謂語,“鮑捷”是賓語。在 RDF 這個框架下,萬事萬物各種復(fù)雜的關(guān)系最后都被拆分成三元組,如果從圖形來表示,三元組就是一個主語、一個謂語,中間有一條線一個箭頭是賓語,可以把各種各樣的模型都分解成這樣的三元組。

從 1997 年有了 RDF,1998 年有了 RDFS,2004 年邏輯學(xué)家給 RDF 加了一個語義,因為他們認(rèn)為 RDF 必須要能夠推理,所以 2014 年進一步加強,最后有了 RDF1.1,這是 RDF 大概 20 多年的發(fā)展史。

小結(jié):從弱語義到強語義的嘗試(元數(shù)據(jù))

RDF 和一開始提到描述邏輯方法是不一樣的,因為描述邏輯方法是從實驗室里來的,它想構(gòu)造一個龐大的體系,構(gòu)建一個完美的知識表現(xiàn)語言,然后再尋找它的落地。

而 RDF 從一開始就是一個從實踐出發(fā)的、自底向上的一個語言。RDF 相對于 OWL 而言,是一個更加偏工程的、應(yīng)用更多的語言,現(xiàn)在有很多人在用 RDF。我們?nèi)粘I钪兴龅降慕^大多數(shù)網(wǎng)站,現(xiàn)在都有某種類型的元數(shù)據(jù),其中相當(dāng)一部分就是用 RDF 不同的變種來實現(xiàn)的,所以 RDF 總的來說是一個比較成功的技術(shù),因為它是來自于現(xiàn)實的技術(shù)。

▌關(guān)聯(lián)數(shù)據(jù) Linked Data

從 2001 年這個領(lǐng)域正式形成,到 2006 年時語義網(wǎng)的技術(shù)堆棧已經(jīng)變得非常復(fù)雜了。1999 年時有一個所謂的“語義網(wǎng)蛋糕模型”,對語義網(wǎng)不同的技術(shù)做了羅列。2006 年時語義網(wǎng)技術(shù)已經(jīng)復(fù)雜到?jīng)]有人看得懂,沒有辦法用二維表達(dá),必須用一個三維的圖才能夠把語義網(wǎng)所有的技術(shù)放在里面。這就帶來了一個嚴(yán)重的問題,就是絕大多數(shù)的企業(yè)、開發(fā)者很難理解,無從下手。

到了 2006 年時我們的“神”Tim Berners-Lee 出來思考這個問題,他想與其要求大家現(xiàn)在把數(shù)據(jù)搞得很漂亮,不如讓大家把數(shù)據(jù)公開出來。只要數(shù)據(jù)能夠公開出來,數(shù)據(jù)能夠連在一起,我們就會建立一個生態(tài),這套想法他稱為“關(guān)聯(lián)數(shù)據(jù)”。

他提出了數(shù)據(jù)發(fā)布的基本原則,上圖是我從他的博客上面提取出來的,我也非常推薦大家好好看他的博客“Design Issues”,Tim Berners-Lee 會提前 20 年時間去想人類的未來是什么樣的,我們的 Web 到底應(yīng)該遵循什么樣的原則。

在關(guān)聯(lián)數(shù)據(jù)的定義上,他定義了幾層什么是好的關(guān)聯(lián)數(shù)據(jù):第一是在網(wǎng)上,一顆星;二是機器能夠自動讀,這就有兩顆星;三是盡可能用一個公有的格式,不要是某個公司私有的,這樣能夠促進公開交換,做到這點就有三顆星;因為是 W3C 提出來的,必須用 RDF,用 RDF 就有四顆星;如果 RDF 有 ID 把它連在一起就是五顆星。這就是 Tim Berners-Lee 提出的關(guān)聯(lián)數(shù)據(jù)的五星標(biāo)準(zhǔn)。

小結(jié):從強語義到弱語義的嘗試(關(guān)聯(lián)數(shù)據(jù))

2006 年之所以 Tim Berners-Lee 要推進這個轉(zhuǎn)變,就是因為他當(dāng)時看到了有些風(fēng)險。語義網(wǎng)的頭 5 年時間并不是特別成功,因為沒有人愿意發(fā)布數(shù)據(jù),這時候 Tim Berners-Lee 出來帶領(lǐng)大家調(diào)整方向,不要再去強調(diào)很強的語義和推理了,可能一個比較弱的語義或者一個結(jié)構(gòu)化本身就已經(jīng)足夠了,這就是 Tim Berners-Lee 用“關(guān)聯(lián)數(shù)據(jù)”概念再次盤活了這個領(lǐng)域。

▌新的綜合:交換語言

這張圖上總結(jié)了知識交換語言一系列的發(fā)展,剛才提到 RDF,RDF+HTML,變成了 RDFa,還有另外一種叫 Microformat,這都是非常多網(wǎng)站上已經(jīng)用到的元數(shù)據(jù)語言。RDF+HTML5 就變成了 Microdata,RDF+JSON 就變成了 JSON-LD。所以傳統(tǒng)的 RDF semantics 就是基于 XML 的 semantics,現(xiàn)在不太多見了,因為那個東西非常復(fù)雜,學(xué)習(xí)成本非常高。

現(xiàn)在我們看到的大部分 RDF 從概念上是 RDF 的變種,但是語法形式在網(wǎng)站上打開元代碼看都有元數(shù)據(jù)。大概 3 年前統(tǒng)計,有 30% 的網(wǎng)頁已經(jīng)有語義數(shù)據(jù)了,現(xiàn)在應(yīng)該至少超過一半的網(wǎng)站都有語義數(shù)據(jù),所以 RDF 是很成功的一個東西。

▌新的綜合:存儲語言(圖數(shù)據(jù)庫)

當(dāng)數(shù)據(jù)多了以后面臨另外一個問題,就是如何去存儲和操作知識圖譜的應(yīng)用數(shù)據(jù)。大公司和小公司各自有自己不同的解決方案,統(tǒng)稱為“圖數(shù)據(jù)庫”。為什么語義網(wǎng)的數(shù)據(jù)庫稱它為“圖數(shù)據(jù)庫”?前面幾張 PPT 講到 RDF 時,其實 RDF 就是各種事情之間的關(guān)聯(lián),我們把這種關(guān)聯(lián)畫出來,變成很大的一個圖,很自然的就用圖數(shù)據(jù)庫進行知識圖譜的存儲。所以谷歌、微軟各個大廠都有自己的圖數(shù)據(jù)庫,至少是定制化的數(shù)據(jù)庫。

圖數(shù)據(jù)庫這件事情上后來產(chǎn)生了兩個新的流派,一個流派叫“RDF 數(shù)據(jù)庫”,另外一個叫“屬性圖數(shù)據(jù)庫”,雖然同樣是圖,但兩種數(shù)據(jù)庫關(guān)聯(lián)系統(tǒng)的定義是完全不一樣的。因為 RDF 這種圖本質(zhì)上強調(diào)推理邏輯;而屬性圖要放開很多,而且屬性圖發(fā)展過程中工程化做得非常好。

小結(jié):從強語義到弱語義的嘗試(圖數(shù)據(jù)庫)

在圖數(shù)據(jù)庫的嘗試當(dāng)中,我們再次把語義給弱化了,從強語義到弱語義,因為如果我們用強語義就用 RDF 數(shù)據(jù)庫,如果我們允許有弱語義就可以用圖數(shù)據(jù)庫。最后證明,圖數(shù)據(jù)庫的發(fā)展速度遠(yuǎn)遠(yuǎn)快于 RDF 數(shù)據(jù)庫。所以從實踐當(dāng)中總結(jié)出來的東西總是有生命力的,如果只是基于純理論的思考設(shè)計出來的東西通常是沒有生命力的。

Lean semantic Web

在整個領(lǐng)域發(fā)展過程中,我慢慢也有一些思考。后來我有一個博客叫“語義噪聲”,這里記錄了很多我對語義網(wǎng)大大小小事情的想法。那天統(tǒng)計了一下,加在一起大概有 300 多頁紙的內(nèi)容,如果有空了會整理出來給大家看。

這里我列舉了一些跟今天講課內(nèi)容關(guān)系比較緊密的東西,包括為什么語義網(wǎng)會不斷的去簡化,為什么鏈接數(shù)據(jù)最后要演化成所謂的知識圖譜。我之前的博客里都寫過,歡迎大家去看一看。

還有 github 上,大連理工大學(xué)的耿新鵬博士把我博客文章整理到 github 上了,大家不用翻墻就可以看得到了。

▌總結(jié)

其實知識圖譜從 2012 年谷歌提出之后,它進入了新的綜合的過程。知識圖譜在理論上并沒有特別大的進步,因為這些工程包括邏輯推理幾十年來一直都是這樣。進步的地方在哪里?通過實踐發(fā)現(xiàn),我們要想實現(xiàn)一個人工智能非常復(fù)雜的分支,其實是沒有辦法用那種學(xué)院派辦法來做的。我們只有理論結(jié)合實際,甚至從實踐中出發(fā)總結(jié)出產(chǎn)品來、總結(jié)出語言來,這樣?xùn)|西的生命力遠(yuǎn)遠(yuǎn)大于一群專家坐在屋子里討論出來的。

知識圖譜的領(lǐng)域從 2006 年往前一直不斷從弱語義到強語義的發(fā)展過程中,這個階段最后被證明是不太成功的。2006 年之后這個領(lǐng)域不斷的強調(diào)工程、強調(diào)應(yīng)用、強調(diào)數(shù)據(jù)、強調(diào)跟實踐最相關(guān)的東西,語義也進一步弱化,又從強語義再次回歸到弱語義。2012 年谷歌的知識圖譜是完全拋棄掉語義的。

從二十年來的歷史表明,從實踐中總結(jié)的方法要優(yōu)于從頂向下設(shè)計的方法。如果你有一個很好的想法或者一個很好的語言,并不能保證別人就能夠用起來,除了要貼合用戶的需求之外,還有大量工具工作和生產(chǎn)工具的工作,這就形成了產(chǎn)業(yè)鏈。

所以在知識圖譜領(lǐng)域,我們不能狹隘看它的某一種語言或者某一種技術(shù),它是一個體系的,就是一大堆結(jié)構(gòu)化數(shù)據(jù)從生產(chǎn)到存儲到檢索的全流程工具豐富程度,才決定這個技術(shù)能不能落地。簡單的優(yōu)于強大的,太過復(fù)雜的比如 OWL 最終用不起來,反而比較簡單的的像 RDF、最近比較火的 JSON-LD 用得越來越多。越簡單越好,這就是 20 年來最核心學(xué)習(xí)到的東西。

▌?wù)雇?/p>

知識圖譜從 2015 年之后,就在實踐中應(yīng)用越來越廣泛。經(jīng)過這幾年培育,在不同的領(lǐng)域里,像醫(yī)療、法律、金融都已經(jīng)有比較好的公司建立起市場口碑了。相信知識圖譜還會向更多其他的垂直領(lǐng)域進行滲透。

我們這幾年時間最主要的工作,不管在中國,還是在美國,都是促進了知識圖譜工具的建設(shè)。這是我今天晚上第三次強調(diào)工具了,如果你離開一整套的工具鏈條的話,比如校驗工具、編輯工具、檢索工具、推理工具,開發(fā)是非常難做的。

知識圖譜本質(zhì)上來說是一種程序,它是為了機器理解世界是什么時寫的一種程序。知識工程和軟件工程一樣,需要很多人在一起協(xié)作才能夠做好。我們經(jīng)過這幾十年軟件工程總結(jié)出一整套的打法來,可以讓比較笨的人或者專業(yè)度不那么強的人,也可以去做開發(fā)工作。對于知識工程而言,目前沒有達(dá)到那個點,這就是為什么知識工程那么貴的原因。但是我相信今后一段時間內(nèi)工具的建設(shè)會不斷改善,我們自己也在做一些工具,將來會提供給大家用。

▌相關(guān)資料

下面是是跟語義網(wǎng)有關(guān)的參考資料,我刻意沒有去列近期的東西,因為絕大多數(shù)重要的東西在 2012 年前就有了,2012 年之后的東西沒有那么太必要搞明白,我們優(yōu)先把這個領(lǐng)域本源的東西看一下,相信對大家是有價值的。如果大家對英文還 OK,我建議大家讀讀 W3C 一系列標(biāo)準(zhǔn),包括 RDF 有一個入門指南寫得非常好,OWL 也有一個入門指南是我參與寫作的。

總的來說,到目前為止知識圖譜在中國沒有特別好的書來講,王昊奮、漆桂林、陳華鈞老師他們正在寫。其他的包括知識抽取、知識檢索工具的總結(jié)在W3C上也有,歡迎大家去看一看,可以解惑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    625

    瀏覽量

    13923
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7888

原文標(biāo)題:文因互聯(lián)鮑捷:深度解析知識圖譜發(fā)展關(guān)鍵階段及技術(shù)脈絡(luò) | 公開課筆記

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    NLPIR系統(tǒng)KGB知識圖譜技術(shù)助力大數(shù)據(jù)深度挖掘

    了從表格中抽取指定的內(nèi)容等。KGB同時可以定義不同的動作,如抽取動作,并能自定義各類后處理程序。利用KGB知識圖譜引擎可以抽取到產(chǎn)品的詳細(xì)報價信息,方便進行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建?! ?shù)據(jù)挖掘技術(shù)
    發(fā)表于 12-05 11:49

    NLPIR大數(shù)據(jù)知識圖譜完美展現(xiàn)文本數(shù)據(jù)內(nèi)容

    檢查知識庫,糾正知識錯誤與沖突,保證知識圖譜正確性與一致性?! ‰S著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和
    發(fā)表于 07-01 11:40

    知識圖譜相關(guān)應(yīng)用

    智慧風(fēng)控的背后,是知識圖譜深度應(yīng)用
    發(fā)表于 08-22 14:40

    KGB知識圖譜基于傳統(tǒng)知識工程的突破分析

    知識庫構(gòu)建主要依靠人工構(gòu)建、代價高昂、規(guī)模有限,投入極大且效率不高。同時,傳統(tǒng)知識圖譜不具有深度知識結(jié)構(gòu),無法解決專業(yè)的業(yè)務(wù)問題?;ヂ?lián)網(wǎng)時代
    發(fā)表于 10-22 15:25

    KGB知識圖譜技術(shù)能夠解決哪些行業(yè)痛點?

    `知識圖譜和行業(yè)應(yīng)用相互結(jié)合時,需要充分發(fā)揮其技術(shù)特色,且要適用于現(xiàn)在的企業(yè)應(yīng)用。那么知識圖譜的應(yīng)用可以解決那些行業(yè)問題呢?知識圖譜在行業(yè)應(yīng)用方面實現(xiàn)的
    發(fā)表于 10-30 15:34

    知識圖譜的三種特性評析

    知識圖譜的應(yīng)用對技術(shù)本身也提出了高要求,KGB知識圖譜現(xiàn)在已經(jīng)在保險行業(yè),為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應(yīng)用,知識圖譜能夠在應(yīng)用中發(fā)揮優(yōu)勢主要
    發(fā)表于 12-13 13:57

    KGB知識圖譜幫助金融機構(gòu)進行風(fēng)險預(yù)判

    風(fēng)險預(yù)測。KGB知識圖譜功能包括:1.文檔解析:KGB知識圖譜引擎,可輕松解析多種格式與版本文檔:TXT、DOC、EXCEL、PPT、PDF、XML等。尤其是PDF文件,可直接
    發(fā)表于 06-18 23:07

    KGB知識圖譜通過智能搜索提升金融行業(yè)分析能力

    的自然語言處理技術(shù),搭建專業(yè)領(lǐng)域深度知識圖譜,快速學(xué)習(xí)并迭代金融行業(yè)最新知識,構(gòu)建一二級市場眾多實體模型,智能化的理解用戶的搜索請求,使得搜
    發(fā)表于 06-22 21:23

    領(lǐng)域知識圖譜落地實踐中的問題與對策

    近年來,知識圖譜技術(shù)進展迅速,各種領(lǐng)域知識圖譜技術(shù)在很多領(lǐng)域或行業(yè)取得了顯著落地效果。在
    的頭像 發(fā)表于 08-07 08:21 ?1.1w次閱讀

    一文帶你讀懂知識圖譜

    節(jié)點(Point)和邊(Edge)組成 1.2 每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系” 1.3 知識圖譜是關(guān)系的最有效的表示方式 所以,知識圖譜本質(zhì)上就是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu); 2 知識圖譜
    的頭像 發(fā)表于 12-26 10:23 ?3982次閱讀

    通用知識圖譜構(gòu)建技術(shù)的應(yīng)用及發(fā)展趨勢

    知識圖譜的概念由谷歌于2012年提出,隨后逐漸成為人工智能領(lǐng)域的一饣研究熱點,已在信息搜索、自動問答、決策分析等應(yīng)用中發(fā)揮作用。雖然知識圖譜在各領(lǐng)域展現(xiàn)出了巨大的潛力,但不難發(fā)現(xiàn)目前缺
    發(fā)表于 04-14 11:37 ?27次下載
    通用<b class='flag-5'>知識圖譜</b>構(gòu)建<b class='flag-5'>技術(shù)</b>的應(yīng)用及<b class='flag-5'>發(fā)展</b>趨勢

    知識圖譜是NLP的未來嗎?

    我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識圖譜是最有可能長期和NL
    的頭像 發(fā)表于 04-15 14:36 ?3843次閱讀
    <b class='flag-5'>知識圖譜</b>是NLP的未來嗎?

    知識圖譜是什么,它在安全領(lǐng)域的應(yīng)用分析

    知識圖譜及其在安全領(lǐng)域的應(yīng)用 人工智能技術(shù)與咨詢? 本文作者 作者:Toky , 由 Seebug Paper 發(fā)布 1. 知識圖譜是什么? 1.1
    發(fā)表于 12-04 16:01 ?1962次閱讀

    知識圖譜Knowledge Graph構(gòu)建與應(yīng)用

    一、知識圖譜概論 ? ? ? ? 1.1知識圖譜的起源和歷史 1.2知識圖譜發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識圖譜 1.3
    發(fā)表于 09-17 10:12 ?795次閱讀

    知識圖譜知識圖譜的典型應(yīng)用

    作者:?cooldream2009? 我們構(gòu)建知識圖譜的目的,在于利用知識圖譜來做一些事情。有效利用知識圖譜,就是要考慮知識圖譜的具備的能力,知識圖
    的頭像 發(fā)表于 10-18 09:26 ?2425次閱讀
    <b class='flag-5'>知識圖譜</b>:<b class='flag-5'>知識圖譜</b>的典型應(yīng)用
    主站蜘蛛池模板: 永久看免费bbbbb视频 | 色午夜影院 | 美女免费视频是黄的 | 亚洲我射| 日本不卡1 | 男女吃奶一进一出动态图 | 日本免费一区二区三区视频 | 四虎精品久久 | 免费观看四虎精品国产永久 | 日本黄色美女视频 | 日本黄色片在线观看 | 香蕉视频vip| 亚洲午夜视频 | 国产成人福利夜色影视 | 91精品啪国产在线观看免费牛牛 | 色噜噜成人综合网站 | 尻美女视频 | 性欧美丰满xxxx性久久久 | 国产一区二区三区毛片 | 毛片毛多 | 国产一级αv片免费观看 | 一区二区三区伦理 | 国产黄色片在线观看 | 国产成人亚洲精品77 | 视频在线色 | 中国videos偷窥 | 欧美一区二区三区四区视频 | 日本一区视频 | 免费视频一区 | 综合色天天 | 国产在线精品观看 | 天天摸天天操天天射 | 男人午夜视频 | 很黄很污的视频网站 | 午夜免费福利片 | 午夜毛片不卡高清免费 | 色天网站| 欧洲亚洲国产精华液 | 拍拍拍美女黄色1000视频 | 婷婷丁香社区 | 一级做a爰片久久毛片人呢 一级做a爰片久久毛片图片 |