知識圖譜(Knowledge Graph)是人工智能的重要分支技術,它在2012年由谷歌提出,成為建立大規模知識的殺手锏應用,在搜索、自然語言處理、智能助手、電子商務等領域發揮著重要作用。知識圖譜與大數據、深度學習,這三大“秘密武器”已經成為推動互聯網和人工智能發展的核心驅動力之一。
知識圖譜的概念與分類
知識圖譜(Knowledge Graph)于2012年由谷歌提出并成功應用于搜索引擎當中。它以結構化的形式描述客觀世界中概念、實體及其之間的關系,將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力。 知識圖譜的分類方式很多,例如可以通過知識種類、構建方法等劃分。從領域上來說,知識圖譜通常分為兩種:通用知識圖譜、特定領域知識圖譜。
常見的知識圖譜示意圖主要包含有三種節點:實體、概念、屬性。 實體指的是具有可區別性且獨立存在的某種事物。如某一個人、某一座城市、某一種植物、某一件商品等等。世界萬物由具體事物組成,此指實體。實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。 概念指的是具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。 屬性則用于區分概念的特征,不同概念具有不同的屬性。不同的屬性值類型對應于不同類型屬性的邊。如果屬性值對應的是概念或實體,則屬性描述兩個實體之間的關系,稱為對象屬性;如果屬性值是具體的數值,則稱為數據屬性。
知識圖譜的三大典型應用
現在以商業搜索引擎公司為首的互聯網巨頭已經意識到知識圖譜的戰略意義,紛紛投入重兵布局知識圖譜,并對搜索引擎形態日益產生重要的影響。如何根據業務需求設計實現知識圖譜應用,并基于數據特點進行優化調整,是知識圖譜應用的關鍵研究內容。 知識圖譜的典型應用包括語義搜索、智能問答以及可視化決策支持三種。
1、語義搜索
當前基于關鍵詞的搜索技術在知識圖譜的知識支持下可以上升到基于實體和關系的檢索,稱之為語義搜索。 語義搜索可以利用知識圖譜可以準確地捕捉用戶搜索意圖,進而基于知識圖譜中的知識解決傳統搜索中遇到的關鍵字語義多樣性及語義消歧的難題,通過實體鏈接實現知識與文檔的混合檢索。 語義檢索需要考慮如何解決自然語言輸入帶來的表達多樣性問題,同時需要解決語言中實體的歧義性問題。同時借助于知識圖譜,語義檢索需要直接給出滿足用戶搜索意圖的答案,而不是包含關鍵詞的相關網頁的鏈接。
2、智能問答
問答系統(Question Answering,QA)是信息服務的一種高級形式,能夠讓計算機自動回答用戶所提出的問題。不同于現有的搜索引擎,問答系統返回用戶的不再是基于關鍵詞匹配的相關文檔排序,而是精準的自然語言形式的答案。
智能問答系統被看作是未來信息服務的顛覆性技術之一,亦被認為是機器具備語言理解能力的主要驗證手段之一。
智能問答需要針對用戶輸入的自然語言進行理解,從知識圖譜中或目標數據中給出用戶問題的答案,其關鍵技術及難點包括準確的語義解析、正確理解用戶的真實意圖、以及對返回答案的評分評定以確定優先級順序。
3、可視化決策支持
可視化決策支持是指通過提供統一的圖形接口,結合可視化、推理、檢索等,為用戶提供信息獲取的入口。例如,決策支持可以通過圖譜可視化技術對創投圖譜中的初創公司發展情況、投資機構投資偏好等信息進行解讀,通過節點探索、路徑發現、關聯探尋等可視化分析技術展示公司的全方位信息。
可視化決策支持需要考慮的關鍵問題包括通過可視化方式輔助用戶快速發現業務模式、提升可視化組件的交互友好程度、以及大規模圖環境下底層算法的效率等。
知識工程的五個發展階段
知識圖譜技術屬于知識工程的一部分。1994年,圖靈獎獲得者、知識工程的建立者費根鮑姆給出了知識工程定義——將知識集成到計算機系統,從而完成只有特定領域專家才能完成的復雜任務。 回顧知識工程這四十多年來的發展歷程,我們可以將知識工程分成五個標志性的階段:前知識工程時期、專家系統時期、萬維網1.0時期、群體智能時期、以及知識圖譜時期,如下圖所示。
1)1950-1970時期:圖靈測試—知識工程誕生前期 這一階段主要有兩個方法:符號主義和連結主義。符號主義認為物理符號系統是智能行為的充要條件,連結主義則認為大腦(神經元及其連接機制)是一切智能活動的基礎。 這一時期的知識表示方法主要有邏輯知識表示、產生式規則、語義網絡等。 2)1970-1990時期:專家系統—知識工程蓬勃發展期 由于通用問題求解強調利用人的求解問題的能力建立智能系統,但是忽略了知識對智能的支持,使人工智能難以在實際應用中發揮作用。從70年開始,人工智能開始轉向建立基于知識的系統,通過“知識庫+推理機”實現機器智能。 這一時期知識表示方法有新的演進,包括框架和腳本等80年代后期出現了很多專家系統的開發平臺,可以幫助將專家的領域知識轉變成計算機可以處理的知識。
3)1990-2000時期:萬維網1.0 在1990年到2000年期間,出現了很多人工構建大規模知識庫,包括廣泛應用的英文WordNet,采用一階謂詞邏輯知識表示的Cyc常識知識庫,以及中文的HowNet。 Web 1.0萬維網的產生為人們提供了一個開放平臺,使用HTML定義文本的內容,通過超鏈接把文本連接起來,使得大眾可以共享信息。W3C提出的可擴展標記語言XML,實現對互聯網文檔內容的結構通過定義標簽進行標記,為互聯網環境下大規模知識表示和共享奠定了基礎。 4)2000-2006時期:群體智能 萬維網的出現使得知識從封閉知識走向開放知識,從集中構建知識成為分布群體智能知識。原來專家系統是系統內部定義的知識,現在可以實現知識源之間相互鏈接,可以通過關聯來產生更多的知識而非完全由固定人生產。 這個過程中出現了群體智能,最典型的代表就是維基百科,實際上是用戶去建立知識,體現了互聯網大眾用戶對知識的貢獻,成為今天大規模結構化知識圖譜的重要基礎。
5)2006年至今:知識圖譜—知識工程新發展時期 “知識就是力量”,將萬維網內容轉化為能夠為智能應用提供動力的機器可理解和計算的知識是這一時期的目標。從2006年開始,大規模維基百科類富結構知識資源的出現和網絡規模信息提取方法的進步,使得大規模知識獲取方法取得了巨大進展。 當前自動構建的知識庫已成為語義搜索、大數據分析、智能推薦和數據集成的強大資產,在大型行業和領域中正在得到廣泛使用。典型的例子是谷歌收購Freebase后在2012年推出的知識圖譜(Knowledge Graph),Facebook的圖譜搜索,Microsoft Satori以及商業、金融、生命科學等領域特定的知識庫。
原文標題:從概念到實踐 | 全面了解知識圖譜
文章出處:【微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
人工智能
+關注
關注
1805文章
48913瀏覽量
248047 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7964
原文標題:從概念到實踐 | 全面了解知識圖譜
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論