隨著圖、圖結(jié)構(gòu)、圖數(shù)據(jù)、圖算法、圖計算、圖學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等信息技術(shù)的快速發(fā)展,各行業(yè)數(shù)字化水平的逐步提高,企業(yè)業(yè)務(wù)環(huán)境和計算場景日益復(fù)雜,數(shù)據(jù)間的關(guān)聯(lián)關(guān)系也正在變得更加交錯。在面對需要深度挖掘數(shù)據(jù)間復(fù)雜關(guān)聯(lián)關(guān)系的場景時,傳統(tǒng)的關(guān)系型數(shù)據(jù)往往計算效率低下,難以滿足應(yīng)用需求。
本文通過科研端文獻(xiàn)研究、產(chǎn)業(yè)調(diào)研與專家訪談等方式,將從技術(shù)、人才、科研與產(chǎn)業(yè)四個維度展開分析,闡明行業(yè)發(fā)展背景、追溯技術(shù)發(fā)展歷程、拆解技術(shù)原理及優(yōu)勢、勾勒行業(yè)格局,并研判圖計算未來發(fā)展趨勢。
圖計算技術(shù)特點(diǎn)
一、圖計算技術(shù)特點(diǎn)
1、高效地對具有復(fù)雜關(guān)聯(lián)關(guān)系的數(shù)據(jù)進(jìn)行深度計算
圖提供了一種能夠代表現(xiàn)實(shí)世界中絕大多數(shù)事物關(guān)聯(lián)關(guān)系的獨(dú)特的結(jié)構(gòu)。與經(jīng)典的表格或者矩陣不同,圖上的節(jié)點(diǎn)和邊并沒有被賦予過多的權(quán)重,每個元素都依賴于其他元素并形成一種互聯(lián)互通的關(guān)系,而這種關(guān)系是所有基于圖的假設(shè)和預(yù)測的核心。在大數(shù)據(jù)計算中,通過分析圖數(shù)據(jù)之間的關(guān)聯(lián)性,能夠高效地從噪聲很多的海量數(shù)據(jù)中抽取有用的信息。
圖計算系統(tǒng)基于頂點(diǎn)和邊的方式存儲圖數(shù)據(jù)和計算,能夠建構(gòu)任意復(fù)雜的網(wǎng)絡(luò)和模型并存儲大量的信息,進(jìn)而完整且形象地映射分析人員想要研究的問題域。經(jīng)典的表格結(jié)構(gòu)的數(shù)據(jù)都能夠用圖數(shù)據(jù)來表示,但不是所有的圖數(shù)據(jù)都能夠用數(shù)組或表格的形式來表示。
2、在對簡單事物關(guān)系的數(shù)據(jù)進(jìn)行計算時,列表型的數(shù)據(jù)尚且能夠展現(xiàn)出高效的性能
一旦模型復(fù)雜度提升例如金融領(lǐng)域中的交易數(shù)據(jù),傳統(tǒng)的列表數(shù)據(jù)模型的劣勢將顯現(xiàn)無疑。倘若在傳統(tǒng)的關(guān)系型數(shù)據(jù)模式下進(jìn)行分析和計算,復(fù)雜的業(yè)務(wù)場景將帶來冗余的表之間的關(guān)聯(lián)操作和頻繁的數(shù)據(jù)通信,造成成千上萬倍計算量的提升,系統(tǒng)性能大打折扣,極大降低了計算的效率。但是,在面對高度結(jié)構(gòu)化的數(shù)據(jù)時,圖計算的處理能力將不及基于傳統(tǒng)數(shù)據(jù)模型的計算,這是由于在進(jìn)行圖計算的過程中存在著隨機(jī)訪問的問題。
二、數(shù)據(jù)庫演進(jìn)方向:關(guān)系型數(shù)據(jù)庫向非關(guān)系型發(fā)展
數(shù)據(jù)間關(guān)聯(lián)趨于復(fù)雜、數(shù)據(jù)量劇增,對于圖數(shù)據(jù)存儲計算的需求隨之增長。隨著通信技術(shù)和大數(shù)據(jù)的快速發(fā)展、業(yè)務(wù)環(huán)境和計算場景趨于多樣,企業(yè)的數(shù)據(jù)需求正在發(fā)生變化,除了數(shù)據(jù)量劇增之外,數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系也變得更加復(fù)雜交錯。雖然傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)較為成熟,但在需要進(jìn)行復(fù)雜關(guān)聯(lián)查詢的情況下,關(guān)系型數(shù)據(jù)庫需要多表關(guān)聯(lián)查詢,計算效率低下甚至難以完成。而圖數(shù)據(jù)庫的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)由頂點(diǎn)、邊組成,能更自然、準(zhǔn)確、直觀地表述數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,從而提高計算效果,在社交網(wǎng)絡(luò)、知識圖譜等領(lǐng)域得以大展身手。
三、圖數(shù)據(jù)庫發(fā)展歷程:過往十年關(guān)注熱度持續(xù)攀升
過去 40 年,以 Oracle、 SQL為代表的關(guān)系型數(shù)據(jù)庫幾乎壟斷了全球數(shù)據(jù)庫市場。隨著關(guān)系型數(shù)據(jù)庫在數(shù)據(jù)關(guān)聯(lián)分析方面的乏力表現(xiàn)逐漸凸顯。在業(yè)務(wù)場景的驅(qū)動下,越來越多的企業(yè)對圖計算能力的需求快速增長,以增強(qiáng)自身商業(yè)決策能力。另一方面,自 2007 年第一款商用圖數(shù)據(jù)庫 Neo4j 發(fā)布以來,在學(xué)術(shù)界和產(chǎn)業(yè)界的共同努力下,圖數(shù)據(jù)庫的可擴(kuò)展性、易用性等各方面能力逐漸補(bǔ)齊,產(chǎn)品成熟度逐漸提高。目前行業(yè)內(nèi)已有傳統(tǒng)數(shù)據(jù)庫、公有云廠商和初創(chuàng)企業(yè)等進(jìn)入。
各類數(shù)據(jù)庫近十年來熱度變化
四、圖計算系統(tǒng)發(fā)展歷程:從通用大數(shù)據(jù)計算系統(tǒng)到專用圖計算系統(tǒng)
早期專門針對大型圖計算的系統(tǒng)出現(xiàn)之前,業(yè)內(nèi)主要通過單機(jī)圖算法庫或通用大數(shù)據(jù)計算系統(tǒng)實(shí)現(xiàn)。其中,Google 推出的大規(guī)模數(shù)據(jù)并行處理計算模型 MapReduce,以及加利福尼亞大學(xué)伯克利分校(UC Berkeley)AMP Lab 開發(fā)的 Spark 系統(tǒng),對圖計算系統(tǒng)發(fā)展起到了重要推進(jìn)作用。但由于磁盤存儲局限性等問題,通用型大數(shù)據(jù)計算系統(tǒng)在性能、易用性等方面都未能盡如人意。
圖計算領(lǐng)域研究側(cè)追究
一、研究側(cè)追究
1、圖計算領(lǐng)域研究側(cè)追蹤:近十年,熱度與發(fā)表論文數(shù)量雙漲
300 年前歐拉開辟了圖論研究的范疇,50年前圖數(shù)據(jù)庫在計算機(jī)誕生之后也隨即問世,進(jìn)入大數(shù)據(jù)時代,數(shù)據(jù)量的指數(shù)膨脹不僅帶來了大量的數(shù)據(jù)分析需求,使得圖計算在面對復(fù)雜關(guān)聯(lián)數(shù)據(jù)時的優(yōu)勢逐漸凸顯;同時海量的數(shù)據(jù)也給予了深度計算發(fā)展所需的養(yǎng)分,圖計算作為深入挖掘數(shù)據(jù)信息的有力工具,其研究進(jìn)入了快速發(fā)展期。
從 2003 年到 2021 年,圖計算領(lǐng)域論文發(fā)表數(shù)量呈現(xiàn)明顯的上升趨勢 ,尤其在 2014、2015年至2021年期間,研究論文發(fā)表數(shù)量翻倍增長達(dá)到高峰。究其本質(zhì),移動互聯(lián)網(wǎng)和金融科技等大數(shù)據(jù)驅(qū)動型行業(yè),以及人工智能相關(guān)技術(shù)、知識圖譜和圖神經(jīng)網(wǎng)絡(luò)的研究在該時間段內(nèi)蓬勃發(fā)展,極大地拉動了圖計算研究熱度。另一方面,底層硬件的不斷升級和圖計算引擎的成熟化、公開化也為圖計算的研究搭建了完善的基礎(chǔ)設(shè)施。
圖計算相關(guān)主題論文發(fā)表數(shù)量
從上圖可以看出,2012 年是研究熱度和發(fā)表論文數(shù)量的階段性分水嶺。近十年,以上述關(guān)鍵詞為研究主題的論文發(fā)表數(shù)量,呈明顯增長趨勢,相關(guān)領(lǐng)域當(dāng)年論文發(fā)表數(shù)量均在2020 年、2021 年達(dá)到最高峰。
2、圖計算領(lǐng)域研究論文地域分布:中美領(lǐng)銜,歐洲國家緊跟其后
根據(jù) WebofScience數(shù)據(jù) ,近 20 年來圖計算相關(guān)話題領(lǐng)域的論文發(fā)表主要來自于中國和美國,德國、法國等歐洲國家和印度緊隨其后。在美國,以卡耐基梅隆大學(xué) 、加州大學(xué)伯克利分校以及麻省理工學(xué)院為首的計算機(jī)科學(xué)頂尖高校貢獻(xiàn)了絕大多數(shù)圖計算領(lǐng)域的論文發(fā)表。
在中國,清華大學(xué)、北京大學(xué)、中國科學(xué)院以及華中科技大學(xué)是圖計算領(lǐng)域研究的先驅(qū),貢獻(xiàn)了中國絕大多數(shù)的高被引用圖計算論文。
歐美國家在計算機(jī)科學(xué)(圖計算相關(guān)領(lǐng)域)的研究積淀較多,積累了較為領(lǐng)先的學(xué)術(shù)界實(shí)力與豐富的產(chǎn)業(yè)界應(yīng)用 。在圖計算研究早期,Google 等大型互聯(lián)網(wǎng)公司在核心業(yè)務(wù)中對于圖數(shù)據(jù)分析的采用以及各類大數(shù)據(jù)分析框架的開源為圖計算的發(fā)展起到了不小的推動作用。中國圖計算研究的高峰起源于大數(shù)據(jù)趨勢的鋪展,科技型企業(yè)依據(jù)業(yè)務(wù)分析需求,逐步深耕圖計算應(yīng)用。與此同時中國的頂尖高校在圖計算的底層理論研究上也頗有建樹。
圖計算相關(guān)主題論文發(fā)表數(shù)量按國家分布
二、圖計算領(lǐng)域全球一流研究機(jī)構(gòu)分布
國外涉及大學(xué):
加拿大:UniversityofWaterloo;新加坡:National UniversityofSingapore、NanyangTechnologicalUniversity;澳大利亞:Universityof New South Wales;美國:Microsoft、Facebook、University ofCalifornia、UniversityofIllinoisatUrbanaGoogle、IBM、CarnegieMellonUniversityUniversityofWashingtonTeradataAster
、CornellUniversity、Stanford University
國內(nèi)涉及大學(xué):
清華大學(xué)計算機(jī)系、哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院、北京大學(xué)王選計算機(jī)研究所、北京郵電大學(xué)計算機(jī)學(xué)院、中國科學(xué)技術(shù)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院、復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院、華中科技大學(xué)計算機(jī)系、上海交通大學(xué)軟件學(xué)院、電子科技大學(xué)、計算機(jī)科學(xué)與工程學(xué)院、香港大學(xué)計算機(jī)科學(xué)系、香港科技大學(xué)計算機(jī)科學(xué)與工程系、香港中文大學(xué)計算機(jī)科學(xué)與工程系
三、圖計算領(lǐng)域全球一流研究人才分布
圖計算的快速發(fā)展離不開研究學(xué)者們的努力和貢獻(xiàn)。不僅在基礎(chǔ)理論層面研究深耕,也在產(chǎn)業(yè)化實(shí)踐方面不斷更迭創(chuàng)新,助力圖計算在大數(shù)據(jù)的沃土里生根發(fā)芽,蓬勃生長 。
陳文光
清華大學(xué)計算機(jī)系教授,國家自然科學(xué)基金杰出青年基金獲得者。現(xiàn)任螞蟻集團(tuán)圖計算技術(shù)負(fù)責(zé)人及技術(shù)研究院院長。2014年提出并實(shí)現(xiàn)了一種單機(jī)圖處理引擎GridGraph。2016年初,進(jìn)一步成功研制了名為“Gemini ”的分布式圖計算系統(tǒng),其在典型大數(shù)據(jù)分析應(yīng)用(如PageRank) 上的性能是國際同類圖計算系統(tǒng)的十倍以上2021年,領(lǐng)導(dǎo)螞蟻集團(tuán)與清華大學(xué)共同研發(fā)大規(guī)模圖計算系統(tǒng)GeaGraph(螞蟻集團(tuán)TuGraph前身),并獲得2021世界互聯(lián)網(wǎng)領(lǐng)先科技成果發(fā)布。
鄒磊
中國RDF圖領(lǐng)域的先驅(qū)研究者。北京大學(xué)王選計算機(jī)所教授,國家自然科學(xué)基金優(yōu)秀青年基金項(xiàng)目獲得者。研究領(lǐng)域包括圖數(shù)據(jù)庫,RDF知識圖譜,尤其是基于圖的 RDF 數(shù)據(jù)管理和自然語言問答研究。主持研發(fā)了面向知識圖譜數(shù)據(jù)的圖數(shù)據(jù)庫系統(tǒng)gStore和知識圖譜問答平臺gAnswer。2014 年所主持的項(xiàng)目“海量圖結(jié)構(gòu)數(shù)據(jù)存儲和查詢優(yōu)化理論研究”,獲得中國計算機(jī)學(xué)會自然科學(xué)二等獎。2017 年所主持的項(xiàng)目“大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)管理”獲得教育部自然科學(xué)二等獎。
石川
北京郵電大學(xué)計算機(jī)學(xué)院教授、博士研究生導(dǎo)師,北京郵電大學(xué)圖數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的創(chuàng)辦人。主要研究方向?yàn)榛趫D機(jī)構(gòu)數(shù)據(jù)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能和大數(shù)據(jù)分析。近年來,為異質(zhì)圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究貢獻(xiàn)了重要的力量。
張宇
華中科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院副教授,主要研究方向是大數(shù)據(jù)處理的體系結(jié)構(gòu) 和系統(tǒng)軟件、圖計算。研制了高能效軟硬協(xié)同圖計算引擎,性能功耗比在第18屆Green Graph 500 排名中全球第一 ,單機(jī)性能在第 23 屆和第 24 屆 Graph 500 排名中全球第一。
金海
華中科技大學(xué)、計算機(jī)科學(xué)與技術(shù)學(xué)院教授、博士生研究導(dǎo)師。主要研究方向計算機(jī)體系結(jié)構(gòu)、計算系統(tǒng)虛擬化、集群計算和云計算等。
鄭衛(wèi)國
復(fù)旦大學(xué)數(shù)據(jù)科學(xué)學(xué)院副教授。主要研究方向大規(guī)模圖數(shù)據(jù)管理和挖掘、自然語言處理,特別是知識圖譜、自然語言問答等相關(guān)算法的設(shè)計與應(yīng)用。
陳海波
上海交通大學(xué)軟件學(xué)院教授、華為操作系統(tǒng)首席科學(xué)家、操作系統(tǒng)內(nèi)核實(shí)驗(yàn)室主任、SOSP首位中國學(xué)者主席。主要研究方向系統(tǒng)軟件,系統(tǒng)結(jié)構(gòu)與系統(tǒng)虛擬化。
代亞非
北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授。主要研究方向分布式系統(tǒng)研究。
陳紅陽
之江實(shí)驗(yàn)室圖計算研究中心高級研究專家。主要研究方向大數(shù)據(jù)智能,智能網(wǎng)絡(luò)與系統(tǒng),機(jī)器學(xué)習(xí)理論與應(yīng)用,無線通信與網(wǎng)絡(luò),LTE-A/ 5G通信技術(shù)標(biāo)準(zhǔn)化,無線定位與跟蹤技術(shù),智慧城市,統(tǒng)計信號處理。
圖計算領(lǐng)域部分代表研究學(xué)者
四、圖計算研究趨勢
1、圖神經(jīng)網(wǎng)絡(luò)
近年來,人們對深度學(xué)習(xí)方法在圖數(shù)據(jù)上的應(yīng)用越來越感興趣,圖神經(jīng)網(wǎng)絡(luò)也因此誕生并逐漸成為研究人員關(guān)注的熱點(diǎn)。圖神經(jīng)網(wǎng)絡(luò)是指使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù),提取和發(fā)掘圖結(jié)構(gòu)數(shù)據(jù)中的特征和模式,滿足聚類、分類、預(yù)測、分割等圖學(xué)習(xí)任務(wù)需求的算法總稱。圖數(shù)據(jù) 正在變得越來越普遍、其蘊(yùn)含的信息越來越豐富。圖神經(jīng)網(wǎng)絡(luò)也被廣泛應(yīng)用于推薦系統(tǒng)、社交網(wǎng)絡(luò)、計算機(jī)視覺和生物醫(yī)學(xué)發(fā)現(xiàn)等領(lǐng)域中。
2、圖數(shù)據(jù)查詢語言及圖數(shù)據(jù)庫測試基準(zhǔn)的標(biāo)準(zhǔn)化制定
關(guān)系型數(shù)據(jù)庫的發(fā)展離不開 SQL 查詢語言的標(biāo)準(zhǔn)化 。目前Neo4j 、TigerGraph 、螞蟻集團(tuán)在內(nèi)的多家圖計算企業(yè)都參與了標(biāo)準(zhǔn)的聯(lián)合制定。ISO GQL 的制定將為今后商業(yè)應(yīng)用開發(fā)提供一整套標(biāo)準(zhǔn)化的、高表現(xiàn)力的國際通用查詢語言,大量數(shù)據(jù)庫用戶和開發(fā)人員將從中受益。
關(guān)鍵產(chǎn)品及行業(yè)發(fā)展現(xiàn)狀
一、政策背景:高性能計算及圖數(shù)據(jù)處理技術(shù)受國家政策鼓勵和支持
多個國家均已將高性能計算技術(shù)提升到國家戰(zhàn)略高度。
美國基于對計算科學(xué)發(fā)展趨勢及新一輪信息技術(shù) (IT) 革命到來的認(rèn)識 ,于 2015 年頒布了著名的“國家戰(zhàn)略計算計劃”(NSCI) ,指明了在未來一段內(nèi)時間圍繞高性能計算技術(shù)與產(chǎn)業(yè)發(fā)展的戰(zhàn)略目標(biāo)、任務(wù)、方向及發(fā)展路徑,同時構(gòu)建了組織架構(gòu)、明確了各方面的責(zé)任分工。歐盟將先進(jìn)計算列為戰(zhàn)略重點(diǎn) ,定制“地平線計劃”。
韓國制定了到 2030年的高性能計算中長期發(fā)展戰(zhàn)略《 國家超高性能計算創(chuàng)新戰(zhàn)略》,旨在將韓國打造成為高性能計算強(qiáng)國,實(shí)現(xiàn)第四次工業(yè)革命時代的量子跳躍。
日本也在國家層面將先進(jìn)計算納入扶持,并展開統(tǒng)一研發(fā)部署。
中國通過《 國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要 ( 2006-2020 年) 》、“九五”至“十三五”國家科技發(fā)展及科技創(chuàng)新規(guī)劃 、國家高技術(shù)研究發(fā)展計劃 (“863”計劃) 、國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃 (“973”計劃) 、國家自然科學(xué)基金重大研究計劃、國家“科技創(chuàng)新2030-重大項(xiàng)目”等一系列重大戰(zhàn)略規(guī)劃與政策,有力地支持了高性能計算技術(shù)與產(chǎn)業(yè)的發(fā)展。2021年11月,工信部發(fā)布《“十四 五”軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃》,在“關(guān)鍵基礎(chǔ)軟件補(bǔ)短板”專欄中,指出在數(shù)據(jù)庫領(lǐng)域,應(yīng)關(guān)注大規(guī)模并行圖數(shù)據(jù)處理等數(shù)據(jù)庫關(guān)鍵技術(shù)的突破。
全球高性能計算扶持政策
二、圖計算產(chǎn)業(yè)鏈
圖計算產(chǎn)業(yè)鏈
上游:基礎(chǔ)設(shè)施主要包括硬件設(shè)施、操作系統(tǒng)等,對于非原生圖存儲圖數(shù)據(jù)庫,還需接入其他類型數(shù)據(jù)庫。
中游:目前,圖計算行業(yè)內(nèi)主要有兩類參與者——圖數(shù)據(jù)庫和圖計算系統(tǒng)(圖計算引擎) 。
下游:應(yīng)用開發(fā)商負(fù)責(zé)在圖數(shù)據(jù)庫和圖計算系統(tǒng)的查詢分析能力基礎(chǔ)上,為用戶開發(fā)定制化應(yīng)用,例如針對具體行業(yè)(如金融等) 的知識圖譜應(yīng)用開發(fā)商:軟件集成商負(fù)責(zé)集成應(yīng)用并提供運(yùn)維等服務(wù)。
圖數(shù)據(jù)庫與圖計算系統(tǒng)對比
三、圖計算生態(tài)參與者:數(shù)量眾多,巨頭和初創(chuàng)企業(yè)各施所長
目前,圖計算行業(yè)內(nèi)主要有圖數(shù)據(jù)庫和圖計算系統(tǒng)( 圖計算引擎) 兩類參與者 。實(shí)際應(yīng)用中,圖數(shù)據(jù)庫和圖計算引擎的能力呈現(xiàn)融合趨勢,圖數(shù)據(jù)庫企業(yè)正在將 OLAP 能力與 OLTP 能力結(jié)合,向 HTAP 混合型數(shù)據(jù)庫方向發(fā)展。此外,部分巨頭廠商將圖數(shù)據(jù)庫與圖計算系統(tǒng)結(jié)合,提供涵蓋圖數(shù)據(jù)存儲、查詢、分析等功能的一站式平臺。
圖計算行業(yè)部分參與者
目前行業(yè)參與者中,既有阿里、騰訊、螞蟻、字跳、AWS、微軟等公有云、軟件、數(shù)據(jù)庫等領(lǐng)域的巨頭,也有 Neo4j、TigerGraph、創(chuàng)鄰科技、歐若數(shù)網(wǎng)等國內(nèi)外創(chuàng)業(yè)企業(yè)。巨頭與創(chuàng)業(yè)企業(yè)呈現(xiàn)競爭與合作并存的關(guān)系。一方面,二者在項(xiàng)目競標(biāo)中常同臺競爭;另一方面,由于巨頭產(chǎn)品線眾多,且仍以服務(wù)內(nèi)部業(yè)務(wù)需求為主,在項(xiàng)目實(shí)施等方面能力不足,因此也需要與創(chuàng)業(yè)企業(yè)合作補(bǔ)足能力。
四、圖計算領(lǐng)域?qū)@攀觯阂灾忻揽萍脊炯案咝橹?/strong>
根據(jù)公開專利數(shù)據(jù),以圖數(shù)據(jù)庫、圖計算為核心技術(shù)主題的專利當(dāng)前申請人,以美國和中國科技公司為主,它們共同的業(yè)務(wù)特性是擁有海量復(fù)雜數(shù)據(jù),以及需要處理它們之間的交互關(guān)系。
graph computing 領(lǐng)域?qū)@饕姓叩牟糠执韺@?/p>
五、圖數(shù)據(jù)庫:圖數(shù)據(jù)的高效存儲與查詢
圖數(shù)據(jù)庫是以點(diǎn)、邊為基礎(chǔ)存儲單元,以高效存儲、查詢圖數(shù)據(jù)為設(shè)計原理的數(shù)據(jù)管理系統(tǒng)。對圖數(shù)據(jù)結(jié)構(gòu)進(jìn)行創(chuàng)建、讀取、更新和刪除 ( CRUD) 操作,是圖計算技術(shù)的核心。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫相比,近年來圖數(shù)據(jù)庫在各類數(shù)據(jù)庫之中受到越來越多的關(guān)注。
圖數(shù)據(jù)庫是圖計算行業(yè)的重要參與者。海外圖數(shù)據(jù)庫初創(chuàng)企業(yè)眾多,其中部分已被收購整合;中國市場以互聯(lián)網(wǎng)大廠和垂直初創(chuàng)企業(yè)為主,也有不少應(yīng)用層企業(yè)和傳統(tǒng)數(shù)據(jù)庫廠商參與如:阿里集團(tuán)、騰訊云、阿里云、百度安全、華為云、字節(jié)跳動等。
圖數(shù)據(jù)庫行業(yè)部分參與者
六、商業(yè)化現(xiàn)狀:尚處于初期階段,未來廣闊空間尚待挖掘
目前,受制于整體市場對圖計算技術(shù)的認(rèn)知仍未成熟,圖計算行業(yè)仍處于商業(yè)化初期階段。一方面,客戶對圖數(shù)據(jù)庫及圖計算技術(shù)認(rèn)知不足,在如何理解圖能帶來的價值、如何進(jìn)行圖數(shù)據(jù)庫選型、如何做好二次開發(fā)和持續(xù)運(yùn)維等問題上,依然困難重重。另一方面,圖計算廠商對客戶的業(yè)務(wù)場景不夠了解,對于如何幫助客戶明確需求,將客戶業(yè)務(wù)場景存在的痛點(diǎn)轉(zhuǎn)化為圖的問題,如何在技術(shù)角度進(jìn)一步提升產(chǎn)品力以更好滿足客戶需求,如何將圖技術(shù)應(yīng)用到更廣的領(lǐng)域等問題,未來依然有很大潛在發(fā)展空間。
目前行業(yè)內(nèi)主要以項(xiàng)目制形式銷售,標(biāo)準(zhǔn)化產(chǎn)品較少,單個項(xiàng)目金額以十萬到百萬量級為主,個別項(xiàng)目能接近千萬量級。圖數(shù)據(jù)庫廠商主要與應(yīng)用開發(fā)商合作為客戶提供服務(wù);視實(shí)際客戶和項(xiàng)目需求,也存在直接對接客戶,或者與軟件集成商、圖計算系統(tǒng)合作等情況。
圖計算企業(yè)按商業(yè)模式可分為開源和閉源。根據(jù) DB-Engines 流行度數(shù)據(jù),目前圖數(shù)據(jù)庫領(lǐng)域開源產(chǎn)品占 61.5%,閉源產(chǎn)品占 38.5%。開源即軟件源代碼按許可協(xié)議公開,開發(fā)者可在原始代碼的基礎(chǔ)上修改、使用;閉源即傳統(tǒng)模式售賣的商用軟件。目前不少項(xiàng)目方選擇 OpenCore 的模式,即核心模塊開源、進(jìn)階版功能收費(fèi)的模式展開商業(yè)化;另外也有部分廠商出于對開源生態(tài)不成熟、現(xiàn)有產(chǎn)品競爭激烈等原因考慮,選擇閉源策略。2022年世界人工智能大會上,螞蟻集團(tuán)大規(guī)模圖計算系統(tǒng)中的圖數(shù)據(jù)庫 TuGraph宣布正式開源。
開源與閉源策略對比
七、主要應(yīng)用場景
金融
過往金融機(jī)構(gòu)主要通過對企業(yè)或個人等個體本身的特征進(jìn)行分析以發(fā)現(xiàn)風(fēng)險,而圖計算技術(shù)可以幫助挖掘個體之間的關(guān)聯(lián)關(guān)系,進(jìn)一步發(fā)現(xiàn)潛在風(fēng)險,在信貸風(fēng)險評估、反洗錢、反欺詐、資金追蹤、潛客發(fā)現(xiàn)等場景中,能幫助挖掘出企業(yè)間循環(huán)擔(dān)保、薅羊毛灰黑產(chǎn)等重大風(fēng)險。
社交
社交網(wǎng)絡(luò)天然具備圖數(shù)據(jù)結(jié)構(gòu)。隨著社交數(shù)據(jù)量級迅速增長,為了更好地展示并發(fā)揮社交數(shù)據(jù)作用,圖計算技術(shù)也參與進(jìn)來。在社交網(wǎng)絡(luò)數(shù)據(jù)可以通過社區(qū)發(fā)現(xiàn)等圖算法,更加深入地挖掘個體之間的聯(lián)系,進(jìn)行用戶關(guān)系查詢、潛在黑客發(fā)現(xiàn)、社區(qū)挖掘、根據(jù)愛好推薦好友等操作。
能源
過去電網(wǎng)設(shè)備規(guī)模龐大且關(guān)聯(lián)關(guān)系復(fù)雜,用關(guān)系數(shù)據(jù)庫管理存在模型復(fù)雜、存儲冗余、檢索效率低等問題。圖計算技術(shù)可以幫助更高效、實(shí)時地管理電力設(shè)備并監(jiān)控其運(yùn)行狀態(tài),及時解決問題,同時可在潮流計算等領(lǐng)域提供幫助,更加合理地分配電力去向。
搜索引擎
圖計算中的PageRank算法常被應(yīng)用于搜索引擎領(lǐng)域。PageRank算法又稱網(wǎng)頁排名算法,是一種基于 “一個節(jié)點(diǎn)訪問次數(shù)或概率越高,則重要程度更高”的假設(shè),根據(jù)網(wǎng)頁(節(jié)點(diǎn))之間相互鏈接情況執(zhí)行隨機(jī)游走模型,計算網(wǎng)頁(節(jié)點(diǎn))的相關(guān)性和重要性以進(jìn)行排名的技術(shù),在谷歌搜索的網(wǎng)頁排名中有重要作用。
八、典型企業(yè)案例
1、螞蟻集團(tuán)-金融風(fēng)控行業(yè)案例
借助圖數(shù)據(jù)對主體間復(fù)雜關(guān)系以及對多種主體時序行為特征的強(qiáng)刻畫能力,螞蟻集團(tuán)將圖技術(shù)應(yīng)用于自身金融風(fēng)控業(yè)務(wù)之中,以應(yīng)對日益復(fù)雜的風(fēng)險形勢,提高對于隱形的、有組織的團(tuán)伙化犯罪風(fēng)險的識別和挖掘能力。但是,由于風(fēng)控場景本身存在強(qiáng)對抗、低延時的特性,對于圖數(shù)據(jù)計算的時效性提出了挑戰(zhàn)。
螞蟻安全團(tuán)隊(duì)在圖技術(shù)基礎(chǔ)上建設(shè)了全圖風(fēng)控架構(gòu),作為應(yīng)對復(fù)雜風(fēng)險形勢的下一代風(fēng)控基礎(chǔ)設(shè)施,也是螞蟻智能風(fēng)控技術(shù)體系“IMAGE”的組成部分。全圖風(fēng)控即全域一張圖,在整個風(fēng)控的生命周期,包括風(fēng)險感知、風(fēng)險識別、風(fēng)險管控、風(fēng)險審理、風(fēng)險分析等環(huán)節(jié)中提供保障,提供團(tuán)伙挖掘、資金鏈路識別、交易可信識別等核心服務(wù)能力。此外,除了用傳統(tǒng)的多度查詢來進(jìn)行風(fēng)險鏈路判斷外,還引入模式識別的方式(菱形/三角型等)、社區(qū)發(fā)現(xiàn)的算法等來應(yīng)對更加復(fù)雜的場景。
同時,在豐富的數(shù)據(jù)來源和計算方式基礎(chǔ)上,螞蟻對在圖計算的時效性上也進(jìn)行了優(yōu)化,TuGraph 大規(guī)模圖計算平臺為螞蟻集團(tuán)提供了業(yè)界領(lǐng)先的實(shí)時和時序大規(guī)模圖分析能力。在反洗錢領(lǐng)域,圖計算已覆蓋支付寶的全部資金交易,對疑似團(tuán)伙類犯罪風(fēng)險識別能力提高近 10 倍,風(fēng)險審理分析效率提升 90%。
螞蟻集團(tuán)風(fēng)控領(lǐng)域的圖計算應(yīng)用
2、創(chuàng)鄰科技 Galaxybase
創(chuàng)鄰科技主要產(chǎn)品 Galaxybase 是一款國產(chǎn)高性能分布式圖數(shù)據(jù)庫,采用原生圖存儲,100%自主研發(fā) ,已入選2022信創(chuàng)數(shù)據(jù)庫排行榜。目前,創(chuàng)鄰客戶覆蓋金融、能源、互聯(lián)網(wǎng)等行業(yè),標(biāo)桿客戶包括農(nóng)行、交行、國家電網(wǎng)、騰訊等,在信用卡反欺詐、IoT 數(shù)據(jù)管理、微服務(wù)治理等場景下,幫助客戶防控風(fēng)險、提高管理效率。同時,創(chuàng)鄰科技是騰訊云啟創(chuàng)新生態(tài)合作伙伴的一員,與騰訊聯(lián)合研發(fā)了騰訊云圖數(shù)據(jù)庫TGDB。
此外,創(chuàng)鄰科技也通過與高校合作等方式,在大規(guī)模圖數(shù)據(jù)計算性能方面展開研究。2022 年 5 月,創(chuàng)鄰科技聯(lián)合中山大學(xué)團(tuán)隊(duì),依托國家超級計算廣州中心環(huán)境,完成了 Galaxybase 的安裝部署,并實(shí)現(xiàn)5萬億點(diǎn)邊規(guī)模交易數(shù)據(jù)智能挖掘性能測試,打破了世界最大規(guī)模圖處理記錄。
3、Neo4j
Neo4j 是第一款商用圖數(shù)據(jù)庫,對后續(xù)圖數(shù)據(jù)庫發(fā)展起到了重要作用。Neo4j 采用原生設(shè)計的圖存儲和屬性圖的數(shù)據(jù)模型,并首次提出了針對屬性圖的描述性查詢語言Cypher,后開放為 OpenCypher。
Neo4j 最初為完全開源產(chǎn)品,通過發(fā)展開發(fā)者社區(qū)知名度逐漸提升。2018 年 Neo4j 宣布從 Neo4j V3.5 版本開始,企業(yè)版將僅在商業(yè)許可下提供,開源策略從完全開源轉(zhuǎn)向 OpenCore,即核心功能開源、企業(yè)版功能閉源。
九、圖計算技術(shù)發(fā)展趨勢
1、查詢計算一體化
圖數(shù)據(jù)庫技術(shù)演進(jìn)方向?yàn)椴樵兯俣雀臁⒊休d數(shù)據(jù)量更多、查詢層級更深。目前圖數(shù)據(jù)庫以提供實(shí)時查詢功能為主,對于復(fù)雜離線計算仍需和圖計算引擎配合,增加了額外數(shù)據(jù) ETL 的處理過程。隨著企業(yè)業(yè)務(wù)發(fā)展、對實(shí)時交易分析需求增加,未來圖數(shù)據(jù)庫將與圖計算引擎功能融合,結(jié)合 OLTP 與 OLAP 能力,即 HTAP 混合型數(shù)據(jù)庫。HTAP 數(shù)據(jù)庫基于新的計算存儲框架,能同時支持 OLTP 和 OLAP場景,在一份數(shù)據(jù)上保證事務(wù)處理的同時,支持實(shí)時分析,為客戶提供查詢計算一體化能力。
藍(lán)海大腦圖數(shù)據(jù)一體機(jī)具有精簡的高可用集群架構(gòu)。軟硬一體,高度集成。開箱即用。優(yōu)于目前的集中式存儲架構(gòu)X3,高于集中式存儲架構(gòu)X5。專業(yè)的運(yùn)維平臺,深度監(jiān)控管理一體機(jī)系統(tǒng)。分布式存儲,高可靠性,全架構(gòu)冗余設(shè)計,避免任意單點(diǎn)故障,以及跨節(jié)點(diǎn)數(shù)據(jù)保護(hù)等,更好地為各行各業(yè)服務(wù)。
2、圖與機(jī)器學(xué)習(xí)結(jié)合
近年圖神經(jīng)網(wǎng)絡(luò)在人工智能領(lǐng)域掀起了研究熱潮,目前部分圖平臺除常規(guī)圖計算算法外,也開始支持機(jī)器學(xué)習(xí)算法。圖數(shù)據(jù)與機(jī)器學(xué)習(xí)結(jié)合,有助于解決過往機(jī)器學(xué)習(xí)算法存在的可解釋性低下等問題,是人工智能符號主義和連接主義的一種結(jié)合。但目前,圖機(jī)器學(xué)習(xí)仍存在內(nèi)存、硬件等方面的瓶頸,尤其對于大規(guī)模的圖深度學(xué)習(xí),仍面臨著一些挑戰(zhàn)。
3、高性能圖計算
隨著圖算法日漸復(fù)雜,圖數(shù)據(jù)庫及圖計算對算力層的需求也隨之提升。未來通過軟硬件結(jié)合的方式,將高性能計算研究與圖相結(jié)合,更好地提升計算效率。目前已有一些高校和企業(yè)正在這一領(lǐng)域積極合作開展研究。2021 年 3 月,中國工程院院士鄭緯民教授帶領(lǐng)清華大學(xué)計算機(jī)科學(xué)與技術(shù)團(tuán)隊(duì),聯(lián)合海致科技,宣布籌備啟動高性能圖計算院士專家工作站。2022 年 6 月,華中科技大學(xué)圖計算團(tuán)隊(duì)研發(fā)的圖計算機(jī)DepGraph 打破了圖計算性能世界記錄。
總結(jié)與展望
一、總結(jié)
作為一種理解世界的新方式,圖正憑借其對復(fù)雜關(guān)聯(lián)關(guān)系的強(qiáng)刻畫能力,贏得了越來越多的關(guān)注,圖數(shù)據(jù)庫逐漸成為全球數(shù)據(jù)庫領(lǐng)域競相布局的新興方向,圖計算系統(tǒng)也隨著圖數(shù)據(jù)規(guī)模不斷擴(kuò)大和下游應(yīng)用需求變化,逐步向前發(fā)展。中國圖計算領(lǐng)域不僅行業(yè)入局者越來越多,也逐漸從學(xué)術(shù)界走入產(chǎn)業(yè)界,踏上商業(yè)化道路。應(yīng)用市場正在持續(xù)探索新的場景,當(dāng)前圖計算在金融風(fēng)控、社交網(wǎng)絡(luò)等領(lǐng)域已有大規(guī)模應(yīng)用;未來隨著數(shù)據(jù)量級增長,數(shù)據(jù)關(guān)聯(lián)關(guān)系愈加復(fù)雜,圖數(shù)據(jù)作為關(guān)系最直接自然的表達(dá)將獲得越來越廣泛的應(yīng)用。
與關(guān)系型數(shù)據(jù)庫等成熟市場相比,目前中國圖計算行業(yè)還處于發(fā)展初期,商業(yè)化任重而道遠(yuǎn)。未來圖計算產(chǎn)業(yè)的發(fā)展,一方面行業(yè)生態(tài)仍需要進(jìn)一步完善,拓展更多的應(yīng)用場景,提高客戶對圖及相關(guān)技術(shù)的認(rèn)知水平和接受程度,促進(jìn)學(xué)術(shù)界的科研成果順利轉(zhuǎn)化為工業(yè)級產(chǎn)品;另一方面學(xué)術(shù)界也需要積極推動高水平的技術(shù)創(chuàng)新,站在技術(shù)前沿指引未來發(fā)展思路和方向,產(chǎn)學(xué)研聯(lián)動打造優(yōu)秀的圖計算產(chǎn)品和解決方案,創(chuàng)建完善的圖計算行業(yè)體系。
二、展望
1、圖計算技術(shù)向著多(大規(guī)模)、快(低延時)、好(高可靠)、省(低成本) 的方向探索
隨著云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能等信息技術(shù)的快速發(fā)展,數(shù)據(jù)量級增長迅速,對大規(guī)模圖數(shù)據(jù)的處理需求愈加迫切。在復(fù)雜業(yè)務(wù)場景下,企業(yè)對大規(guī)模圖數(shù)據(jù)的查詢和計算對系統(tǒng)的計算性能、可擴(kuò)展性、可靠性等各方面提出了挑戰(zhàn)。對此,學(xué)術(shù)界和產(chǎn)業(yè)界的研究者在圖計算部署架構(gòu)、計算模型等方面進(jìn)行了大量的研究。
2、圖學(xué)習(xí)作為圖技術(shù)與機(jī)器學(xué)習(xí)技術(shù)的結(jié)合,體現(xiàn)了人工智能符號主義與連接主義兩大流派的融合應(yīng)用
作為圖計算的一類重要應(yīng)用,知識圖譜屬于人工智能行業(yè)符號主義流派的代表作之一,與以機(jī)器學(xué)習(xí)為代表的連接主義,共同形成人工智能兩大重要流派。近年來機(jī)器學(xué)習(xí)領(lǐng)域的深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)模型等發(fā)展迅速,在計算機(jī)視覺、自然語言處理等領(lǐng)域大展身手,實(shí)現(xiàn)了繼上世紀(jì)的專家系統(tǒng)之后人工智能行業(yè)的又一次市場爆發(fā)。同時,傳統(tǒng)機(jī)器學(xué)習(xí)固有的可解釋性低下、缺乏非歐空間數(shù)據(jù)結(jié)構(gòu)處理能力等問題仍尚待解決。
3、圖技術(shù)有望拓展應(yīng)用至更多的行業(yè)領(lǐng)域,產(chǎn)業(yè)生態(tài)亟待進(jìn)一步完善
目前圖計算技術(shù)的應(yīng)用集中在金融、社交網(wǎng)絡(luò)、電力能源等數(shù)據(jù)量大且具備復(fù)雜關(guān)系的領(lǐng)域。隨著各行業(yè)數(shù)字化水平的進(jìn)一步提高,數(shù)據(jù)關(guān)聯(lián)日益復(fù)雜,以及大規(guī)模圖計算技術(shù)的進(jìn)一步成熟,未來在供應(yīng)鏈、政務(wù)公安、公共衛(wèi)生等其他行業(yè),或者與低代碼工具、BI 商業(yè)智能等應(yīng)用工具結(jié)合,或?qū)l(fā)掘出更多市場空間。
4、提高客戶采購決策者對圖計算技術(shù)的認(rèn)知水平
幫助大量已經(jīng)習(xí)慣以關(guān)系型數(shù)據(jù)模式理解業(yè)務(wù)的一線人員順利理解圖數(shù)據(jù)并開展業(yè)務(wù)應(yīng)用,同時培養(yǎng)出更多優(yōu)秀的圖數(shù)據(jù)庫及圖計算系統(tǒng)的開發(fā)、運(yùn)維人員,以在底層能力基礎(chǔ)上建立起完整的工具和應(yīng)用生態(tài),對行業(yè)來說依然是不小的挑戰(zhàn)。圖計算在市場教育方面仍任重道遠(yuǎn)。
審核編輯:湯梓紅
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103438 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3921瀏覽量
66131 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7990
發(fā)布評論請先 登錄
物聯(lián)網(wǎng)未來發(fā)展趨勢如何?
工業(yè)電機(jī)行業(yè)現(xiàn)狀及未來發(fā)展趨勢分析
BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

使用華為云 X 實(shí)例部署圖數(shù)據(jù)庫 Virtuoso 并存儲 6500 萬條大數(shù)據(jù)的完整過程與性能測評

評論