理解數(shù)據(jù)是控制任何企業(yè)的先決條件。但只有當(dāng)這些知識(shí)能夠被分享和傳播時(shí),理解才是有用的。有效的數(shù)據(jù)建模應(yīng)該是任何企業(yè)架構(gòu)師的首要關(guān)注點(diǎn)。
在我的上一篇文章中,我認(rèn)為理解一個(gè)企業(yè)的數(shù)據(jù)是指導(dǎo)一個(gè)企業(yè)的核心。但理解只是問(wèn)題的一半。另一半是能夠記錄這種理解并與他人分享。
如果沒(méi)有對(duì)數(shù)據(jù)的共同理解,就談不上跨系統(tǒng)或組織的共享數(shù)據(jù)。傳統(tǒng)上,這是通過(guò)使用數(shù)據(jù)字典來(lái)完成的--這些文件旨在解釋數(shù)據(jù)結(jié)構(gòu)中每個(gè)字段的內(nèi)容和格式。可悲的現(xiàn)實(shí)是,這些文檔必須手動(dòng)創(chuàng)建和更新,因此很少會(huì)進(jìn)行更新。其結(jié)果是往往會(huì)出現(xiàn)過(guò)時(shí)的、無(wú)用的文檔和沮喪的架構(gòu)師和開(kāi)發(fā)人員。但其實(shí)還有更好的辦法。
正確完成建模
在過(guò)去的幾十年里,數(shù)據(jù)建模的努力通常集中在關(guān)系數(shù)據(jù)建模或可擴(kuò)展標(biāo)記語(yǔ)言(XML)的建模上。只要數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,關(guān)系數(shù)據(jù)建模就會(huì)很好,但除此之外,它很少會(huì)有其他的用途。而且XML也不能被可靠地稱為建模語(yǔ)言。XML是序列化數(shù)據(jù)的規(guī)范--即定義了如何將數(shù)據(jù)寫(xiě)入文件。XML為構(gòu)造數(shù)據(jù)的序列化提供了一種格式,但它不是一個(gè)真正的模型。
我所說(shuō)的“模型”指的是以數(shù)學(xué)為基礎(chǔ)的形式規(guī)范。實(shí)際上,這意味著是可以使用形式化方法進(jìn)行驗(yàn)證的東西。通俗地說(shuō),這意味著我們可以用數(shù)學(xué)運(yùn)算來(lái)證明它是正確的,并且我們可以使驗(yàn)證過(guò)程自動(dòng)化。而在XML模式中捕獲數(shù)據(jù)不符合此定義下的模型。但可以肯定的是,我們可以使用軟件來(lái)驗(yàn)證該XML格式是否良好,是否符合一些XML模式的文檔。但這還不足以真正地對(duì)數(shù)據(jù)進(jìn)行建模。
無(wú)論是計(jì)算機(jī)還是人,如果不同時(shí)理解數(shù)據(jù)的語(yǔ)法(結(jié)構(gòu))和語(yǔ)義(含義),就無(wú)法理解數(shù)據(jù)。XML可以捕獲語(yǔ)法,但它不能天生捕獲語(yǔ)義。語(yǔ)義可以用XML格式編寫(xiě),但是這些語(yǔ)義必須首先在一些更正式的建模方案中被捕獲。換句話說(shuō),企業(yè)需要一個(gè)正式的本體。這種建模方案大多基于形式邏輯,通常是公共邏輯或描述邏輯。
迄今為止,最常用的語(yǔ)義建模語(yǔ)言是基于描述邏輯的網(wǎng)絡(luò)本體語(yǔ)言(OWL)。這意味著我們不僅可以正式驗(yàn)證模型及其包含的數(shù)據(jù),還可以通過(guò)對(duì)數(shù)據(jù)的推理來(lái)推斷新的事實(shí),并且我們可以證明這些推斷的正確性。因?yàn)镺WL是本體建模的事實(shí)上的標(biāo)準(zhǔn),所以我將把剩下的內(nèi)容限制在OWL上。
但是等等!所有這些都不意味著你需要將你的數(shù)據(jù)存儲(chǔ)為OWL。在你過(guò)于擔(dān)心如何將存儲(chǔ)格式強(qiáng)加給不情愿的開(kāi)發(fā)人員之前,先聽(tīng)我說(shuō)完。
數(shù)據(jù)模型和數(shù)據(jù)存儲(chǔ)
軍事策劃者有一句格言:“業(yè)余愛(ài)好者擔(dān)心戰(zhàn)術(shù),而專業(yè)人士擔(dān)心后勤。”他們?cè)噲D達(dá)到的核心思想是,如果你只是制定了一個(gè)壓倒敵人防御的戰(zhàn)斗計(jì)劃,那并沒(méi)有什么用處,但是,你也不能只讓你自己的部隊(duì)獲得執(zhí)行計(jì)劃所需的燃料和彈藥。同樣的,我們也可以說(shuō)實(shí)現(xiàn)者通常會(huì)擔(dān)心存儲(chǔ),而架構(gòu)師會(huì)擔(dān)心模型。沒(méi)有理由必須認(rèn)為數(shù)據(jù)模型是應(yīng)該由特定系統(tǒng)使用的存儲(chǔ)技術(shù)來(lái)決定的。一個(gè)定義良好的模型可以通過(guò)無(wú)損過(guò)程轉(zhuǎn)換成任何需要的存儲(chǔ)格式。
通常,我們會(huì)從存儲(chǔ)解決方案開(kāi)始,然后回到數(shù)據(jù)格式。或者多種格式。大約20年前,當(dāng)XML首次被引入時(shí),它被譽(yù)為了通用的數(shù)據(jù)交換格式。在這種情況下,需要交換數(shù)據(jù)的各種系統(tǒng)可以采用它們當(dāng)前的存儲(chǔ)模式(通常是關(guān)系數(shù)據(jù)庫(kù)),并將數(shù)據(jù)轉(zhuǎn)換成可擴(kuò)展標(biāo)記語(yǔ)言,以便與其他系統(tǒng)進(jìn)行交換。其結(jié)果是企業(yè)和系統(tǒng)架構(gòu)師會(huì)過(guò)度關(guān)注于XML格式,而幾乎忽略了系統(tǒng)的預(yù)期功能或企業(yè)的整體互操作性。
這個(gè)問(wèn)題在國(guó)防部尤為嚴(yán)重。該部門(mén)支持著一個(gè)名副其實(shí)的需要手工創(chuàng)建和維護(hù)的XML規(guī)范。每一個(gè)XML模式都是單獨(dú)維護(hù)的,每次更新時(shí),都必須檢查每個(gè)相關(guān)的規(guī)范是否有潛在的影響(通常是手動(dòng)的)。除此之外,還必須在XML模式中為無(wú)法更新以符合新模式的系統(tǒng)進(jìn)行設(shè)置。其結(jié)果是產(chǎn)生了一個(gè)混亂的規(guī)范混合體,迫使人們必須把注意力集中在使XML協(xié)同工作上,而不是集中在XML應(yīng)該促進(jìn)的任務(wù)上。
與其從存儲(chǔ)格式開(kāi)始,然后確定如何為信息交換來(lái)表示它,還不如從與存儲(chǔ)無(wú)關(guān)的數(shù)據(jù)模型(如OWL)開(kāi)始,然后將其用作生成數(shù)據(jù)庫(kù)模式和數(shù)據(jù)交換格式的基礎(chǔ)。這不僅可以讓您專注于理解現(xiàn)有的數(shù)據(jù)(而不是一些開(kāi)發(fā)人員想的如何將它塞進(jìn)數(shù)據(jù)庫(kù)),通過(guò)從基于模型來(lái)創(chuàng)建的多個(gè)數(shù)據(jù)表示,可以最小化維護(hù)尾部。因?yàn)閷?duì)企業(yè)數(shù)據(jù)的任何更改都只需要在主模型中手動(dòng)更改,因而從該模型生成其他存儲(chǔ)和交換模式時(shí)也可以確保這些模式之間的一致性。
企業(yè)數(shù)據(jù)建模
如果你關(guān)注的只是企業(yè),那么很明顯,你對(duì)數(shù)據(jù)的關(guān)注已經(jīng)跨越了整個(gè)企業(yè),現(xiàn)在你可能會(huì)認(rèn)為對(duì)企業(yè)中的所有數(shù)據(jù)進(jìn)行建模的前景是相當(dāng)令人望而生畏的。但不要害怕,如果你足夠小心的話,這也可以成為一項(xiàng)你可以安全地委托給許多人的任務(wù)。
創(chuàng)建一個(gè)單一的企業(yè)數(shù)據(jù)模型通常是徒勞的。對(duì)于一個(gè)群體來(lái)說(shuō),有太多的數(shù)據(jù)需要建模,有太多相互競(jìng)爭(zhēng)的利益集團(tuán)試圖將模型推向他們喜歡的方向,并堅(jiān)持認(rèn)為并沒(méi)有其他方法能夠適合他們。但是使用OWL開(kāi)發(fā)的本體是模塊化的,這意味著你可以集成來(lái)自不同來(lái)源的多個(gè)模型。不是創(chuàng)建一個(gè)覆蓋整個(gè)企業(yè)的單一模型,而是針對(duì)每個(gè)不同的利益集團(tuán)(業(yè)務(wù)領(lǐng)域、開(kāi)發(fā)團(tuán)隊(duì)等)。可以為它關(guān)心的數(shù)據(jù)定義自己的本體。
不幸的是,這幾乎肯定會(huì)導(dǎo)致數(shù)據(jù)模型的重疊,但對(duì)不同對(duì)象會(huì)有不同的建模。這個(gè)問(wèn)題的解決方案是采用一個(gè)通用的上層本體,企業(yè)中的每個(gè)本體都應(yīng)該從這個(gè)本體中派生出來(lái)。一個(gè)通用的上層本體不會(huì)阻止所有的互操作性問(wèn)題,但是有了一個(gè)好的上層本體,它會(huì)通過(guò)阻止完全荒謬的構(gòu)造來(lái)約束這些問(wèn)題,比如將“位置”變成一種“事件”(不,說(shuō)真的,我已經(jīng)看到這種情況了)。
有許多候選的上層本體可用,它們中的大多數(shù)會(huì)試圖將所有信息分成五到六個(gè)頂級(jí)類別。但是,這些本體中的大多數(shù)都會(huì)遇到這樣的問(wèn)題:有些本體所擁有的數(shù)據(jù)類并不適合他們的基本類,結(jié)果就會(huì)產(chǎn)生像將位置作為事件類型這樣的錯(cuò)誤。在我的經(jīng)驗(yàn)中,基本形式本體論(BFO)應(yīng)該是其中最深思熟慮的。在我使用BFO的幾年中,我?guī)缀鯖](méi)有發(fā)現(xiàn)一個(gè)案例,其中所考慮的數(shù)據(jù)會(huì)不符合BFO的類層次結(jié)構(gòu)。
無(wú)論如何,企業(yè)架構(gòu)師必須在其特定環(huán)境中選擇一個(gè)最有效的數(shù)據(jù)建模理念。不管你選擇什么樣的數(shù)據(jù)建模理念,請(qǐng)記住,你有義務(wù)捕獲企業(yè)中所有數(shù)據(jù)的語(yǔ)法和語(yǔ)義。
作者:John McDowall
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7145瀏覽量
89584 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7540瀏覽量
88644 -
數(shù)據(jù)建模
+關(guān)注
關(guān)注
0文章
11瀏覽量
7013
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論