數據倉儲,數據倉儲是什么意思
數據倉儲,數據倉儲是什么意思
各個組織每天都要捕獲一些基本不可使用的數據,原因是無法很方便地訪問、操作和呈現這些數據。在一個組織的各計算機系統上,有數十億字節的數據基本上是“鎖定”的。數據倉儲技術定義了可以使該數據更容易訪問的策略。
業內分析人士和系統供應商長久以來已經認識到有兩種類型的信息系統:
作業系統 作業系統是指組織內將輸入轉換成輸出而創造價值的系統。它接受輸入,即:人、設備和材料,然后將其轉換成能滿足需要的商品或服務。這些系統用來處理日常的經營活動,如記帳、訂單輸入和庫存管理等。這些系統維持企業運行。
信息系統 信息系統是以提供信息服務為主要目的的數據密集型、人機交互的計算機應用系統。人們使用這些系統來分析數據、作出企業管理決策和規劃未來發展。這些系統通常是指“經理管理系統”。
這兩個系統之間的重要差別在于,作業系統處理一組特定的數據(如庫存),而信息系統則要涉及到從多種多樣的相關信息源中提取有用的信息。信息系統從以下信息源訪問和使用數據:
遺留數據系統 一個組織經過多年的收集而獲得的數據的倉庫。這些系統包括較早的大型機或小型計算機系統,這些系統運行的特定應用程序已經不容易從較先進的基于PC的應用程序中來訪問了。
外部數據系統 這些系統位于組織外部,如Web服務器或訂閱數據業務,它們提供了廣泛的信息(如人口統計數據、經濟趨勢數據、產品數據等)。
作業數據系統 如前所述,作業數據是指由記帳和其他企業系統收集和生成的日常數據。
數據倉庫可以視為一個三部分系統,其中,中間系統向終端用戶安全地提供可用的數據。在中間系統的一側是終端用戶,一側是后端數據存儲區。數據倉庫通常由以下幾部分組成,如圖D-12所示。
圖D-12 數據倉庫結構分級系統/數據集市 從后端系統中選擇的數據即存儲在此,以供客戶機訪問。通常要以多種方式對數據進行清理和處理才能對其進行訪問,這在后面將進行探討。數據倉庫可以包含多個數據集市,每個數據集市對應于公司的一個部門。盡管數據集市可存儲從數據倉庫提取的信息,但數據倉庫常常是分階段建立的,首先建立部門數據集市,然后將各個數據集市合并起來。
前端客戶機 這些客戶機是指使用基于PC的應用程序訪問數據以供分析的終端用戶。
中間件 中間件是一種獨立的系統軟件或服務程序,分布式應用軟件借助這種軟件在不同的技術之間共享資源。中間件位于客戶機/ 服務器的操作系統之上,管理計算資源和網絡通訊。是連接兩個獨立應用程序或獨立系統的軟件。中間件可隱藏不同數據管理系統之間的差別,并使客戶機可以容易地訪問這些系統。執行中間件的一個關鍵途徑是信息傳遞。通過中間件,應用程序可以工作于多平臺或OS環境。
消息系統 數據倉庫通常包含多個后端系統和多個客戶機。一個消息系統就是一個傳遞系統,用來在整個數據倉庫中傳輸請求和響應消息系統使用基礎網絡協議和設備傳遞信息。
元數據 元數據是描述數據倉庫內數據的結構和建立方法的數據,這一點與圖書館的目錄卡片包含圖書相關的信息很類似。可將其按用途的不同分為兩類,技術元數據和商業元數據。
從圖D-12中可以看出,客戶機可以訪問存儲在數據集市中的數據,盡管也可以直接訪問遺留系統、作業系統或外部系統。但這種分級的方法有許多優點,其中包括安全性以及客戶機對數據分析人員或數據管理員嚴格控制的數據的訪問權。
關于數據倉庫中的信息
數據倉庫可以視為一個系統,該系統保存有來自遺留、作業或外部數據源的匯總信息。分級系統只存儲最新的信息,僅供只讀使用。所有數據更新均在作業系統上進行,而不在分級系統上進行。根據Prism Solutions(現在稱為Informix),在數據倉庫中有不同級別的匯總和細節,如圖D-13所示。下面進行解釋:
圖D-13 數據倉儲中的數據結構(經Prism Solutions許可)
較早的細節數據是指歷史數據或遺留數據。
當前細節數據(通常為作業數據)是指最新的數據,該數據容量非常大,因此需要進行廣泛的匯總以使其易于訪問。
輕度匯總的數據是指數據庫分析人員或其他一些進程已經從當前細節數據中提取出來的數據。
高度匯總的數據是指壓縮數據,特定部門的終端用戶可以容易地對該數據進行訪問。
可以想象,存儲在遺留、作業或外部系統中的數據用多種不同的方式編碼、構造和存儲,并且數據庫設計人員多年來使用他們自己的慣例來建立數據庫結構。因此,信息在一個數據庫中存儲的方式與相關信息在其他數據庫中存儲的方式大相徑庭。
將數據傳輸到分級系統后,它必須由數據庫分析人員或專為該任務設計的應用程序進行“預處理”。處理過程包括提取、清理、合并、更改和操作數據,從而將數據轉變為與終端用戶關系更大的新的數據集。也可以包括廣泛的完整性檢查,以確保終端用戶可以訪問到準確而及時的數據。
這一過程的主要特征是使用通用的命名慣例和一致的屬性、編碼和結構來集成數據,例如,來自不同數據庫的日期信息的格式可能多種多樣(如Julian、yymmdd、mmddyy等),但可以在分級系統上僅以Julian格式重新設置格式和存儲。
如前所述,公司每個部門可以擁有自己的分級系統用于輕度或高度匯總的數據。數據庫分析人員通常負責從后端系統上對數據進行匯總和提取,并使其可由終端用戶訪問。D2K,Inc.將這些分析人員稱為“農場主”,因為他們的工作就是提取存儲在“服務器場”上的數據。數據農場主可以使用OLAP(聯機分析處理)和“數據開采”工具,這些工具可以幫助他們將信息關聯在一起,并在數據中發現有趣和有意義的關系。OLAP所提供的數據格式是多維“立方體”,而不是比較傳統的表格形式。
支持數據倉儲概念的新軟件可用來替代EIS(執行信息系統)和DSS(決策支持系統)。數據倉庫中發生的數據不斷更新并不會使這些早期的系統受益,并且這些系統僅限于少數決策者使用。
IDWA(國際數據倉儲協會)確定了一種數據倉庫類型,并將其稱為“作業數據倉庫”。該倉庫可提供在前端系統已經鑒別的后端數據進行動態訪問。它用銀行作為例子來說明這一點。該銀行被要求來鑒定某家公司的所有資產,銀行要從多個不同的系統上提取相關的數據,然后法院傳令凍結所有帳號。如果所有這些帳號都存儲在多個不同的遺留系統上,則會引發一個問題。銀行雇員需要分別關閉每個帳號。如果使用作業數據倉庫,則所有帳號可以使用同一種軟件來關閉,該軟件原本用于提取帳戶信息。
構建數據倉庫的目的
(1)市場的激烈競爭和管理過程的復雜性,決定了一個企業為了生存與發展,就需要對客戶關系、市場營銷、產品工程、投資分析等方面的歷史數據進行提取與分析,從中找到對企業進一步發展有價值的潛在信息。
(2)數據倉庫能夠把企業的內部數據和外部數據進行有效的集成,為企業的各層決策提供數據依據。
(3)企業現有的系統不能提供更多的決策信息(盡管企業已經有了大量的數據積累)。
(4)通過構造一種體系化的數據存貯環境,將分析決策所需的大量數據從傳統的操作環境中分離出來,使分散的、不一致的操作數據轉換成集成的、統一的信息。
(5)可以為市場營銷和客戶分析提供基本的信息源和輔助工具。
(6)可以實現對產品、部門、機構的利潤與成本分析。
(7)可以規范管理流程、優化業務處理、提高資本利用率。
規劃和構建數據倉庫
數據倉庫的構架由三部分組成:數據源、數據源轉換/裝載形成新數據庫、OLAP(聯機分析處理 On-line Analytical Processing)。
決定構建數據倉庫的組織面對著一個重要任務,就是如何生成用戶可以使用的及時、準確和有用的信息。為構建數據倉庫,曾經有許多被誤導的嘗試,最終所提供的信息都不準確或不完整。而且常常是除了構建數據倉庫之外別無其他選擇。另一種方法是將有價值的數據仍鎖定在遺留系統中。
曾經有一個公司構建了七個數據倉庫,前六次嘗試均以失敗告終,成為學習經驗。
數據倉庫的實施過程大體可分為三個階段:數據倉庫的項目規劃、設計和實施、維護調整。
構建數據倉庫一開始應仔細規劃策略并建立原型。在購買昂貴的硬件之前,開發人員應與用戶緊密合作,以便準確確定分級系統上需要什么信息以及將如何使用這些信息。完成這一任務的通常做法是構建一些小型系統,然后由這些小型系統擴展成為完整的生產系統。
供應商們已經開發出一些特殊的系統用于數據倉儲。IBM擁有它自己的“信息倉庫”系統。并行數據庫系統正在出現,可以改善對數據庫系統的訪問。新的數據可視化工具已經開發出專門用于這一目的的并行處理系統。
Web接口可能是數據倉儲中新的最重要的方面。許多供應商(包括D2K, Inc.)正在開發一些應用程序,用來將存儲在倉庫中的數據傳輸到Web瀏覽器上。“推送”技術用于自動為訂閱的用戶提供他們所感興趣的最新數據視圖。利用Web技術,只需設置數據格式以便在Web瀏覽器上顯示即可。然后,任何系統上的用戶就可以使用任何Web瀏覽器來顯示該信息了。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
相關閱讀:
- [電子說] IBM Security可落地經驗助企業構筑現代化安全屏障 2023-10-24
- [電子說] DLT698轉modbus協議網關把電能數據接到wincc的方法 2023-10-24
- [電子說] 自動化PLC控制柜如何進行監控管理?有什么應用場景 2023-10-24
- [電子說] 環旭電子推出Pisces企業級無線路由器助力企業應對高密度數據挑戰 2023-10-24
- [電子說] 設備互聯(IOT數據采集)平臺有什么功能 2023-10-24
- [電子說] 物通博聯工業采集網關實現水處理除臭設備運行狀態監控 2023-10-24
- [電子說] Andes旗下高性能多核矢量處理器IP的AX45MPV正式上市 2023-10-24
- [電子說] 工業物聯網解決方案:卷繞機數據采集管理系統 2023-10-24
( 發表人:admin )