什么是數據集成?
狹義的數據集成定義是指將不同源的數據組合成一個統一視圖。而更廣義的解釋是:數據集成是數據庫之間移動數據的過程 - 內部,外部或兩者。這里,數據庫包括生產DBS,數據倉庫(DWS)以及生成和存儲數據的第三方工具和系統。
我們簡單整理了數據集成的相關技術釋義,包括iPAAS, iPAAS,CDP,ETL,ELT,以及反向ETL。同時,所有集成工具都使用相同的底層技術API
1.IPAAS或Integration Platform作為服務:數據在云應用程序之間移動直接在IPAAS中沒有發生轉換
2.CDP或客戶數據平臺:數據通過中心集線器在云應用程序之間移動,可實現適度的轉換功能
3.ETL或提取,轉換和加載:數據從云應用程序通過內置于ETL工具中的強大轉換圖層移動到數據倉庫
4.ELT或提取,加載和變換:數據從云應用程序移動到數據倉庫直接發布,通過SQL在倉庫中發生轉換和數據建模。這里的主要區別在于,使用ETL,在將數據裝入倉庫之前發生轉換,而在ELT中,隨后發生轉換。
IPAAS或Integration平臺作為服務
促進開發、執行和集成流治理同任何本地(on-premises)以及基于云的流程、服務、應用和數據連接的一套云服務,可以在獨立的或者多個交叉的組織中進行"。
IPAAS的優點,它們隱藏了優秀Web應用程序背后的大部分語法復雜性。中央集線器可以配置不同的模塊,這些模塊可以連接不同的工具,然后將結果提供給其他服務或應用程序。
IPAAS的缺點,但是開發人員需要創建數據到達時如何進行轉換的描述,要求用戶采用傳統的編程語言編寫函數,以便對數據進行過濾和操作。
CDP或客戶數據平臺
1.統一客戶數據,統一客戶身份
CDP客戶數據平臺可以解決用戶場景斷點和分散問題,實現數據通融。
2.多場景的客群分析,深度洞察客戶
針對不同的運營階段和業務場景,CDP可以提供不同的客戶行為數據分析模型,對目標人群或全量客戶的留存情況/參與度進行洞察,及時發現影響客戶增長的關鍵因素,指導市場決策、產品改進、促進用戶轉化等。
ETL或提取,轉換和加載
ETL是一種傳統的數據集成過程。首先從一方數據庫和第三方來源提取數據(主要是SaaS工具,用于銷售,營銷和支持),以滿足分析師和數據科學家的需求,最后裝入數據倉庫。
轉型特別是資源 - 激勵和耗時,這顯著影響提取和數據加載之間所需的時間。
但是,由于倉儲技術和生態系統的進步,ETL正在被ELT所取代,ELT相對會更快,更靈活。
ELT或提取,加載和變換
ELT是ETL的現代方法,這在很大程度上提高效率,因為云數據倉庫的發展,在ELT范例下,數據從源系統中提取并加載到倉庫中而不會發生任何轉換。事實上,現代ELT工具甚至沒有提供內置的轉換功能,但與DBT這樣的服務很好地集成了用于處理數據倉庫內的轉換層的DBT。ELT快速,實惠,最重要的是,不需要編碼,所有這些都是從ETL到ELT的轉變。
目前我國目前數據集成的主流是ETL ,但是作為一種傳統技術,在未來使用ELT作為數據集成架構的將會越來越多。
審核編輯 黃昊宇
-
數據中心
+關注
關注
16文章
4860瀏覽量
72386 -
數據集成
+關注
關注
0文章
53瀏覽量
9237 -
數據一致性
+關注
關注
0文章
5瀏覽量
1451
發布評論請先 登錄
相關推薦
評論