在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據倉庫開發(fā)技術的重要一環(huán):ETL

華為開發(fā)者社區(qū) ? 來源:華為開發(fā)者社區(qū) ? 作者:華為開發(fā)者社區(qū) ? 2020-09-23 13:58 ? 次閱讀

大家都知道數據倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數據支持的戰(zhàn)略集合。因此越來越多的企業(yè)和管理者對數據倉庫格外關注。做好數據倉庫開發(fā),一靠工具,二靠技術。就工具方面來說,很多云廠商已經提供了相當成熟和完備的解決方案。

以我們華為云舉例,目前華為云的數據倉庫服務 GaussDB(DWS)已經做到了:實時、簡單、安全可信的企業(yè)級融合數據倉庫,并可借助DWS Express將查詢分析擴展至數據湖。基于華為GaussDB產品的云原生服務,也可以兼容標準SQL和PostgreSQL/Oracle生態(tài)。所以,在工具完備的情況下,開發(fā)者們更關注的應該是技術層面。今天小編要和大家分享的,就是構建數據倉庫的重要一環(huán):ETL。

ETL是將業(yè)務系統(tǒng)的數據經過抽取、清洗轉換之后加載到數據倉庫的過程,是構建數據倉庫的重要一環(huán),用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中。目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數據整合到一起,為企業(yè)的決策提供分析依據。

ETL算法概覽

算法應用場景概覽

以上共計累積了8種ETL算法,其中主要分成4大類,增量累加、拉鏈算法是更符合數據倉庫歷史數據追蹤的算法,但現實中基于業(yè)務及性能考慮,往往存在全刪全插、增量累全算法的數據表應用。

全刪全插模型

即Delete/Insert實現邏輯;

應用場景

主要應用在維表、參數表、主檔表加載上,即適合源表是全量數據表,該數據表業(yè)務邏輯只需保存當前最新全量數據,不需跟蹤過往歷史信息。

算法實現邏輯

1.清空目標表; 2.源表全量插入;

ETL代碼原型

--1.清理目標表 TRUNCATE TABLE <目標表>; -- 2. 全量插入 INSERT INTO <目標表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <關聯數據> WHERE ***;

增量累全模型

即Upsert實現邏輯;

應用場景

主要應用在參數表、主檔表加載上,即源表可以是增量或全量數據表,目標表始終最新最全記錄。

算法實現邏輯

1.利用PK主鍵比對; 2.目標表和源表PK一致的變化記錄,更新目標表; 3.源表存在但目標表不存在,直接插入;

ETL代碼原型

--1.生成加工源表 Create temp Table <臨時表> ***; INSERT INTO <臨時表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <關聯數據> WHERE *** ; -- 2. 可利用Merge Into實現累全能力,當前也可以采用分步Delete/Insert或Update/Insert操作 Merge INTO <目標表> As T1 (字段***) Using <臨時表> as S1 on (***PK***) when Matched then update set Colx = S1.Colx *** when Not Matched then INSERT (字段***) values (字段*** )

增量累加模型

即Append實現邏輯;

應用場景

主要應用在流水表加載上,即每日產生的流水、事件數據,追加到目標表中保留全歷史數據。流水表、快照表、統(tǒng)計分析表等均是通過該邏輯實現。

算法實現邏輯

1.源表直接插入目標表;

ETL代碼原型

-- 1.插入目標表 INSERT INTO <目標表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <關聯數據> WHERE ***;

全歷史拉鏈模型

拉鏈表背景知識

概念 拉鏈表是一張至少存在PK字段、跟蹤變化的字段、開鏈日期、閉鏈日期組成的數據倉庫ETL數據表;

益處 根據開鏈、閉鏈日期可以快速提取對應日期有效數據; 對于跟蹤源系統(tǒng)非事件流水類表數據,拉鏈算法發(fā)揮越大作用,源業(yè)務系統(tǒng)通常每日變化數據有限,通過拉鏈加工可以大大降低每日打快照帶來的空間開銷,且不損失數據變化歷史;

示例 提取指定日期有效數據

提取2020年2月5日當日有效數據

Select* From <目標表> Where 開始日期<=date'2020-02-05' And 結束日期 >date'2020-02-05';

最終提取到數據:

應用場景

全歷史拉鏈,跟蹤源表全量變化歷史,若源表記錄不存在,則說明數據閉鏈;根據PK新拉一條有效記錄。

算法實現邏輯

1.提取當前有效記錄; 2.提取當日源系統(tǒng)最新數據; 3.根據PK字段比對當前有效記錄與最新源表,更新目標表當前有效記錄,進行閉鏈操作; 4.根據全字段比對最新源表與當前有效記錄,插入目標表;

ETL代碼原型

--1.提取當前有效記錄 Insert into <臨時表-開鏈-pre> (不含開閉鏈字段***) Select 不含開閉鏈字段*** From <目標表> Where 結束日期 =date'<最大日期>'; ; -- 2. 提取當日源系統(tǒng)最新數據 <源表臨時表-cur> -- 3 今天全部開鏈的數據,即包含今天全新插入、數據發(fā)生變化的記錄 Insert Into <臨時表-增量-ins> Select 不含開閉鏈字段*** From <源表臨時表-cur> where (不含開閉鏈字段***) not in (Select 不含開閉鏈字段*** From <臨時表-開鏈-pre> ); -- 4 今天需要閉鏈的數據,即今天發(fā)生變化的記錄 Insert into <臨時表-增量-upd> Select 不含開閉鏈字段***,開始時間 From <臨時表-開鏈-pre> where (不含開閉鏈字段***) not in (Select 不含開閉鏈字段*** From <臨時表-開鏈-cur> ); -- 5 更新閉鏈數據,即歷史記錄閉鏈(刪除-插入替代更新) DELETE FROM <目標表> WHERE (PK***) IN (Select PK*** From <臨時表-增量-upd>) AND 結束日期=date'<最大日期>'; INSERT INTO <目標表> (不含開閉鏈字段***,開始時間,結束日期) Select 不含開閉鏈字段***,開始時間,date'<數據日期>' From <臨時表-增量-upd>; -- 6 插入開鏈數據,即當日新增記錄 INSERT INTO <目標表> . (不含開閉鏈字段***,開始時間,結束日期) Select 不含開閉鏈字段***,date'<數據日期>',date'<最大日期>' From <臨時表-增量-ins>;

增量拉鏈模型

應用場景

增量拉鏈,目的是追蹤數據增量變化歷史,根據PK比對新拉一條開鏈數據;

算法實現邏輯

1.提取上日開鏈數據; 2.PK相同變化記錄,關閉舊記錄鏈,開啟新記錄鏈; 3.PK不同,源表存在,新增開鏈記錄

ETL代碼原型

--1.提取當前有效記錄 Insert into <臨時表-開鏈-pre> (不含開閉鏈字段***) Select 不含開閉鏈字段*** From <目標表> Where 結束日期 =date'<最大日期>'; -- 2. 提取當日源系統(tǒng)增量記錄 <源表臨時表-cur> -- 3. 提取當日源系統(tǒng)新增記錄 Insert into <臨時表-增量-ins> Select 不含開閉鏈字段*** From <臨時表-開鏈-cur> where (***PK***) not in (select ***PK*** from <臨時表-開鏈-pre>); -- 4. 提取當日源系統(tǒng)歷史變化記錄 Insert into <臨時表-增量-upd> Select 不含開閉鏈字段*** From <臨時表-開鏈-cur> inner join <臨時表-開鏈-pre> on (***PK 等值***) where (***變化字段 非等值***); -- 5. 更新歷史變化記錄,關閉歷史舊鏈,開啟新鏈 update <目標表> AS T1 SET <***變化字段 S1賦值***>,結束日期 = date'<數據日期>' FROM <臨時表-增量-upd> AS S1 WHERE ( <***PK 等值***> ) AND T1.結束日期 =date'<最大日期>' ; INSERT INTO <目標表> (不含開閉鏈字段***,開始時間,結束日期) SELECT 不含開閉鏈字段***,date'<數據日期>',date'<最大日期>' FROM <臨時表-增量-upd>; -- 6. 插入全新開鏈數據 INSERT INTO <目標表> (不含開閉鏈字段***,開始時間,結束日期) SELECT 不含開閉鏈字段***,date'<數據日期>',date'<最大日期>' FROM <臨時表-增量-ins>;

增刪拉鏈模型

應用場景

主要是利用業(yè)務字段跟蹤增量數據中包含刪除的變化歷史。

算法實現邏輯

1.提取上日開鏈數據; 2.提取源表非刪除記錄; 3.PK相同變化記錄,關閉舊記錄鏈,開啟新記錄鏈; 4.PK比對,源表存在,新增開鏈記錄; 5.提取源表刪除記錄; 6.PK比對,舊開鏈記錄存在,關閉舊記錄鏈;

ETL代碼原型

--1.清理目標表《待續(xù)...》 TRUNCATE TABLE <目標表>; -- 2. 全量插入 INSERT INTO <目標表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <關聯數據> WHERE ***;

全量增刪拉鏈模型

應用場景

主要是利用業(yè)務字段跟蹤全量數據中包含刪除的變化歷史。

算法實現邏輯

1.提取上日開鏈數據; 2.提取源表非刪除記錄; 3.PK相同變化記錄,關閉舊記錄鏈,開啟新記錄鏈; 4.PK比對,源表存在,新增開鏈記錄; 5.提取源表刪除記錄; 6.PK比對,舊開鏈記錄存在,關閉舊記錄鏈; 7.PK比對,提取舊開鏈存在但源表不存在記錄,關閉舊記錄鏈;

ETL代碼原型

-- 1. 清理目標表,《待續(xù)...》 TRUNCATE TABLE <目標表>; -- 2. 全量插入 INSERT INTO <目標表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <關聯數據> WHERE ***;

自拉鏈模型

應用場景

主要將流水表數據轉化成拉鏈表數據。

算法實現邏輯

借助源表業(yè)務日期字段,和目標表開鏈、閉鏈日期比對,首尾相接,拉出全歷史拉鏈;

ETL代碼原型

--1.清理目標表,《待續(xù)...》 TRUNCATE TABLE <目標表>; -- 2. 全量插入 INSERT INTO <目標表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <關聯數據> WHERE ***;

其它說明

1.根據數據倉庫最佳實踐,所有數據表通常還會包含一些控制字段,即插入日期、更新日期、更新源頭字段,這樣對于數據變化敏感的數據倉庫,可以進一步追蹤數據變化歷史; 2.ETL算法本身是為了更好服務于數據加工過程,實際業(yè)務實現過程中,并不局限于傳統(tǒng)算法,即涉及到更多適應業(yè)務的自定義的ETL算法。

原文標題:8種優(yōu)秀ETL算法推薦!數據倉庫開發(fā)者看過來~

文章出處:【微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • ETL
    ETL
    +關注

    關注

    0

    文章

    23

    瀏覽量

    9563
  • 數據倉庫
    +關注

    關注

    0

    文章

    61

    瀏覽量

    10662

原文標題:8種優(yōu)秀ETL算法推薦!數據倉庫開發(fā)者看過來~

文章出處:【微信號:Huawei_Developer,微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    部隊倉庫管理模式革新,RFID技術倉庫管理更高效

    的“庫房”概念,成為部隊戰(zhàn)斗力生成鏈條中不可或缺的一環(huán)。 這系統(tǒng)之根基,在于對物資的全面掌控與高效流轉。它構建了強大的物資譜系,從入庫登記、精準分類、細致編碼,到質量狀態(tài)追蹤與庫存位置鎖定,構筑了數據化管理的堅
    的頭像 發(fā)表于 06-03 17:44 ?88次閱讀
    部隊<b class='flag-5'>倉庫</b>管理模式革新,RFID<b class='flag-5'>技術</b>讓<b class='flag-5'>倉庫</b>管理更高效

    惠倫晶體邀您相約2025中國國際新能源汽車展

    隨著全球對環(huán)境保護意識的日益增強和科技的飛速發(fā)展,新能源汽車產業(yè)正以前所未有的速度蓬勃興起。作為新能源汽車產業(yè)鏈中的重要一環(huán),各類先進技術與零部件的展示與交流平臺顯得尤為重要
    的頭像 發(fā)表于 02-18 13:47 ?348次閱讀

    兆易創(chuàng)新2024年深圳人社公益培訓圓滿收官

    職業(yè)技能培訓作為兆易創(chuàng)新大學計劃中的重要一環(huán),始終致力于與行業(yè)上下游保持緊密互動與合作,依托于公司最新的產品技術,積極完善和拓展開發(fā)生態(tài)系統(tǒng),為社會嵌入式人才培養(yǎng)賦能。
    的頭像 發(fā)表于 12-31 16:34 ?705次閱讀
    兆易創(chuàng)新2024年深圳人社公益培訓圓滿收官

    灌區(qū)泵站信息化監(jiān)控運維管理系統(tǒng)方案

    灌區(qū)泵站信息化監(jiān)控運維管理系統(tǒng)方案,是現代農業(yè)灌溉管理中的重要一環(huán),它融合了物聯網、大數據、云計算等先進技術,為灌區(qū)泵站的運行提供了全面、智能的監(jiān)控與管理。
    的頭像 發(fā)表于 12-29 09:26 ?346次閱讀
    灌區(qū)泵站信息化監(jiān)控運維管理系統(tǒng)方案

    汽車擺臂行業(yè)生產設備數據采集及集成

    汽車擺臂生產設備數據采集及集成是實現數字化轉型的重要一環(huán)。萬界星空科技MES系統(tǒng)通過數據采集設備、數據采集與傳輸、數據集成與存儲以及
    的頭像 發(fā)表于 12-03 16:27 ?339次閱讀
    汽車擺臂行業(yè)生產設備<b class='flag-5'>數據</b>采集及集成

    智慧消防監(jiān)管平臺:科技賦能,重塑消防安全新生態(tài)

    在當今快速發(fā)展的社會中,消防安全已成為城市管理和公共安全領域不可忽視的重要一環(huán)。隨著物聯網、大數據、云計算等先進技術的飛速進步,智慧消防監(jiān)管平臺應運而生,以其高效、智能、全面的特點,正逐步重塑消防安全管理與應急響應的新生態(tài)。
    的頭像 發(fā)表于 11-20 16:21 ?667次閱讀

    如何進行產線高階能耗數據的計算和可視化?

    產線高階能耗數據的計算和可視化是產線數字化升級的重要一環(huán)。如何高效完成這流程?宏集方案告訴你
    的頭像 發(fā)表于 11-13 14:02 ?426次閱讀
    如何進行產線高階能耗<b class='flag-5'>數據</b>的計算和可視化?

    交流單相端子(焊片)連接濾波器的重要性與應用

    在現代電子設備和電力系統(tǒng)中,交流單相端子(焊片)連接濾波器扮演著舉足輕重的角色。它們不僅是電力傳輸和分配的關鍵組件,還是確保系統(tǒng)穩(wěn)定運行和延長設備壽命的重要一環(huán)。本文將深入探討交流單相端子(焊片)連接濾波器的工作原理、重要性以及在實際應用中的優(yōu)勢。
    的頭像 發(fā)表于 11-13 11:54 ?551次閱讀

    明達技術工業(yè)級邊緣計算網關:智能制造的智慧紐帶

    在工業(yè)互聯網的浪潮中,智能制造正引領著傳統(tǒng)制造業(yè)的深刻變革,顯著提升著生產效能與運營效率。在這場轉型中,數據處理與分析能力成為了企業(yè)核心競爭力的重要一環(huán)。明達技術品牌的工業(yè)級邊緣計算網關,作為連接工業(yè)設備與云端智能的橋梁,其戰(zhàn)略
    的頭像 發(fā)表于 09-26 09:10 ?425次閱讀
    明達<b class='flag-5'>技術</b>工業(yè)級邊緣計算網關:智能制造的智慧紐帶

    認識PCB碳油工藝:電路板創(chuàng)新的重要一環(huán)

    在PCB線路板的制造領域中,碳油工藝是項具有重要地位的技術。它為電路板的功能性和可靠性提供了關鍵支持,在電子設備的生產中發(fā)揮著不可或缺的作用。 PCB碳油工藝,簡單來說,就是在PCB板的特定區(qū)域上
    的頭像 發(fā)表于 09-03 17:56 ?2119次閱讀

    漢得利BESTAR BMV1022H09雙向線性馬達的性能

    在科技快速發(fā)展的今天,觸覺反饋技術作為人機交互的重要一環(huán),正經歷著前所未有的市場擴張與技術創(chuàng)新。每次指尖輕觸手機屏幕的瞬間,振動反饋悄然融入,成為提升手機綜合體驗不可或缺的無形伴侶,
    的頭像 發(fā)表于 08-08 14:43 ?768次閱讀

    數據倉庫數據庫的主要區(qū)別

    數據倉庫數據庫是兩個在信息技術領域中常見的概念,它們在數據管理和分析方面發(fā)揮著重要作用。盡管它們在某些方面有相似之處,但它們在設計、目的和
    的頭像 發(fā)表于 07-05 14:57 ?885次閱讀

    車載導航儀出口北美,FCC認證將是不可或缺的一環(huán)

    ,無疑是眾多制造商的首選。而對于希望將車載導航儀出口至北美的企業(yè)來說,了解并遵守當地的市場準入規(guī)則至關重要,FCC認證正是其中不可或缺的一環(huán)。本篇內容英利檢測講深入解
    的頭像 發(fā)表于 07-02 17:35 ?627次閱讀
    車載導航儀出口北美,FCC認證將是不可或缺的<b class='flag-5'>一環(huán)</b>

    5G技術引領固定無線接入(FWA)飛速增長

    隨著5G技術的深入發(fā)展和普及,固定無線接入(FWA)作為5G用例的重要一環(huán),正展現出強勁的增長勢頭。在過去的年里,全球范圍內提供FWA服務的運營商數量顯著增加,標志著5G技術在家庭寬
    的頭像 發(fā)表于 06-28 16:25 ?1088次閱讀

    跌落試驗嚇跳?來看看飛凌嵌入式品質保證的重要一環(huán)

    飛凌嵌入式
    飛凌嵌入式
    發(fā)布于 :2024年06月21日 16:51:12
    主站蜘蛛池模板: 国产成人亚洲影视在线 | 国产情侣自拍小视频 | 看片久久| 在线看片成人免费视频 | 免费高清成人啪啪网站 | 男女免费在线视频 | 欧美特黄一区二区三区 | 99精品久久久久久久婷婷 | 无遮挡很爽很污很黄很色的网站 | 香蕉网影院在线观看免费 | 91啪免费网站在线观看 | 天堂在线观看视频观看www | 国产亚洲综合视频 | 亚洲在线a| 亚洲欧美综合一区二区三区四区 | 婷婷精品视频 | 在线视频毛片 | 一级片视频在线观看 | 在线观看一级毛片 | 俄罗斯美女69xxxxxx | 亚洲网站在线观看 | 国模精品视频一区二区三区 | 日韩黄色录像 | 99热久久精品免费精品 | 香港经典a毛片免费观看爽爽影院 | 色婷婷六月丁香在线观看 | 色综合天天综久久久噜噜噜久久〔 | 欧美色综合网站 | 春宵福利网站 | hs网站在线观看 | 琪琪午夜免费影院在线观看 | 四虎影酷 | 国产叼嘿网站免费观看不用充会员 | 美女黄页网 | 国产美女视频黄a视频全免费网站 | 中文字幕视频一区二区 | 女人被狂躁视频网站免费 | 国模一区二区三区私啪啪 | 曰韩毛片 | 手机在线观看一级午夜片 | 色姑娘天天干 |