在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據工程師的角色與責任

工程師人生 ? 來源:wv ? 作者:簡書網 ? 2019-09-26 17:29 ? 次閱讀

很重要的一點,“數據工程”正在發展出新一代,與互聯網革命一樣,要發展出新的工具、新的方法,新的套路。也正是這種不斷推陳出新的“新技術”的出現才使互聯網以及計算機技術推動社會的進步和發展。

當商業智能工程師的工作逐漸超越了“經典”的商業智能,就開始創造出了新的的學科——數據工程師。

而新學科的出現,則意味著要開發新技能、新的工作方式、新的工具,而這些往往要背棄傳統方法。

數據科學與數據工程

數據科學(Data Science)當下在經歷“青春期”,自我肯定和定義自身的階段。

數據工程(Data Engineering)比數據科學更為年輕些,也正在經歷類似的事情。(下統稱DE)

DS 與 DE 相同的部分:codeing, 深入分析,數據可視化

但是DE比DS更接近軟件工程(有爭議),DE還需要進行工程建模、基礎設施、框架和服務。

DE還不成熟的理解:可以被視作是商業智能、數據倉庫以及部分軟件工程的超集,同時集成了“大數據”分布式系統、擴展Hadoop生態系統、流處理和大規模計算的概念。

對于較小的公司,沒有數據基礎架構團隊,僅是設置和運營公司的數據,常用的平臺有Hadoop,Hive,HBase,Spark等。

對于大公司而言,對數據基礎架構團隊的需求增長,則開始創建正式的角色來管理此類工作,自動化數據工程流程,解決更高級別的問題。同時,也出現了更好的自助服務工具,不再僅僅是制作和維護報告、儀表板等簡單的任務。

數據倉庫技術(ETL)的變化

代碼允許任意級別的抽象,允許以熟悉的方式的進行所有邏輯操作,與源代碼一起進行良好的集成,易于版本和寫作。

在過往,ETL工具演變為圖形界面,這是數據處理歷史上的一個彎路。抽象“數據處理”,在計算和存儲上都有一定的復雜性,但解決方案不是將ETL的原語(如聚合、過濾等)變成以“拖放方式”展現,而是更加抽象的級別。

比如,在現代數據環境中所需抽象的一個例子是A/B測試框架中的實驗配置:什么是實驗?什么是相關的治療方法?應該暴露多少百分比的用戶?每項實驗預計會影響哪些指標?實驗什么時候生效?

我們現在有一個框架,可以接受高級的、精確的,然后執行復雜的統計計算,并提供計算結果。顯然,這個抽象的輸入參數不是ETL提供的。

所以,對于現代數據工程師來說,傳統的ETL工具在很大程度上已經過時,因為邏輯無法用代碼表示,這導致工具不能直觀的表達所需的抽象。這迫使數據工程師的角色要來重新定義“ETL”,并且建立一套全新的工具、方法和約束等,以及新一代的“數據工程師”。

數據建模發生的變化

經典、傳統的建模技術,定義了我們數據建模方法,進行數據倉庫相關的分析工作。現在,存儲和計算比以往任何時候都便宜,隨著分布式數據庫的出現,線性擴展等,稀缺資源就是“工程時間”。

數據建模技術發生的變化:

1、“非規范化”的進一步發展:維護Surrogate keys(主鍵)可能會很困難,而且會降低事務表(fact tables)的可讀性。使用自然的、人類可讀的鍵和緯度屬性變得越來越普遍,這減少了分布式數據庫鏈接的需求,這個需求是很高昂的。

像ORC,Parquet等序列格式化,或是Vertica等數據庫引擎,支持編碼和壓縮,可以解決“非規范”的大部分性能損失,這些系統已經被教導自行規范數據存儲。

2、blob:現在數據庫通過本機和函數對blob的支持越來越多,這將融入到數據建模中,開啟新的動作,允許事務表在需要時一次存儲多個。

3、動態模式:map的出現減少、文檔存儲日益普及,對數據庫中blob的支持,于是,在不執行DML的情況下,發展數據庫模式變得更容易,采用迭代方法進行存儲更容易,并且無需在開發之前獲得完全的共識和支持。

4、 系統化快照維度:存儲每個ETL調度周期的維度的完整副本,通常在不同的表分區當中。用一種簡單的方法,作為處理緩慢變化的維度(SCD),在編寫ETL和查詢時都很容易掌握。

將維度的屬性反規范化到事實表中,這方便在事務處理時跟蹤其值,也很容易,且相對便宜。

反觀,復雜的SCD建模技術并不直觀,降低了可訪問性。

5、一致性:在數據環境中,一致性一直都是非常重要的,但是數據倉庫需要快速移動,且有更多的團隊被邀請作這項工作,所以不是很必要,更多情況下是進行權衡。

可以說,隨著計算周期的商品化,以及更多的人精通數據,不需要在倉庫中預先計算和存儲結果。比如,我們可以有復雜的Spark,該任務只能按需計算復雜分析,而不能安排成為倉庫的一部分。

角色與責任

數據倉庫是專門用于查詢和分析的事物數據的副本

數據倉庫是面向主題的、集成的、時變的和非易失性的數據集合,以支持管理層的決策過程

數據倉庫與以往一樣重要,數據工程師的焦點是數據倉庫,負責其構建、運營等方方面面,同時還與數據科學家、分析師和軟件工程師參與其建設和運營。

數據工程團隊通常會在數據倉庫中擁有經過認證的高質量區域。比如在Airbnb,有“核心”模式,明確定義和測量服務級別協議(SLA),嚴格遵循命名約定,業務員數據和文檔質量最高,相關的管道代碼遵循一套明確的定義。

通過數據對象的標準、最佳實踐和認證過程的定義,這些成為數據工程團隊很重要的組成部分,成為“卓越中心”。團隊可以發展為分享或領導教育計劃,分享核心競爭力,以幫助其他團隊成為數據倉庫的更好公民。比如,Facebook有一個數據陣營的教育計劃,airbnb在開發一個類似的數據大學的計劃,數據工程師領導會議,教會人們如何熟練掌握數據。

數據工程師也是數據倉庫的“圖書館員”,編目和組織元數據,定義一個文件或從倉庫中提取數據。在快速發展、略微混亂的數據生態系統中,元數據管理和工具成為現代數據平臺的重要組成部分。

性能調優和優化

數據,在當下比以往任何時候都更具有挑戰性,公司的數據基礎設施預算正在不斷增加。這使得數據工程師在性能調優和數據處理、存儲有劃傷,花費周期越來越合理。在這一領域的預算很少收縮,因此優化通常是實現更多的資源,或嘗試線性化資源利用率和成本的指數增長。

數據工程堆棧的復雜性跨度很大,呈爆炸式增長,我們可以假設優化這種堆棧和流程的復雜性,具有同樣變化的挑戰程度。我們只需要很少的努力,就可以輕松獲得巨額的成功,所以這適用遞減收益法。

建議:基礎設施與公司一起擴展,并始終保持資源意識。

數據集成

數據集成是通過數據交換整合業務和系統的實踐,與以往一樣重要,且具有挑戰性。在新的標準方式下,我們希望將服務軟件(如SaaS)生成的數據,也帶入到我們的倉庫,以便可以根據其余數據進行分析。Saas通常擁有自己的分析產品,但缺乏公司其他的數據,因此需要將其產生的分析數據,提取回來。

在這樣的情況,Saas產品重新定義參考數據,而沒有集成和共享。沒有人想在兩個不同的系統中,手動維護兩個員工或客戶列表,而且在提取數據導進倉庫時,必須進行模糊匹配。

但即使這樣,公司高管沒有真正考慮數據集成的挑戰,與Saas提供商簽訂協議,提供商也低估了集成工作量,以促進他們的銷售,使數據工程師陷入大量且混亂的工作中。Saas api通常設計不當,文檔不清晰,而且“敏捷”,也就是說,您可以在不事先通知的情況下,進行更改。

服務

數據工程師在更高的抽象層次上運行,在一些情況下,要提供服務和工具來自動化底層的工作類型,底層的含義是可以手動完成的。

1、數據提取:抓取數據庫,加載日志,從外部存儲或API獲取數據的服務和工具

2、度量計算:用于計算和匯總參與度,增長或細分相關度量的框架

3、異常檢測:自動化數據消耗,提醒人們發生異常事件或趨勢發生顯著變化。

4、元數據管理:允許生成和使用元數據的工具,可以輕松地在數據倉庫內和周圍查找信息。

5、實驗:具有重要的數據工程組件,A/B測試和實驗框架

6、儀表:分析記錄事件和與這些事件相關的屬性,確保上游捕獲高質量數據有既得利益。

7、會話:專門用于及時了解一系列操作的管道,允許分析人員了解用戶行為

就像軟件工程師一樣,數據工程師應該不斷尋求自動化他們的工作,構建抽象參數,然后做更為復雜的內容。雖然自動化的工作流程的性質因環境而異,但自動化他們的需求基本上都是通用的。

技能

1、SQL

2、數據建模技術

3、ETL設計:編寫高效、有彈性、可演化的ETL

4、架構預測

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    (仰天長嘯)為什么受傷的總是硬件工程師...#MDD#MDD辰達半導體 #電子工程師

    電子工程師
    MDD辰達半導體
    發布于 :2025年04月27日 18:21:47

    問,成為硬件工程師需要幾只手?#硬件工程師 #YXC晶振 #揚興科技 #搞笑

    硬件工程師
    揚興科技
    發布于 :2025年04月25日 17:15:37

    硬件工程師手冊(全套)

    §1.2.1 硬件工程師職責 一個技術領先、運行可靠的硬件平臺是公司產品質量的基礎,硬件工程師職 責神圣,責任重大。yf-f4-06-cjy 1、硬件工程師應勇于嘗試新的先進技
    發表于 04-22 15:05

    如何成為一名嵌入式軟件工程師

    如何成為一名嵌入式軟件工程師? 01明確崗位的角色與定位 嵌入式軟件工程師主要負責開發運行在特定硬件平臺上的軟件,這些軟件通常與硬件緊密集成,以實現特定的功能。 不僅需要精通編程語言(如C/C++
    發表于 04-15 14:37

    硬件工程師:回答我!#回答我 #硬件工程師 #YXC晶振 #揚興科技

    硬件工程師
    揚興科技
    發布于 :2025年03月25日 18:46:59

    一招拿捏電子工程師#被AI拿捏了 #電子工程師 #電子電工

    電子工程師
    安泰小課堂
    發布于 :2025年03月25日 17:30:51

    談談PCB工程師金字塔分級標準

    印刷電路板(PCB)工程師是電子行業中至關重要的角色,他們的工作直接關系到電子產品的質量和性能。為了明確不同PCB工程師的技能水平和職責范圍,行業內形成了金字塔分級標準。下面將談談這個金字塔的分級標準。
    的頭像 發表于 12-25 10:02 ?794次閱讀

    FPGA算法工程師、邏輯工程師、原型驗證工程師有什么區別?

    ,共同進步。 歡迎加入FPGA技術微信交流群14群! 交流問題(一) Q:FPGA中的FPGA算法工程師、FPGA邏輯工程師、FPGA原型驗證工程師三者有什么區別? A:FPGA 算法工程師
    發表于 09-23 18:26

    正是拼的年紀|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

    電子工程師
    安泰小課堂
    發布于 :2024年07月25日 11:31:02

    用二創,1:1復刻工程師的職場現狀

    工程師
    揚興科技
    發布于 :2024年07月19日 18:30:07
    主站蜘蛛池模板: 欧美一级高清免费a | 日本一区二区视频在线观看 | 色噜噜亚洲 | 日韩精品视频免费观看 | 久久亚洲综合中文字幕 | 天天色天天射天天干 | 久热网| 国产日韩精品一区二区三区 | 四虎永久在线日韩精品观看 | 亚洲一区二区三区免费 | 日本大片免aaa费观看视频 | 99精品国产第一福利网站 | 在线观看你懂的视频 | 天堂中文在线免费观看 | 久久男人的天堂色偷偷 | 亚洲欧洲日韩综合 | 久久狠狠第一麻豆婷婷天天 | 天堂网2018| 天天碰夜夜 | 小说老卫陈红张敏陈法蓉 | 免费的国语一级淫片 | 黄网站色视频免费观看 | 国产美女在线免费观看 | 国产理论在线观看 | 91国内在线国内在线播放 | 性夜影院爽黄a爽在线看香蕉 | 男人的天堂久久精品激情 | 国产精品天天干 | 1024在线观看你懂的 | 理论片毛片 | 天天爱天天射 | 在线观看日本免费不卡 | 黄色在线观看视频网站 | 欧美成人三级网站 | 你懂的在线免费 | 18年大片免费在线 | 久久99精品久久久久久园产越南 | 天堂资源在线8 | 国产2021成人精品 | 国内精品久久久久久影院老狼 | bt天堂在线最新版在线 |