在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據管理者需要考慮使用數據湖或數據倉庫作為存儲庫

工業互聯網前線 ? 來源:數據驅動智能 ? 作者:曉曉 ? 2022-10-18 09:41 ? 次閱讀

今天,每秒都在生成 TB 和 PB 的數據,為這些海量數據集尋找存儲解決方案至關重要。復雜的機器和技術現在收集了令人難以置信的廣泛數據——每天超過 2.5 萬億字節!— 來自設備傳感器、日志、用戶、消費者和其他地方。數據存儲并不像以前看起來那么簡單。在管理和存儲數據時,數據管理者需要考慮使用數據湖或數據倉庫作為存儲庫。

隨著數據量、速度和種類的增加,選擇合適的數據平臺來管理數據從未像現在這樣重要。它應該是迄今為止滿足我們需求的古老數據倉庫,還是應該是承諾支持任何類型工作負載的任何類型數據的數據湖? 在這里,我們深入探討了這兩個平臺。

數據湖

數據湖是一個中央存儲庫,可以大量存儲所有數據(結構化和非結構化數據)。數據通常以原始格式存儲,無需首先進行處理或結構化。在這種情況下,它可以針對手頭的目的進行優化和處理,無論是交互式分析、下游機器學習或分析應用程序的儀表板。

可以這樣想,數據湖就像一個大水體,比如說一個處于自然狀態的湖。數據湖是使用來自各種來源的數據流創建的,然后,多個用戶可以來到湖中對其進行檢查并取樣。

數據湖的美妙之處在于每個人都在查看和操作相同的數據。消除多個數據源并在數據湖中擁有一個可引用的“黃金”數據集來保障組織內的一致性,因為用于訪問組織中智能的任何其他下游存儲庫或技術都將同步。這很關鍵。

使用這種集中的數據源,就不會從不同的孤島中提取數據;組織中的每個人都有一個單一的事實來源。

該模式為公司的分析生命周期提供了近乎無限的能力:

攝取:數據以任何原始格式到達并存儲以供將來分析或災難恢復。公司通常會根據隱私、生產訪問以及將利用傳入信息的團隊來劃分多個數據湖。

存儲:數據湖允許企業管理和組織幾乎無限量的信息。云對象存儲以較低的成本為大數據計算提供高可用性訪問。

流程:借助云計算,基礎設施現在只需一個 API 調用即可。這是從數據湖中的原始狀態獲取數據并格式化以與其他信息一起使用的時候。這些數據也經常使用高級算法進行聚合、合并或分析。然后將數據推回數據湖以供商業智能或其他應用程序存儲和進一步使用。

消費:當我們談論自助服務數據湖時,消費通常是生命周期中的階段。此時,數據可供業務和客戶根據需要進行分析。根據復雜用例的類型,最終用戶還可以間接或直接以預測(預測天氣、財務、運動表現等)或感知分析(推薦引擎、欺詐檢測、基因組測序、 ETC)。

數據湖支持原生流,數據流在其中被處理并在到達時可用于分析。數據管道在從數據流接收數據時轉換數據,并觸發分析所需的計算。數據湖的原生流式傳輸特性使其非常適合流式分析。

數據倉庫

數據倉庫發明于1980 年底,專為業務應用程序生成的高度結構化數據而設計。它將組織的所有數據集中在一起并以結構化方式存儲。它通常用于連接和分析來自異構來源的數據。

數據倉庫架構依賴于數據結構來支持高性能的 SQL(結構化查詢語言)操作。數據倉庫是專門為基于 SQL 的訪問而構建和優化的,以支持商業智能,但為流分析和機器學習提供有限的功能。它們受到 ETL 要求的限制,需要在存儲數據之前對其進行預處理。

數據倉庫在數據用于分析之前需要順序 ETL攝取和轉換數據,因此它們對于流式分析效率低下。一些數據倉庫支持“微批處理”以經常以小增量收集數據。它支持順序 ETL 操作,其中數據以瀑布模型從原始數據格式流向完全轉換的集合,并針對快速性能進行了優化。

數據倉庫以專有格式存儲數據。一旦數據存儲在數據倉庫中,對該數據的訪問僅限于 SQL 和數據倉庫提供的自定義驅動程序。一些較新的數據倉庫支持半結構化數據,例如 JSON、Parquet 和 XML 文件;與結構化數據集相比,它們對此類數據集的支持有限且性能下降。數據倉庫不能完全支持存儲非結構化數據。

數據湖和數據倉庫之間的區別

數據倉庫和商業智能工具支持歷史數據的報告和分析,而數據湖支持利用數據進行機器學習、預測和實時分析的新用例。

12479846-4e21-11ed-a3b6-dac502259ad0.png

雖然一些數據倉庫擴展了基于 SQL 的訪問以提供機器學習功能,但它們不提供原生支持來運行廣泛可用的程序化數據處理框架,例如 Apache Spark、Tensorflow 等。

相比之下,數據湖是機器學習用例的理想選擇。它們不僅提供基于 SQL 的數據訪問,還通過 Python、Scala、Java 等語言為 Apache Spark 和 Tensorflow 等編程分布式數據處理框架提供原生支持。

數據倉庫需要在數據用于分析之前順序 ETL攝取和轉換數據,因此它們對于流式分析效率低下。一些數據倉庫支持“微批處理”以經常以小增量收集數據。這種流到批處理的轉換增加了數據到達與用于分析之間的時間,使得數據倉庫不適用于多種形式的流分析。

126bcc02-4e21-11ed-a3b6-dac502259ad0.png

數據湖支持本地流式傳輸,其中數據流在到達時被處理并可供分析。數據管道在從數據流接收數據時轉換數據,并觸發分析所需的計算。數據湖的原生流式傳輸特性使其非常適合流式分析。 數據倉庫支持順序 ETL 操作,其中數據以瀑布模型從原始數據格式流向完全轉換的集合,并針對快速性能進行了優化。

相比之下,對于需要持續數據工程的用例,數據湖異常強大。在數據湖中,ETL 的瀑布方法被迭代和連續的數據工程所取代。可以通過 SQL 和編程接口迭代地訪問和轉換數據湖中的原始數據,以滿足用例不斷變化的需求。這種對持續數據工程的支持對于交互式分析和機器學習至關重要。

揭穿關于數據湖和數據倉庫的三大神話

讓我們解決一些關于兩種流行的數據存儲類型的常見誤解:

誤區一:只需要數據湖或數據倉庫中的一個

如今,經常聽到人們談論數據湖和數據倉庫,好像企業必須選擇其中一個。但現實情況是,數據湖和數據倉庫服務于不同的目的。雖然兩者都提供數據存儲,但它們使用不同的結構,支持不同的格式,并針對不同的用途進行了優化。通常,公司可能會從使用數據倉庫和數據湖中受益。

數據倉庫最適合希望為商業智能分析操作系統數據的企業。數據倉庫在這方面工作得很好,因為存儲的數據是結構化、清理和準備分析的。同時,數據湖允許企業以任何格式存儲數據以用于幾乎任何用途,包括機器學習 (ML) 模型和大數據分析。

誤區 2:數據湖是流行趨勢,數據倉庫不是

人工智能 (AI) 和 ML 代表了一些增長最快的云工作負載,組織越來越多地轉向數據湖來幫助確保這些項目的成功。由于數據湖允許存儲幾乎任何類型的數據(結構化和非結構化)而無需事先準備或清理,因此組織能夠保留盡可能多的潛在價值以供將來使用,未指定使用。此設置非常適合更復雜的工作負載,例如尚未確定具體數據類型和用途的機器學習模型。

數據倉庫可能是這兩種選擇中更為人所知的一種,但數據湖和類似類型的存儲基礎設施可能會隨著數據工作負載的趨勢而繼續流行。數據倉庫適用于某些類型的工作負載和用例,而數據湖代表了服務于其他類型工作負載的另一種選擇。

誤區三:數據倉庫易于使用,而數據湖很復雜

數據湖需要數據工程師和數據科學家的特定技能來分類和利用其中存儲的數據。數據的非結構化性質使得那些不了解數據湖如何工作的人更不容易訪問它。

但是,一旦數據科學家和數據工程師構建了數據模型或管道,業務用戶通常可以利用與流行業務工具的集成(自定義或預構建)來探索數據。同樣,大多數業務用戶通過連接的商業智能 (BI) 工具訪問存儲在數據倉庫中的數據。在第三方 BI 工具的幫助下,業務用戶應該能夠訪問和分析數據,無論該數據存儲在數據倉庫還是數據湖中。

構建現代數據平臺的原則

盡量減少數據平臺中人員、網絡和磁盤操作的影響。雖然人類永遠無法像計算機一樣快,但網絡和磁盤操作是客觀問題。為了減少這些問題的影響,避免在各處復制數據,加強平臺讀取和處理來自不同位置的數據的能力,包括事務性、發布/子系統和數據倉庫系統,而無需當天移動。

構建現代數據平臺的原則是:

把事情簡單化,不要過度架構或過度設計;

為正確的工作使用正確的工具;

讓用例決定你應該使用什么;

使用云進行擴展;

將數據與上下文分開,這將使數據能夠用于多個用例。

數據湖和數據倉庫:用例

Data Lake 已經成為一個強大的平臺,企業可以使用它來管理、挖掘大量非結構化數據并將其貨幣化,以獲得競爭優勢。因此,公司對數據湖平臺的采用率急劇增加。

在這種利用大數據的熱潮中,一直存在一種誤解,即 Data Lake 旨在取代數據倉庫,而實際上,Data Lake 旨在補充傳統的關系數據庫管理系統 (RDBMS)。

數據倉庫適用于某些類型的工作負載和用例,而數據湖代表了服務于其他類型工作負載的另一種選擇。

用例應該驅動數據平臺架構

如果您的用例需要速度、具有已知的數據模型、完全結構化或非常接近它,那么 SQL 數據倉庫就足夠了。但是,如果您需要及時靈活地對數據進行建模并將其用于多種工作負載,您應該使用數據湖。

組織將依靠多種技術的最佳解決方案,包括數據倉庫和數據湖。最終,組織的選擇需要平衡管理多種技術的復雜性和 TCO 與以高性能和經濟高效的方式運行更多種類的工作負載的能力。

未來該如何選擇

我們現在處于這樣一個階段,我們不僅可以使用數據來回顧過去,還可以了解現在,甚至可以預測未來。數據和工具將不斷發展,以幫助我們幾乎實時地到達那里。

將數據與上下文分開。進來的數據不一定有你想用它的上下文。所以,在弄清楚你想用它做什么之前,把將數據獲取到一個位置的想法分開。因為實際上,您將對該數據進行多種用途。因此,您永遠不知道您可以將這些數據用于什么用途。因此,如果您首先獲取數據,然后弄清楚您想用它做什么,通常會導致使用這些數據產生更積極的結果。

數據倉庫供應商正在逐漸從他們現有的模型轉向數據倉庫和數據湖模型的融合。同樣,數據湖的供應商現在正在擴展到數據倉庫領域,雙方正在趨同。例如,BigQuery 現在允許組織在 Amazon S3 上查詢數據。同樣,Databricks 和 Qubole 等數據湖平臺現在正在果斷地轉向數據倉庫用例。您可以使用 ACID 屬性、事務一致性、快照等來管理存儲,并將查詢引擎更多地與存儲管理集成,為客戶創建湖倉模式。數據湖和數據倉庫之間的融合不僅僅是在談論,而是正在現實中應用。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • API
    API
    +關注

    關注

    2

    文章

    1556

    瀏覽量

    63371
  • SQL
    SQL
    +關注

    關注

    1

    文章

    780

    瀏覽量

    44739
  • ETC
    ETC
    +關注

    關注

    0

    文章

    192

    瀏覽量

    28645
  • 機器學習
    +關注

    關注

    66

    文章

    8482

    瀏覽量

    133923

原文標題:一文讀懂選擇數據湖還是數據倉庫

文章出處:【微信號:IndustryIOT,微信公眾號:工業互聯網前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    SOLIDWORKS 2025教育版有效的數據管理與團隊協作

    在當今數字化時代,工程設計領域對數據管理和團隊協作的要求日益提高。SOLIDWORKS 2025教育版作為一款CAD軟件,以其強大的數據管理和團隊協作功能,成為教育機構和學生進行工程設計學習的理想
    的頭像 發表于 04-07 17:28 ?178次閱讀
    SOLIDWORKS 2025教育版有效的<b class='flag-5'>數據管理</b>與團隊協作

    戴爾數據倉助力企業數字化轉型

    在數字化轉型的浪潮下,企業正面臨著前所未有的數據挑戰。從傳統的結構化數據到如今的非結構化數據、半結構化數據,每一種類型都對企業的存儲和分析能
    的頭像 發表于 12-20 09:31 ?384次閱讀

    Litestar 4D:WebCatalog 7全自動數據管理

    Wg7是OxyTech Webcatalog的革新版本 其設計是為了滿足對照明產品的有效和全自動的數據管理 Wg7 對于照明設計師和生產商是全自動的前所未有 使用Wg7您可以: -搜索產品 -查看
    發表于 12-19 12:33

    SOLIDWORKS 2025協作與數據管理功能簡介

    在快速迭代的制造業環境中,設計團隊面臨的挑戰日益復雜,從設計創新到生產實施,每一個環節都需要有效協作與準確數據管理。SOLIDWORKS 2025作為CAD軟件領域的佼佼,憑借其增強
    的頭像 發表于 12-02 15:24 ?422次閱讀

    技術資訊 I 設計數據管理要點

    本文要點什么是設計數據管理?為什么說管理設計數據非常重要?有效的設計數據管理要注意哪些事項?PCBA開發和/生產的各個方面都取決于設計
    的頭像 發表于 11-09 01:05 ?375次閱讀
    技術資訊 I 設計<b class='flag-5'>數據管理</b>要點

    戴爾升級非結構化存儲數據管理,AI創新引領新變革

    在快速演進的人工智能(AI)與數據驅動的時代,企業唯有不斷追逐技術創新的浪潮,方能搶占先機,引領行業前行。戴爾科技,作為AI就緒型數據平臺的領航,近期對其Dell PowerScal
    的頭像 發表于 10-29 16:52 ?854次閱讀

    實驗室數據管理與LIMS平臺的關系

    實驗室數據管理(Laboratory Data Management)是指對實驗室產生的數據進行收集、存儲、處理、分析和報告的過程。這包括了樣品的接收、測試結果的記錄、質量控制數據的跟
    的頭像 發表于 10-28 18:10 ?784次閱讀

    SOLIDWORKS 2025:更有效的協作和數據管理

    在當今快速變化的商業環境中,有效的協作和數據管理已成為企業成功的關鍵。作為CAD領域的領軍者,SOLIDWORKS始終致力于為用戶提供優越的三維設計與工程解決方案。隨著SOLIDWORKS?2025的發布,這款旗艦軟件在協作和數據管理
    的頭像 發表于 10-08 16:52 ?530次閱讀

    自動處理結果在國際監測系統(IMS)臺站及監測站能譜數據管理中的重要性及其應用

    監測技術的不斷發展,能譜數據的自動處理成為提升數據處理效率與準確性的關鍵。自動處理結果作為數據存儲
    的頭像 發表于 09-10 18:17 ?423次閱讀

    數據無界,管理有道:圖為技術T-Plant OS的數據管理之道

    在工廠全生命周期的管理中,數據作為貫穿始終的核心資產,高效且精準的數據管理,不僅能優化工廠運營流程、提升生產效率,還能激發企業內在創新潛能、強化市場競爭優勢。雖然隨著計算機性能和大容量
    的頭像 發表于 07-16 14:54 ?405次閱讀
    <b class='flag-5'>數據</b>無界,<b class='flag-5'>管理</b>有道:圖為技術T-Plant OS的<b class='flag-5'>數據管理</b>之道

    數字化時代的數據管理:多樣化數據庫選型指南

    挑戰。數據庫作為數據管理的核心技術,其選型對于系統至關重要。傳統的關系型數據庫(RDBMS)以其嚴格的ACID事務、優秀的一致性和安全性在企業應用中占據了長久的統治地位。然而,隨著互聯
    的頭像 發表于 07-08 19:10 ?489次閱讀
    數字化時代的<b class='flag-5'>數據管理</b>:多樣化<b class='flag-5'>數據庫</b>選型指南

    數據倉庫數據庫的主要區別

    數據倉庫數據庫是兩個在信息技術領域中常見的概念,它們在數據管理和分析方面發揮著重要作用。盡管它們在某些方面有相似之處,但它們在設計、目的和功能上存在顯著差異。本文將介紹數據倉庫
    的頭像 發表于 07-05 14:57 ?820次閱讀

    鴻蒙開發接口數據管理:【@ohos.data.rdb (關系型數據庫)】

    關系型數據庫(Relational Database,RDB)是一種基于關系模型來管理數據數據庫。關系型數據庫基于SQLite組件提供了一
    的頭像 發表于 06-10 18:35 ?1723次閱讀

    鴻蒙開發接口數據管理:【@ohos.data.distributedData (分布式數據管理)】

    分布式數據管理為應用程序提供不同設備間數據庫的分布式協同能力。通過調用分布式數據各個接口,應用程序可將數據保存到分布式數據庫中,并可對分布式
    的頭像 發表于 06-07 09:30 ?1369次閱讀
    鴻蒙開發接口<b class='flag-5'>數據管理</b>:【@ohos.data.distributedData (分布式<b class='flag-5'>數據管理</b>)】

    什么是數據數據數據倉庫有什么區別?

    從本質上說,數據就是一個信息資源。人們常常將數據數據倉庫混為一談,但兩
    的頭像 發表于 05-20 12:38 ?856次閱讀
    什么是<b class='flag-5'>數據</b><b class='flag-5'>湖</b>?<b class='flag-5'>數據</b><b class='flag-5'>湖</b>和<b class='flag-5'>數據倉庫</b>有什么區別?
    主站蜘蛛池模板: 欧美另类xx | 成人午夜网址 | 欧美日韩国产一区 | 国产在线精品观看 | 欧美区在线播放 | 亚洲最新在线观看 | 国产欧美另类第一页 | 狠狠干亚洲色图 | 激情丁香六月 | 亚洲人成77777在线观看网 | 国产成人综合一区人人 | 天天拍拍天天爽免费视频 | 色视频在线观看在线播放 | 欧美女同在线观看 | 久久精品99无色码中文字幕 | 日本不卡视频一区二区三区 | 亚洲禁片 | 亚洲成人www | 日本黄色短视频 | 色香影视 | 精品国产影院 | 午夜爱爱免费视频 | 公妇乱淫日本免费观看 | 精品国产三级在线观看 | 日本三级黄色录像 | 欧美性猛交xxx嘿人猛交 | 久久天天躁夜夜躁狠狠躁2020 | 黄色毛片基地 | 伊人色婷婷综在合线亚洲 | 久久激情五月 | 成年网站在线看 | 日韩精品免费一级视频 | 国产亚洲精品自在久久77 | 亚洲成色999久久网站 | 国产一区二区三区波多野吉衣 | 夜夜春夜夜爽 | 性欧美黑人 | 色噜噜成人综合网站 | 二区三区在线 | 午夜影院黄 | 欧美高清一级 |