在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據湖是什么,它的快速搭建方法介紹

獨愛72H ? 來源:ITPUB ? 作者:ITPUB ? 2020-04-03 20:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:ITPUB)

數據湖概念最早是在2011年提出,到現在也就9年左右的時間,算是一個較新的概念。雖然各方理解上有些差異,也存在一些爭議,但概念不重要,關鍵是否能真正幫助企業解決在業務快速發展過程中不斷遭遇的新問題。對于希望從數據資產中獲取更多經濟價值的企業而言,數據湖可能是一個可行的選擇。但對不少國內企業來說,數據湖顯然還是一個未知的領域。

數據顯示,全球數據湖市場在2019年的規模為37.4億美元,預計到2025年將達到176億美元,預計2020 - 2025年期間的復合年增長率為29.9%。在國外,尤其是北美,數據湖應用已經比較成熟,但在國內,還屬于初期階段。因此,第一次搭建數據湖,從哪里開始?如何成功搭建數據湖?對一些企業而言可能很難獲知,無論從時間還是投入上來說,試錯的成本都很高,那么,企業應該怎么做才能最大程度的降低風險并確保獲得回報?而這將是本文要探討的。

什么是數據湖,簡單的說,數據湖更像是數據倉庫的進化,比傳統數據倉庫涉及面更廣。但這并不是說數據湖能直接代替數據倉庫,兩者可以互補,大量案例顯示,數據倉庫作為數據湖的一類“數據應用”存在,協同工作。

眾所周知,傳統數據倉庫都是由數據庫發展而來,因此,無論是傳統的還是新型數據倉庫(分布式、云原生數倉),主要應用于結構化數據。而數據湖是多結構數據的存儲庫,無論是結構化、非結構化或半結構化數據,都能以其原始格式存儲,不需要進行初始轉換過程,因此,更加靈活,并且存儲與計算是分離的,數據存儲在便宜的對象存儲中,如Hadoop或Amazon S3,能更好的優化成本,而各種工具和服務(如Apache Presto、Elasticsearch和Amazon Athena)可以用來查詢這些數據。

數據湖的產生,源于大數據時代企業面臨的一系列挑戰,例如:數據孤島,分析各種數據集的難度,數據管理,數據安全等。而云計算人工智能則是推動數據湖發展的重要因素,云計算提供了快速查詢、海量存儲的能力,而機器學習需要原始數據做分析,而用到的數據,也不止于結構化數據,用戶的評論、圖像這些非結構化數據,也都可以應用到機器學習中。目前,數據湖最為人所知的應用,當屬亞馬遜Galaxy(內部代號),如今已經成為了亞馬遜核心競爭力之一。

Galaxy數據湖建于2019年,構建的原因是亞馬遜運營團隊需要做大量的數據分析,但基于傳統的數據倉庫無法滿足擴展的需要,并且維護的復雜度和成本都很高。基于自身強大的技術能力,亞馬遜Galaxy實施了基于Amazon S3的數據湖方案,使用Amazon Redshift,Redshift Spectrum,和Amazon EMR運行分析的操作。下圖展示了Galaxy使用的一些AWS服務:Galaxy的部署,讓數據存儲量從50PB提升至100PB,在減少成本的同時加快了從數據中挖掘有用信息的速度。

數據湖是什么,它的快速搭建方法介紹

目前,每天在Galaxy上執行的分析任務高達60萬個,涉及各個方面,如為用戶推薦、運營信息、庫存信息、購買信息、物價信息等。再來看一個國內的應用,出海電商新秀Club Factory。Club Factory 是2016年由嘉云數據在杭州成立, 定位于創新型出口電商、輕自營跨境電商平臺。或許國內很多人都沒聽說過這家公司,但這家公司很厲害,手握的全球用戶已經超過1億,其APP在超過10個國家APP購物榜單排名前5,14個國家排名前10。

在數據湖的構建上,Club Factory采用了基于AWS數據湖的解決方案,通過使用數據湖來實現基于用戶在平臺上的所有行為做實時自動推薦,BI報表(內部運營、分析),供應鏈管理創新。據公開資料顯示,其數據湖平臺日均處理15億條行為數據分析,支撐80多位數據工程師的分析和算法需求,支撐180個活躍的數據分析調度任務,每日同步4000多個業務數據到數據倉庫,支撐的數據總量達到約600TB。

如何快速搭建數據湖?搭建數據湖無非2種選擇,一種是基于開源解決方案,一種是基于商業解決方案。開源解決方案的優勢是沒有授權成本,但有個前提,即你所在的企業得有一個能夠駕馭開源技術的團隊,有能力自己解決問題。因為,開源解決方案通常都比較零散,不成系統。對于初次搭建數據湖的企業而言,復雜性很高,成功搭建難度大。基于商業的解決方案則相反,對于較小或剛開始使用數據湖的公司來說,基于公有云的數據湖解決方案實現數據湖的快速構建是可行的選擇。

不僅搭建和管理維護的復雜性降低,并且成本可監控。其次,基于云的數據湖解決方案技術成熟度更高。能得到更為成熟的技術環境支持,包括工具的多樣性。最后,可擴展性和安全也是重要原因之一。目前,數據湖已經在公有云上得到了完美的實現和應用,例如:可以基于Amazon S3、AWS Glue等多個基本云服務快速構建出一套數據湖服務 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云數據運營的AWS中國(寧夏)區域正式上線。

AWS Glue是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它的價值在于,能讓準備數據更容易加載數據到數據庫、數據倉庫和數據湖,用于數據分析。Amazon Athena則是一種交互式查詢服務,使用標準的SQL,可以直接對Amazon S3上的數據做交互查詢。而這兩種服務都是無服務器服務,意味著不需要管理基礎設施,只需要為運行的查詢付費。

官方已經給出了如何使用 AWS Glue 和 Amazon S3 構建數據湖基礎和如何使用Amazon Athena 分析數據的具體教程,本文就不再贅述。當然,如果你覺得這種方式還有些復雜,那么接下來的一項服務,可以重點關注。去年,AWS發布了一項名為AWS Lake Formation的新服務,進一步降低了數據湖搭建的門檻,該服務簡化了數據湖的創建過程,并在幾天(而不是幾個月)內構建一個安全的數據湖。

不過,該服務目前還未在中國正式推出。當然,你也可以視自身情況自行選擇其他供應商,本文推薦基于AWS數據湖解決方案來實現快速搭建數據湖,是因為,到目前為止,AWS數據湖/數據分析解決方案是最完整,提供服務最豐富的,也是成功案例最多的。
(責任編輯:fqj)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7254

    瀏覽量

    91788
  • 云計算
    +關注

    關注

    39

    文章

    7976

    瀏覽量

    139949
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    搭建算力中心,從了解的GPU 特性開始

    ABSTRACT摘要本文介紹如何搭建算力,并介紹A100、H100、H200和B200這些GPU的特性。JAEALOT2025年4月23日隨著人工智能、大數據和高性能計算(HPC)的
    的頭像 發表于 04-24 11:08 ?801次閱讀
    <b class='flag-5'>搭建</b>算力中心,從了解的GPU 特性開始

    搭建云電腦,怎樣搭建云電腦方便

    統,實現資源的最大化利用,提高工作和學習的效率。這次給大家介紹怎樣搭建云電腦方便? ? ?怎樣搭建云電腦方便? ? ?Windows系統(以Windows10為例),開啟遠程桌面功能:右鍵點擊“此電腦”,選擇“屬性”,在彈出的窗
    的頭像 發表于 02-06 10:08 ?423次閱讀
    <b class='flag-5'>搭建</b>云電腦,怎樣<b class='flag-5'>搭建</b>云電腦方便

    低代碼平臺:快速搭建與優化MES系統,提升生產效率

    一、低代碼平臺概述 低代碼平臺是一種可視化的軟件高效開發平臺,通過抽象和最小化手工編碼的方式,為開發和部署定制化應用提速。低代碼平臺的主要特點是讓使用者通過可視化的方式,以更少的編碼、更快速地構建
    的頭像 發表于 01-23 09:37 ?350次閱讀
    低代碼平臺:<b class='flag-5'>快速</b><b class='flag-5'>搭建</b>與優化MES系統,提升生產效率

    電腦搭建虛擬云,電腦搭建虛擬云電腦的具體方法

    ? ? 從早期的簡單遠程登錄到如今的高清視頻遠程協作,遠程連接技術經歷了漫長的發展歷程。這次給大家介紹電腦搭建虛擬云電腦的具體方法? ? ?電腦搭建虛擬云電腦的具體
    的頭像 發表于 01-22 10:27 ?615次閱讀
    電腦<b class='flag-5'>搭建</b>虛擬云,電腦<b class='flag-5'>搭建</b>虛擬云電腦的具體<b class='flag-5'>方法</b>

    蘋果電腦搭建私有云,蘋果電腦搭建私有云的詳細操作步驟

    ? ? 隨著云計算技術的飛速發展,云電腦逐漸走進了人們的視野。像一朵神奇的云,承載著我們的數據和應用,讓我們隨時隨地都能享受到高效的計算服務。今天就為大家介紹蘋果電腦搭建私有云的詳細
    的頭像 發表于 01-17 10:17 ?1156次閱讀
    蘋果電腦<b class='flag-5'>搭建</b>私有云,蘋果電腦<b class='flag-5'>搭建</b>私有云的詳細操作步驟

    搭建家庭云平臺電腦,搭建家庭云平臺電腦的操作方法

    在數字化浪潮的洶涌沖擊下,傳統電腦逐漸顯露出局限性,而云電腦猶如一顆璀璨的新星,在信息技術的天空中冉冉升起,以其獨特的魅力吸引著眾多目光。今天就為大家介紹搭建家庭云平臺電腦的操作方法。 ? ?
    的頭像 發表于 01-13 14:26 ?775次閱讀
    <b class='flag-5'>搭建</b>家庭云平臺電腦,<b class='flag-5'>搭建</b>家庭云平臺電腦的操作<b class='flag-5'>方法</b>

    舊電腦搭建私有云群暉,怎么用群暉搭建舊電腦私有云

    存儲服務器,支持數據存儲,文件共享,虛擬機備份,異地容災備份等功能。低成本,可擴展的數據存儲產品,提供專業的存儲解決方案,滿足不同存儲場景。接下來將介紹的使用
    的頭像 發表于 01-13 14:06 ?1151次閱讀
    舊電腦<b class='flag-5'>搭建</b>私有云群暉,怎么用群暉<b class='flag-5'>搭建</b>舊電腦私有云

    用普通電腦搭建私有云,用普通電腦搭建私有云教程

    隨著云存儲的普及,越來越多的用戶開始考慮搭建自己的私有云系統。那普通電腦也能搭建私有云嗎?當然可以,并且方法很簡單。首先,私有云是什么?與公有云存儲不同,私有云存儲是指將文件存儲和管理完全控制在自己
    的頭像 發表于 01-13 13:55 ?684次閱讀
    用普通電腦<b class='flag-5'>搭建</b>私有云,用普通電腦<b class='flag-5'>搭建</b>私有云教程

    基于華為云 Flexus 云服務器 X 實例快速搭建 Halo 博客平臺

    如何基于華為云 Flexus 云服務器 X 實例快速搭建 Halo 博客平臺,幫助大家掌握從選購服務器到部署應用的完整流程。 一、Flexus 云服務器 X 介紹 1.1 Flexus 云服務器 X 實例簡介 Flexus云服務
    的頭像 發表于 01-08 11:46 ?492次閱讀
    基于華為云 Flexus 云服務器 X 實例<b class='flag-5'>快速</b><b class='flag-5'>搭建</b> Halo 博客平臺

    云電腦需要怎么去搭建,云電腦需要怎么快速搭建

    搭建云電腦可以讓您隨時隨地通過網絡訪問強大的計算資源,無論是用于遠程辦公、娛樂還是開發,都能提供靈活的解決方案。以下是快速搭建云電腦的詳細步驟: ? ?1.硬件準備 ? ?選擇合適的硬件:需要一臺
    的頭像 發表于 01-06 15:46 ?585次閱讀
    云電腦需要怎么去<b class='flag-5'>搭建</b>,云電腦需要怎么<b class='flag-5'>快速</b>去<b class='flag-5'>搭建</b>

    電腦怎么搭建云存儲,電腦怎么搭建云存儲的教程,個人云電腦是什么以及怎么連接

    ? ? 遠程連接助力企業市場調研精準洞察需求。調研人員通過線上問卷、視頻訪談等方式遠程連接目標客戶群體,覆蓋范圍廣、樣本量大,快速收集反饋數據;利用大數據分析平臺遠程接入多源數據,挖掘
    的頭像 發表于 12-30 14:06 ?551次閱讀
    電腦怎么<b class='flag-5'>搭建</b>云存儲,電腦怎么<b class='flag-5'>搭建</b>云存儲的教程,個人云電腦是什么以及怎么連接

    搭建開源大語言模型服務的方法

    本文我們將總結5種搭建開源大語言模型服務的方法,每種都附帶詳細的操作步驟,以及各自的優缺點。
    的頭像 發表于 10-29 09:17 ?685次閱讀

    TI RF Transceiver EVM自動化環境搭建方法

    電子發燒友網站提供《TI RF Transceiver EVM自動化環境搭建方法.pdf》資料免費下載
    發表于 09-04 09:35 ?0次下載
    TI RF Transceiver EVM自動化環境<b class='flag-5'>搭建</b><b class='flag-5'>方法</b>

    滴水中國RISC-V產業論壇:去年推介10款芯片9款量產

    電子發燒友網報道(文/吳子鵬)8月19日,第四屆滴水中國RISC-V產業論壇(簡稱“滴水論壇”)正式開幕,論壇以“匯聚創新力量,共筑RISC-V生態”為主題,旨在搭建一個高效、務實的交流平臺
    的頭像 發表于 08-19 10:15 ?1547次閱讀

    pytorch環境搭建詳細步驟

    PyTorch作為一個廣泛使用的深度學習框架,其環境搭建對于從事機器學習和深度學習研究及開發的人員來說至關重要。以下將介紹PyTorch環境搭建的詳細步驟,包括安裝Anaconda、配置清華鏡像源
    的頭像 發表于 08-01 15:38 ?1842次閱讀
    主站蜘蛛池模板: 四虎永久网址在线观看 | 免费色片网站 | 99国产国人青青视频在线观看 | 狠狠色噜噜狠狠狠狠2021天天 | 欧美三级网 | 男人透女人超爽视频免费 | 久久久久久久久久久9精品视频 | 一级特黄aaa大片免费看 | 国产成在线观看免费视频 | 深夜释放自己vlog糖心旧版本 | 国产区精品高清在线观看 | 欧美破处视频在线 | 日韩综合nv一区二区在线观看 | bt在线搜索 | 国产亚洲情侣久久精品 | 一级免费看片 | 午夜宅男在线视频 | 人人人人草 | 五月.com | 免费的男女拍拍拍的视频 | 日本一卡二卡3卡四卡网站精品 | 在线免费看 | 永久视频在线观看 | 成人免费无毒在线观看网站 | 欧美三级不卡在线观线看高清 | 国产精品视频一区国模私拍 | 国产精品任我爽爆在线播放6080 | 色偷偷免费 | 羞羞答答91麻豆网站入口 | 日本一区二区三区在线观看视频 | 日日噜夜夜噜 | 激情综合色五月丁香六月亚洲 | 狠狠艹视频 | 亚洲国产福利精品一区二区 | 六月丁香婷婷天天在线 | 国产在视频线精品视频2021 | 黄色在线视频免费看 | 九九九精品 | 69er小视频| 久久国产热 | 天天躁夜夜躁狠狠躁2024 |