在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

十年之后,回頭看什么是大數(shù)據(jù)

電子工程師 ? 來源:YXQ ? 2019-04-22 16:54 ? 次閱讀

BigData 概念在上世紀90年代被提出,隨Google的3篇經(jīng)典論文(GFS,BigTable,MapReduce)奠基,已經(jīng)發(fā)展了超過10年。這10年中,誕生了包括Google大數(shù)據(jù)體系,微軟Cosmos體系,開源Hadoop體系等優(yōu)秀的系統(tǒng),這其中也包括阿里云的飛天系統(tǒng)。這些系統(tǒng)一步一步推動業(yè)界進入“數(shù)字化“和之后的“AI化”的時代。

同時,與其他老牌系統(tǒng)相比(如,Linux操作系統(tǒng)體系,數(shù)據(jù)庫系統(tǒng),中間件,很多有超過30年的歷史),大數(shù)據(jù)系統(tǒng)又非常年輕,隨云計算普惠,正大規(guī)模被應用。海量的需求和迭代推動系統(tǒng)快速發(fā)展,有蓬勃的生機。(技術體系的發(fā)展,可以通過如下Hype-Cycle概述,作者認為,大數(shù)據(jù)系統(tǒng)的發(fā)展進入技術復興期/Slope of Enlightenment,并開始大規(guī)模應用Plateau of Productivity。)

上圖來自Gartner

如果說,0到1上線標志一個系統(tǒng)的誕生,在集團內(nèi)大規(guī)模部署標志一個系統(tǒng)的成長,在云上對外大規(guī)模服務標志一個系統(tǒng)的成熟。MaxCompute這10年已經(jīng)走向成熟,經(jīng)過多次升級換代,功能、性能、服務、穩(wěn)定性已經(jīng)有一個體系化的基礎,成為阿里巴巴集團數(shù)據(jù)中臺的計算核心和阿里云大數(shù)據(jù)的基礎服務。

“十年磨一劍”。MaxCompute去年做了哪些工作,這些工作背后的原因是什么?大數(shù)據(jù)市場進入普惠+紅海的新階段,如何與生態(tài)發(fā)展共贏?人工智能進入井噴階段,如何支持與借力?本文從過去一年的總結,核心技術概覽,以及每條技術線路未來展望等幾個方面做一個概述。

1.MaxCompute(ODPS)概述

1.1 背景信息:十年之后,回頭看什么是大數(shù)據(jù)

"Big data represents the information assets characterized by such a high volume, velocity and variety to require specific technology and analytical methods for its transformation into value".

用5個“V”來描述大數(shù)據(jù)的特點:

Volume-數(shù)據(jù)量:數(shù)據(jù)量非線性增長,包括采集、存儲和計算的量都非常大,且增速很快。

Variety-數(shù)據(jù)類型:包括結構化和非結構化的數(shù)據(jù),特別是最近隨音視圖興起,非結構化數(shù)據(jù)增速更快。

Velocity-數(shù)據(jù)存儲和計算的增長速度:數(shù)據(jù)增長速度快,處理速度快,時效性要求高。

Veracity-信噪比:數(shù)據(jù)量越大,噪聲越多,需要深入挖掘數(shù)據(jù)來得到結果。

Value-價值:數(shù)據(jù)作為一種資產(chǎn),有1+1>2的特點。

總結下來,大數(shù)據(jù)具備如下的五個趨勢:

數(shù)據(jù)爆炸導致數(shù)據(jù)和計算量增速很高,很多時候超過業(yè)務增速。帶來成本壓力!

數(shù)據(jù)量變大,但單位數(shù)據(jù)的價值在下降,深度挖掘勢在必行,但反過來要求計算力的進一步提升。

非結構化數(shù)據(jù)處理,成為趨勢。

時效性,是能完成任務之后,用戶的新期待。

超大規(guī)模的數(shù)據(jù)和計算,對人工管理是一個挑戰(zhàn)。

上述趨勢,也會得出了作為大數(shù)據(jù)平臺,我們要發(fā)力的方向:計算力,智能化,生態(tài)系統(tǒng)。

1.2 MaxCompute 定位

阿里云大數(shù)據(jù)計算服務(MaxCompute,原名ODPS)是阿里云提供的一種安全可靠、高效能、低成本、從GB到EB級別按需彈性伸縮的在線大數(shù)據(jù)計算服務。

MaxCompute向用戶提供了豐富的大數(shù)據(jù)開發(fā)工具、完善的數(shù)據(jù)導入導出方案以及多種經(jīng)典的分布式計算模型。能夠最快速的解決用戶海量數(shù)據(jù)計算問題,有效降低企業(yè)大數(shù)據(jù)計算平臺的總體擁有成本,提高大數(shù)據(jù)應用開發(fā)效率,并保障數(shù)據(jù)在云計算環(huán)境的安全。被廣泛的應用于互聯(lián)網(wǎng)海量數(shù)據(jù)分析類場景。

MaxCompute是大數(shù)據(jù)云數(shù)倉的數(shù)據(jù)匯集點,存儲和管理EB級數(shù)據(jù),支持彈性伸縮的高性能大數(shù)據(jù)計算服務:它不只是個單一的引擎,而是一個平臺。

“不是單一的引擎”體現(xiàn)在,MaxCompute原生支持SQL、MR、DAG編程語義和Graph、PAI機器學習計算,同時也通過聯(lián)合計算平臺支持任意第三方引擎,如Spark、Flink等。

“一個平臺”體現(xiàn)在,MaxCompute提供統(tǒng)一高效的數(shù)據(jù)存儲,可靠的元數(shù)據(jù)服務,跨地域多集群管理,和數(shù)據(jù)/計算調(diào)度能力。 MaxCompute以其可靠性、高性能、擴展性、安全性和富生態(tài)被廣泛的用于互聯(lián)網(wǎng)海量數(shù)據(jù)分析場景,如海量數(shù)據(jù)分析與處理、大數(shù)據(jù)倉庫、產(chǎn)品維度報表、機器學習訓練、等場景。

1.3 競品對比與分析

大數(shù)據(jù)發(fā)展到今天,數(shù)據(jù)倉庫市場潛力仍然巨大,更多客戶開始選擇云數(shù)據(jù)倉庫,CDW仍處于高速增長期。當前互聯(lián)網(wǎng)公司和傳統(tǒng)數(shù)倉廠家都有進入領導者地位,競爭激烈,阿里巴巴CDW在全球權威咨詢與服務機構Forrester發(fā)布的《The Forrester WaveTM: Cloud Data Warehouse, Q4 2018》報告中位列中國第一,全球第七。

在CDW的領導者中,AWS Redshift 高度商業(yè)化、商業(yè)客戶部署規(guī)模領先整個市場,GoogleBigQuery以高性能、高度彈性伸縮獲得領先,Oracle 云數(shù)倉服務以自動化數(shù)倉技術獲得領先。 MaxCompute當前的定位是市場競爭者,目標是成為客戶大數(shù)據(jù)的“航母”級計算引擎,解決客戶在物聯(lián)網(wǎng)、日志分析、人工智能等場景下日益增長的數(shù)據(jù)規(guī)模與計算性能下降、成本上升、復雜度上升、數(shù)據(jù)安全風險加大之間的矛盾。在此目標定位下,對MaxCompute在智能數(shù)倉、高可靠性、高自動化、數(shù)據(jù)安全等方面的能力提出了更高的要求。

2. 2018年MaxCompute技術發(fā)展概述

過去的一個財年,MaxCompute 在技術發(fā)展上堅持在核心引擎、開放平臺、技術新領域等方向的深耕,在業(yè)務上繼續(xù)匠心打造產(chǎn)品,擴大業(yè)界影響力。

效率提升

2018年9月云棲大會發(fā)布,MaxCompute 在標準測試集 TPC-BB 100TB整體指標較2017年提升一倍以上。

得益于整體效率的提升,在集團內(nèi)部 MaxCompute 以20%的硬件增長支撐了超過70%的業(yè)務增長。

系統(tǒng)開放性和與生態(tài)融合

聯(lián)合計算平臺 Cupid 逐步成熟,性能 與EMR Spark Benchmark 持平,支持K8S接口,支持完整的框架安全體系。Spark On MaxCompute已開始支持云上業(yè)務

Python分布式項目MARS正式發(fā)布,開源兩周內(nèi)收獲1200+ Star,填補了國內(nèi)在Python生態(tài)上支持大規(guī)模分布式科學計算的空白,是競品Dask性能的3倍。

探索新領域

MaxCompute 持續(xù)在前沿技術領域投入,保持技術先進性。在下一代引擎方向(如Adaptive Operators、,Operator Fusion、ClusteredTable等),智能數(shù)倉 Auto Datawarehouse 方向上的調(diào)研都取得了不錯的進展。在漸進計算 (Progressive Execution)、Advanced Fail Checking and Recovery 、基于 ML的分布式計算平臺優(yōu)化、超大數(shù)據(jù)量Query子圖匹配等多個方向上的調(diào)研也在進行中。

深度參與和推動全球大數(shù)據(jù)領域標準化建設

2018年11月,MaxCompute與DataWorks/AnalyticDB一起代表阿里云入選 Forrester Wave? Q4 2018云數(shù)據(jù)倉庫研究報告,在產(chǎn)品能力綜合得分上力壓微軟,排名全球第七,中國第一。

2019年3月,MaxCompute 正式代表Alibaba加入了TPC委員會推動融入和建立標準。

MaxCompute持續(xù)在開源社區(qū)投入。成為全球兩大熱門計算存儲標準化開源體系ORC社區(qū)的PMC,MaxCompute成為近兩年貢獻代碼量最多的貢獻者,引導存儲標準化;在全球最熱門優(yōu)化器項目Calcite,擁有一個專委席位,成為國內(nèi)前兩家具備該領域影響力的公司,推動數(shù)十個貢獻。

3.核心技術棧

大數(shù)據(jù)市場進入普惠+紅海的新階段,如何借力井噴階段中的人工智能,如何與生態(tài)發(fā)展共贏?

基于橫向架構上的核心引擎和系統(tǒng)平臺,MaxCompute在計算力、生態(tài)化、智能化3個縱向上著力發(fā)展差異化的競爭力。

3.1 計算力

首先我們從計算力這個角度出發(fā),介紹一下 MaxCompute 的技術架構。

a.核心引擎

支撐 MaxCompute 的計算力的核心模塊之一是其 SQL 引擎:在 MaxCompute 的作業(yè)中,有90%以上的作業(yè)是 SQL 作業(yè),SQL 引擎的能力是 MaxCompute 的核心競爭力之一。在MaxCompute 產(chǎn)品框架中,SQL 引擎將用戶的SQL語句轉(zhuǎn)換成對應的分布式執(zhí)行計劃來執(zhí)行。SQL 引擎由3個主要模塊構成:

編譯器 Compiler: 對 SQL 標準有友好支持,支持100% TPC-DS語法;并具備強大都錯誤恢復能力,支持 MaxCompute Studio 等先進應用。

運行時 Runtime: 基于LLVM優(yōu)化代碼生產(chǎn),支持列式處理與豐富的關系算符;基于 CPP 的運行時具有更高效率。

優(yōu)化器 Optimizer: 支持HBO和基于 Calcite 的 CBO, 通過多種優(yōu)化手段不斷提升 MaxCompute 性能。

(上圖中部分功能只在阿里集團內(nèi)部發(fā)布,云上版本會陸續(xù)發(fā)布上線)

MaxCompute SQL 引擎當前的發(fā)展,以提升用戶體驗為核心目標,在 SQL 語言能力、引擎優(yōu)化等多個方向上兼顧發(fā)力,建立技術優(yōu)勢,在SQL 語言能力方面,新一代大數(shù)據(jù)語言NewSQL做到了 Declarative 語言和 Imperative 語言的融合,進一步提升語言兼容性,目前已100% 支持 TPC-DS 語法。過去一年中,MaxCompute 新增對 GroupingSets,If-Else分支語句,動態(tài)類型函數(shù),等方面的支持。

b.存儲

MaxCompute 不僅僅是一個計算平臺,也承擔著大數(shù)據(jù)的存儲。阿里巴巴集團99%的大數(shù)據(jù)存儲都基于MaxCompute,提高數(shù)據(jù)存儲效率、穩(wěn)定性、可用性,也是MaxCompute一直努力的目標。

MaxCompute 存儲層處于 MaxCompute Tasks和底層盤古分布式文件系統(tǒng)之間,提供一個統(tǒng)一的邏輯數(shù)據(jù)模型給各種各樣的計算任務。MaxCompute的存儲格式演化,從最早的行存格式CFile1,到第一個列存儲格式CFile2,到第三代存儲格式。

支持更復雜的編碼方式,異步預讀等功能,進一步提升效能。在存儲和計算2個方面都帶來了效能的提升。存儲成本方面,在阿里巴巴集團內(nèi)通過新一代的列存格式節(jié)省約8%存儲空間,直接降低約1億成本;在計算效率上,過去的一個財年中發(fā)布的每個版本之間都實現(xiàn)了20%的提升。目前在集團內(nèi)大規(guī)模落地的過程中。

在歸檔以及壓縮方面,MaxCompute 支持ZSTD壓縮格式,以及壓縮策略,用戶可以在Normal,High和Extreme三種Stategy里面選擇。更高的壓縮級別,帶來更高效的存儲,但也意味著更高的讀寫CPU代價。

2018年,MaxCompute 陸續(xù)推出了 Hash Clustering 和 Range Clustering 支持富結構化數(shù)據(jù),并持續(xù)的進行了深度的優(yōu)化,例如增加了 Shuffle Remove,Clustering Pruning 等優(yōu)化。從線上試用數(shù)據(jù),以及大量的 ATA 用戶實踐案例也可以看出,Clustering 的收益也獲得了用戶的認可。

c.系統(tǒng)框架

資源與任務管理

MaxCompute 框架為ODPS上面各種類型的計算引擎提供穩(wěn)定便捷的作業(yè)接入管理接口,管理著ODPS各種類型Task的生命周期。過去一年對短作業(yè)查詢的持續(xù)優(yōu)化,縮短e2e時間,加強對異常作業(yè)(OOM)的自動檢測與隔離處理,全面打開服務級別流控,限制作業(yè)異常提交流量,為服務整體穩(wěn)定性保駕護航。

MaxCompute 存儲著海量的數(shù)據(jù),也產(chǎn)生了豐富的數(shù)據(jù)元數(shù)據(jù)。在離線元倉統(tǒng)計T+1的情況下,用戶至少需要一天后才能做事后的數(shù)據(jù)風險審計,現(xiàn)實場景下用戶希望更早風險控制,將數(shù)據(jù)訪問事件和項目空間授權事件通過CUPID平臺實時推送到用戶DataHub訂閱,用戶可以通過消費DataHub實時獲取項目空間表、volume數(shù)據(jù)被誰訪問等。

元數(shù)據(jù)管理

元數(shù)據(jù)服務支撐了MaxCompute各個計算引擎及框架的運行。每天運行在MaxCompute的作業(yè),都依賴元數(shù)據(jù)服務完成DDL,DML以及授權及鑒權的操作。元數(shù)據(jù)服務保障了作業(yè)的穩(wěn)定性和吞吐率,保障了數(shù)據(jù)的完整性和數(shù)據(jù)訪問的安全性。元數(shù)據(jù)服務包含了三個核心模塊:

Catalog完成DDL,DML及DCL(權限管理)的業(yè)務邏輯,Catalog保障MaxCompute作業(yè)的ACID特性。

MetaServer完成元數(shù)據(jù)的高可用存儲和查詢能力。

AuthServer是高性能和高QPS的鑒權服務,完成對MaxCompute的所有請求的鑒權,保障數(shù)據(jù)訪問安全。

元數(shù)據(jù)服務經(jīng)過了模塊化和服務化后,對核心事務管理引擎做了多次技術升級,通過數(shù)據(jù)目錄多版本,元數(shù)據(jù)存儲重構等改造升級,保障了數(shù)據(jù)操作的原子性和強一致,并提高了作業(yè)提交的隔離能力,并保障了線上作業(yè)的穩(wěn)定性。

在數(shù)據(jù)安全越來越重要的今天,元數(shù)據(jù)服務和阿里巴巴集團安全部合作,權限系統(tǒng)升級到了2.0。核心改進包括:

MAC(強制安全控制)及安全策略管理:讓項目空間管理員能更加靈活地控制用戶對列級別敏感數(shù)據(jù)的訪問,強制訪問控制機制(MAC)獨立于自主訪問控制機制(DAC)。

數(shù)據(jù)分類分級:新增數(shù)據(jù)的標簽能力,支持對數(shù)據(jù)做隱私類數(shù)據(jù)打標。

精細權限管理:將ACL的管控能力拓展到了Package內(nèi)的表和資源,實現(xiàn)字段級的權限的精細化管理。

系統(tǒng)安全

系統(tǒng)安全方面, MaxCompute通過綜合運用計算虛擬化和網(wǎng)絡虛擬化技術, 為云上多租戶各自的用戶自定義代碼邏輯提供了安全而且完善的計算和網(wǎng)絡隔離環(huán)境。SQL UDF(python udf 和 java udf), CUPID聯(lián)合計算平臺(Sparks/Mars等), PAI tensorflow等計算形態(tài)都基于這套統(tǒng)一的基礎隔離系統(tǒng)構建上層計算引擎。

MaxCompute 還通過提供原生的存儲加密能力, 抵御非授權訪問存儲設備的數(shù)據(jù)泄露風險. MaxCompute內(nèi)置的存儲加密能力, 可以基于KMS云服務支持用戶自定義秘鑰(BYOK)以及AES256加密算法,并計劃提供符合國密合規(guī)要求的SM系列加密算法支持。

結合MaxCompute元倉(MetaData)提供的安全審計能力和元數(shù)據(jù)管理(MetaService)提供的安全授權鑒權能力,以及數(shù)據(jù)安全生態(tài)中安全衛(wèi)士和數(shù)據(jù)保護傘等安全產(chǎn)品,就構成了 MaxCompute安全棧完整大圖。

3.2 生態(tài)化

作為一個大規(guī)模數(shù)據(jù)計算平臺,MaxCompute 擁有來自各類場景的EB級數(shù)據(jù),需要快速滿足各類業(yè)務發(fā)展的需要。在真實的用戶場景中,很少有用戶只用到一套系統(tǒng):用戶會有多份數(shù)據(jù),或者使用多種引擎。聯(lián)合計算融合不同的數(shù)據(jù),豐富 MaxCompute 的數(shù)據(jù)處理生態(tài),打破數(shù)據(jù)孤島,打通阿里云核心計算平臺與阿里云各個重要存儲服務之間的數(shù)據(jù)鏈路。聯(lián)合計算也融合不同的引擎,提供多種計算模式,支持開源生態(tài)。開源能帶來豐富和靈活的技術以賦能業(yè)務,通過兼容開源API對接開源生態(tài)。另一方面,在開源過程中我們需要解決最小化引入開源技術成本及打通數(shù)據(jù)、適配開源接口等問題。

a. Cupid 聯(lián)合計算平臺

聯(lián)合計算平臺 Cupid 使一個平臺能夠支持 Spark、Flink,Tensorflow、Numpy,ElasticSearch 等多種異構引擎, 在一份數(shù)據(jù)上做計算。在數(shù)據(jù)統(tǒng)一、資源統(tǒng)一的基礎上,提供標準化的接口,將不同的引擎融合在一起做聯(lián)合計算。

Cupid 的工作原理是通過將 MaxCompute 所依賴的 Fuxi 、Pangu 等飛天組間接口適配成開源領域常見的 Yarn、HDFS 接口,使得開源引擎可以順利執(zhí)行。現(xiàn)在,Cupid 新增支持了 Kubernetes 接口,使得聯(lián)合計算平臺更加開放。

案例:Spark On MaxCompute

Spark 是聯(lián)合計算平臺第一個支持的開源引擎。基于 Cupid 的 Spark on MaxCompute 實現(xiàn)了與 MaxCompute 數(shù)據(jù)/元數(shù)據(jù)的完美集成;遵循 MaxCompute 多租戶權限及安全體系;與Dataworks、PAI平臺集成;支持 Spark Streaming,Mllib, GraphX, Spark SQL, 交互式等完整 Spark生態(tài);支持動態(tài)資源伸縮等。

b. 多源異構數(shù)據(jù)的互聯(lián)互通

隨著大數(shù)據(jù)業(yè)務的不斷擴展,新的數(shù)據(jù)使用場景在不斷產(chǎn)生,用戶也期望把所有數(shù)據(jù)放到一起計算,從而能取得 1+1 > 2 這樣更好的結果。MaxCompute 提出了聯(lián)合計算,將計算下推,聯(lián)動其他系統(tǒng):將一個作業(yè)在多套系統(tǒng)聯(lián)動,利用起各個系統(tǒng)可行的優(yōu)化,做最優(yōu)的決策,實現(xiàn)數(shù)據(jù)之間的聯(lián)動和打通。

(上圖為MaxCompute集團內(nèi)和專有云能力,公共云已實現(xiàn)與OSS、OTS的數(shù)據(jù)互通)

MaxCompute 通過異構數(shù)據(jù)支持來提供與各種數(shù)據(jù)的聯(lián)通,這里的“各種數(shù)據(jù)”是兩個維度上的: 1. 多樣的數(shù)據(jù)存儲介質(zhì)(外部數(shù)據(jù)源),插件式的框架可以對接多種數(shù)據(jù)存儲介質(zhì)。當前支持的外部數(shù)據(jù)源有:OSS, TableStore(OTS), TDDL,Volume。 2. 多樣的數(shù)據(jù)存儲格式:開源的數(shù)據(jù)格式支持,如 ORC、Parquet 等;半結構化數(shù)據(jù),如包括 CSV、Json等隱含一定 schema 的文本文件;完全無結構數(shù)據(jù),如對OSS上的文本,音頻、圖像及其他開源格式的數(shù)據(jù)進行計算。

基于MaxCompute 異構數(shù)據(jù)支持,用戶通過一條簡單的 DDL 語句即可在 MaxCompute 上創(chuàng)建一張EXTERNAL TABLE(外表),建立 MaxCompute 表與外部數(shù)據(jù)源的關聯(lián),提供各種數(shù)據(jù)的接入和輸出能力。創(chuàng)建好的外表在大部分場景中可以像普通的 MaxCompute 表一樣使用,充分利用 MaxCompute 的強大計算力和數(shù)據(jù)集成、作業(yè)調(diào)度等功能。MaxCompute 外表支持不同數(shù)據(jù)源之間的Join,支持數(shù)據(jù)融合分析,從而幫助您獲得通過查詢獨立的數(shù)據(jù)孤島無法獲得的獨特見解。從而MaxCompute 可以把數(shù)據(jù)查詢從數(shù)據(jù)倉庫擴展到EB級的數(shù)據(jù)湖(如OSS),快速分析任何規(guī)模的數(shù)據(jù),沒有MaxCompute存儲成本,無需加載或 ETL。

異構數(shù)據(jù)支持是MaxCompute 2.0升級中的一項重大更新,意在豐富MaxCompute的數(shù)據(jù)處理生態(tài),打破數(shù)據(jù)孤島,打通阿里云核心計算平臺與阿里云各個重要存儲服務之間的數(shù)據(jù)鏈路。

c. Python 生態(tài)和 MARS科學計算引擎

MaxCompute 的開源生態(tài)體系中,對 Python 的支持主要包括 PyODPS、Python UDF、和 MARS。

PyODPS一方面是MaxCompute 的 Python SDK,同時也提供 DataFrame 框架,提供類似 pandas 的語法,能利用 MaxCompute 強大的處理能力來處理超大規(guī)模數(shù)據(jù)。

基于MaxCompute豐富的用戶自定義函數(shù)(UDF)支持,用戶可以在 ODPS SQL 中編寫 Python UDF 來擴展 ODPS SQL。 MARS 則是為了賦能 MaxCompute 科學計算,全新開發(fā)的基于矩陣的統(tǒng)一計算框架。使用 Mars 進行科學計算,不僅能大幅度減少分布式科學計算代碼編寫難度,在性能上也有大幅提升。

3.3 智能化

隨著大數(shù)據(jù)的發(fā)展,我們在幾年前就開始面對數(shù)據(jù)/作業(yè) 爆發(fā)式增長的趨勢。面對百萬計的作業(yè)和表,如何做管理呢?

MaxCompute通過對歷史作業(yè)特征的學習、基于對數(shù)據(jù)和作業(yè)的深刻理解,讓MaxCompute上的業(yè)務一定程度實現(xiàn)自適應調(diào)整,讓算法和系統(tǒng)幫助用戶自動、透明、高效地進行數(shù)倉管理和重構優(yōu)化工作,實現(xiàn)更好地理解數(shù)據(jù),實現(xiàn)數(shù)據(jù)智能排布和作業(yè)全球調(diào)度,做到大數(shù)據(jù)處理領域的“自動駕駛”,也就是我們所說的Auto Data Warehousing。

Auto Data Warehousing 在線上真實的業(yè)務中,到底能做什么呢?我們以Hash Clustering的自動推薦來小試牛刀。Hash Clustering 經(jīng)過一年多的發(fā)展,功能不斷完善,但對用戶來說,最難的問題仍然在于,給哪些表建立怎樣的Clustering策略是最佳的方案?

MaxCompute 基于 Auto Data Warehousing,來實現(xiàn)為用戶推薦如何使用 Hash Clustering,回答如何選擇Table、如何設置Clutering key和分桶數(shù)等問題,讓用戶在海量數(shù)據(jù)、海量作業(yè)、快速變化的業(yè)務場景下,充分利用平臺功能。

4. 商業(yè)化歷程

從2009年云梯到ODPS,再到MaxCompute,MaxCompute(ODPS) 這個大數(shù)據(jù)平臺已經(jīng)發(fā)展了十年。回顧 MaxCompute 的發(fā)展,首先從云梯到完成登月,成為了一個統(tǒng)一的大數(shù)據(jù)平臺。

2014年,MaxCompute 開始商業(yè)化的歷程,走出集團、向公共云和專有云輸出,直面中國、乃至全球的用戶。面對挑戰(zhàn),MaxCompute 堅持產(chǎn)品核心能力的增強,以及差異化能力的打造, 贏得了客戶的選擇。

回顧上云歷程,公共云的第一個節(jié)點華東2上海在2014(13年)年7月開服,經(jīng)過4年多發(fā)展,MaxCompute 已在全球部署18個Region,為云上過萬家用戶提供大數(shù)據(jù)計算服務,,客戶已覆蓋了新零售、傳媒、社交、互聯(lián)網(wǎng)金融、健康、教育等多個行業(yè)。專有云的起點則從2014年8月第一套POC環(huán)境部署開始,發(fā)展至今專有云總機器規(guī)模已超過10000臺;輸出項目150+套,客戶涵蓋城市大腦,大安全,稅務,等多個重點行業(yè)。

今天,MaxCompute 在全球有超過十萬的服務器,通過統(tǒng)一的作業(yè)調(diào)度系統(tǒng)和統(tǒng)一的元數(shù)據(jù)管理,這十萬多臺服務器就像一臺計算機,為全球用戶提供提供包括批計算、流計算、內(nèi)存計算、機器學習、迭代等一系列計算能力。這一整套計算平臺成為了阿里巴巴經(jīng)濟體,以及阿里云背后計算力的強有力支撐。MaxCompute 作為一個完整的大數(shù)據(jù)平臺,將不斷以技術驅(qū)動平臺和產(chǎn)品化發(fā)展,讓企業(yè)和社會能夠擁有充沛的計算能力,持續(xù)快速進化,驅(qū)動數(shù)字中國。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大數(shù)據(jù)

    關注

    64

    文章

    8953

    瀏覽量

    139685
  • 阿里
    +關注

    關注

    6

    文章

    453

    瀏覽量

    33244

原文標題:阿里靠什么支撐EB級計算力

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    高考報志愿別只看一個AI,多AI比較+大數(shù)據(jù)才更穩(wěn)

    十年深耕,科大訊飛智能交互如何引領未來
    的頭像 發(fā)表于 06-17 11:07 ?1044次閱讀
    高考報志愿別只看一個AI,多AI比較+<b class='flag-5'>大數(shù)據(jù)</b>才更穩(wěn)

    BOE(京東方)“照亮成長路”公益項目新十年啟幕 科技無界照亮美好未來

    的“世界高城”理塘,寓意該項目歷經(jīng)十年耕耘達到了全新的高度,也標志著BOE(京東方)下一個十年公益征程的嶄新起點將由此啟幕。活動現(xiàn)場,BOE(京東方)宣布,今年將繼續(xù)向四川理塘縣、陜西富平縣、青海玉樹州雜多縣等地區(qū)捐建30間智慧教室。同時,在理塘活動現(xiàn)場,BOE(京東方)
    的頭像 發(fā)表于 06-10 09:01 ?142次閱讀

    十年磨一劍,百頻通萬物:國產(chǎn)無線通信突圍之路

    2025十年破壁,百頻織網(wǎng)BRIEFINTRODUCTION成都澤耀科技有限公司·導語·當你家智能水表自動抄讀、工廠設備跨越百米鋼墻傳輸數(shù)據(jù)、牧場牛羊位置實時回傳時——背后可能藏著一枚硬幣大小的通信
    的頭像 發(fā)表于 06-09 15:21 ?270次閱讀
    <b class='flag-5'>十年</b>磨一劍,百頻通萬物:國產(chǎn)無線通信突圍之路

    十年磨一劍,我的新書上市了!

    大家好,我是皮哥Peter,十年磨一劍,我的新書《打通Linux操作系統(tǒng)和芯片開發(fā)》上市了!今天,新書開啟了5折優(yōu)惠,滿滿的干貨,高顏值,雙色印刷,手感厚實,新書原價139元,限時半價,只要69.5
    的頭像 發(fā)表于 04-01 07:33 ?299次閱讀
    <b class='flag-5'>十年</b>磨一劍,我的新書上市了!

    聚浪十年 共儲未來!2025元腦存儲分銷合作伙伴大會成功舉辦

    信息與存儲分銷伙伴攜手同行的十年歷程,共拓人工智能時代下存儲業(yè)務的戰(zhàn)略發(fā)展新路徑。 當前,隨著人工智能技術的飛速發(fā)展,數(shù)據(jù)已成為新時代的"石油",驅(qū)動著各行各業(yè)的數(shù)字化轉(zhuǎn)型。大模型應用的加速落地,智算新基建的深入推進,使得存儲作為數(shù)據(jù)
    的頭像 發(fā)表于 03-24 20:17 ?213次閱讀
    聚浪<b class='flag-5'>十年</b> 共儲未來!2025元腦存儲分銷合作伙伴大會成功舉辦

    十年積淀,共啟未來|維諦技術攜手中聯(lián)數(shù)據(jù)發(fā)布全新預制化氟泵自然冷產(chǎn)品

    20251月10日,中聯(lián)數(shù)據(jù)集團十周年慶典暨生態(tài)合作伙伴大會圓滿舉行。作為行業(yè)領先的云基礎設施服務提供商,中聯(lián)數(shù)據(jù)始終以創(chuàng)新為驅(qū)動、以綠色發(fā)展為導向,
    的頭像 發(fā)表于 01-20 11:30 ?563次閱讀
    <b class='flag-5'>十年</b>積淀,共啟未來|維諦技術攜手中聯(lián)<b class='flag-5'>數(shù)據(jù)</b>發(fā)布全新預制化氟泵自然冷產(chǎn)品

    華為預制模塊化數(shù)據(jù)中心連續(xù)十年蟬聯(lián)全球第一

    近日,第三方國際權威機構Omdia發(fā)布《2023全球預制模塊化數(shù)據(jù)中心報告》,對全球預制模塊化數(shù)據(jù)中心市場動態(tài)、市場份額、發(fā)展趨勢進行洞察和分析。報告顯示,2023華為預制模塊化數(shù)據(jù)
    的頭像 發(fā)表于 12-31 11:41 ?798次閱讀

    睿創(chuàng)微納五&amp;十年功勛員工頒獎大會圓滿舉行

    12月11日,睿創(chuàng)微納五&十年功勛員工頒獎大會在煙臺園區(qū)圓滿舉行,公司董事長帶領核心管理團隊為5、10功勛員工頒發(fā)紀念銀幣和金幣。?? 百余名員工獲頒紀念銀幣,以表彰他們五
    的頭像 發(fā)表于 12-12 10:35 ?740次閱讀

    何小鵬宣布未來十年愿景,加速全球化AI汽車布局

    在11月6日的小鵬AI科技日上,小鵬汽車董事長何小鵬分享了公司的宏偉藍圖,即在未來十年內(nèi),將小鵬汽車打造成為一家享譽全球的AI汽車公司。   何小鵬感慨地表示,過去往往是國外的先進技術涌入中國,而現(xiàn)在,他自豪地宣布,小鵬汽車正將科技的火種播撒到世界各地。
    的頭像 發(fā)表于 11-07 13:40 ?932次閱讀

    納微十年,氮化鎵GaNSlim上新,持續(xù)引領集成之勢

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)十年前納微半導體作為氮化鎵行業(yè)的先鋒,成功地將氮化鎵功率器件帶入消費電子市場,幫助客戶打造了許多氮化鎵充電器的爆款產(chǎn)品,也推動了“氮化鎵”的認知普及,當然也成就了納微
    的頭像 發(fā)表于 10-23 09:43 ?1706次閱讀
    納微<b class='flag-5'>十年</b>,氮化鎵GaNSlim上新,持續(xù)引領集成之勢

    沃達豐與谷歌深化十年戰(zhàn)略合作

    沃達豐近日宣布,其與全球科技巨頭谷歌的戰(zhàn)略合作伙伴關系得到了進一步深化。這一為期十年的協(xié)議,總價值超過10億美元,旨在將谷歌最新推出的生成式人工智能支持的設備引入歐洲和非洲市場,為沃達豐的廣大客戶提供更為先進和智能的服務體驗。
    的頭像 發(fā)表于 10-09 16:22 ?493次閱讀

    特斯拉與晶圓廠商或簽訂十年長單,深化供應鏈合作

    韓國領先的晶圓代工廠商東部高科正積極籌備與美國電動汽車巨頭特斯拉簽署一項意義重大的長期供貨協(xié)議,聚焦于電源管理芯片(PMIC)的代工合作。據(jù)悉,該合同若順利獲得最終批準,將鎖定至少十年的合作期限,目前雙方正處于合同簽署前的最后驗證階段。
    的頭像 發(fā)表于 09-25 16:08 ?1662次閱讀

    十年預言:Chiplet的使命

    未來十年內(nèi)芯片算力提升的核心動力。 議題一: 算力困局如何突圍? 韓銀和研究員: 現(xiàn)有的高性能計算架構正遭遇算力瓶頸。目前全球頂級的高性能計算系統(tǒng),由美國橡樹嶺國家實驗室基于HPE Cray EX235a架構研發(fā)的超級計算機Frontier,其算
    的頭像 發(fā)表于 08-27 11:09 ?740次閱讀
    <b class='flag-5'>十年</b>預言:Chiplet的使命

    BOE京東方與聯(lián)合國教科文組織UNESCO簽訂合作協(xié)議 成為首個支持聯(lián)合國“科學十年”的中國科技企業(yè)

    法國時間7月25日,BOE(京東方)與聯(lián)合國教科文組織(UNESCO)在法國巴黎總部基于《2024—2033科學促進可持續(xù)發(fā)展國際十年》決議(簡稱“科學十年”)簽訂為期三的合作伙伴
    的頭像 發(fā)表于 07-26 13:04 ?561次閱讀
    BOE京東方與聯(lián)合國教科文組織UNESCO簽訂合作協(xié)議 成為首個支持聯(lián)合國“科學<b class='flag-5'>十年</b>”的中國科技企業(yè)

    亞馬遜豪擲千億美元,未來十年加速數(shù)據(jù)中心建設

    近日,全球電商巨頭亞馬遜宣布了一項宏偉的投資計劃,擬在未來十年內(nèi)投資超過1000億美元用于數(shù)據(jù)中心建設。這一決策標志著亞馬遜對云計算和人工智能領域的深度布局與堅定承諾,其投資規(guī)模之大,遠超以往在零售倉庫建設上的投入。
    的頭像 發(fā)表于 07-02 10:40 ?777次閱讀
    主站蜘蛛池模板: 性孕妇洗澡video国产 | 1314亚洲人成网站在线观看 | 成人国产精品一级毛片了 | 夜夜爽天天干 | 永久视频在线观看 | 久久综合九色综合98一99久久99久 | 欧美刺激午夜性久久久久久久 | 久久久久国产精品免费免费 | 亚洲qingse中文在线 | 男女啪视频大全1000 | 亚洲免费黄色网 | 热99视频| 欧美日韩看片 | 亚洲欧美精品 | 永久免费看的啪啪网站 | 伊人狼人综合 | 色综合天天操 | 中文字幕色综合久久 | 九色97| 91插插视频 | 奇米影视四色首页手机在线 | 美女淫 | 狠狠狠狠操| 亚洲成a人不卡在线观看 | 伊人网亚洲 | 人人揉揉香蕉大免费不卡 | 免费在线观看大片影视大全 | 亚洲欧美高清在线 | 国产精品久久久久久久久久妇女 | 一级黄色大全 | 欧美一级做一a做片性视频 欧美一级做一级做片性十三 | 国产在线永久视频 | 亚洲高清一区二区三区四区 | 久久天天躁夜夜躁狠狠躁2020 | 亚洲国产精品久久久久婷婷老年 | 美国69bj| 欧美日韩一区二区三区视视频 | 天天色天天色天天色 | 久草热线视频 | 亚洲一区二区三区精品视频 | 欧美一级在线全免费 |