開源社區(qū)通過對(duì)NVIDIA GPU的原生支持加速Spark 3.0;
實(shí)現(xiàn)數(shù)百TB數(shù)據(jù)的飛速ETL和SQL處理;
Adobe在Databricks上使用Spark 3.0將模型訓(xùn)練速度提高7倍
加利福尼亞州圣克拉拉市 - GTC 2020大會(huì) - 2020年5月14日 – NVIDIA于今日宣布其正在與開源社區(qū)合作,為Apache Spark 3.0帶來端到端的GPU加速。Apache Spark 3.0是一個(gè)熱門的分析引擎,被全球范圍內(nèi)超過50萬名數(shù)據(jù)科學(xué)家用于大數(shù)據(jù)處理。
隨著Spark 3.0預(yù)計(jì)將于春季晚些時(shí)候發(fā)布,數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師將首次能夠把革命性的GPU加速應(yīng)用于普遍使用SQL數(shù)據(jù)庫操作進(jìn)行的ETL(提取、轉(zhuǎn)換和加載)數(shù)據(jù)處理工作負(fù)載中。
此外,他們還將首次能夠在同一Spark集群上處理AI模型訓(xùn)練任務(wù),而無需將工作負(fù)載作為單獨(dú)流程在單獨(dú)的基礎(chǔ)架構(gòu)上運(yùn)行。這樣就可以對(duì)整個(gè)數(shù)據(jù)科學(xué)的處理流程進(jìn)行高性能數(shù)據(jù)分析,對(duì)從數(shù)據(jù)湖到模型訓(xùn)練所涉及的數(shù)十、乃至數(shù)千TB的數(shù)據(jù)進(jìn)行加速,而且無需對(duì)已被應(yīng)用于本地和云端Spark應(yīng)用程序的現(xiàn)有代碼進(jìn)行修改。
NVIDIA企業(yè)計(jì)算主管Manuvir Das表示:“數(shù)據(jù)分析是當(dāng)今企業(yè)和研究者所面臨最大的高性能計(jì)算挑戰(zhàn)。從ETL到訓(xùn)練再到推理,整個(gè)Spark 3.0 方案的原生GPU加速為用戶提供了最終將大數(shù)據(jù)潛力與AI性能相連所需的性能和規(guī)模。”
作為NVIDIA的戰(zhàn)略AI合作伙伴,Adobe是最早在Databricks上運(yùn)行Spark 3.0預(yù)覽版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速數(shù)據(jù)分析技術(shù)進(jìn)行產(chǎn)品開發(fā),并為各項(xiàng)推進(jìn)數(shù)字化業(yè)務(wù)進(jìn)程的功能提供支持。在初步測(cè)試中其已將性能提高了7倍,并節(jié)省了90%的成本。
性能提升后的Spark 3.0讓科學(xué)家能夠訓(xùn)練包含有更大數(shù)據(jù)集的模型,并增加反復(fù)訓(xùn)練模型的頻率,從而提高模型的精度。現(xiàn)在,數(shù)據(jù)科學(xué)家每天可以處理數(shù)TB的新數(shù)據(jù),這對(duì)于需要為在線推薦系統(tǒng)提供支持或分析新研究數(shù)據(jù)的數(shù)據(jù)科學(xué)家們而言至關(guān)重要。此外,處理速度的加快,減少了交付結(jié)果所需的硬件資源,從而節(jié)省了大量成本。
Adob機(jī)器學(xué)習(xí)高級(jí)總監(jiān)William Yan表示:“相比于在CPU上運(yùn)行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴隨著GPU性能的飛躍性提升,也將為我們?nèi)譇dobe Experience Cloud應(yīng)用中AI功能的提升帶來新的可能性。”
Databricks和NVIDIA為Spark提速
Apache Spark最初是由Databricks的創(chuàng)始人創(chuàng)建。Databricks的云端統(tǒng)一數(shù)據(jù)分析平臺(tái)每天在一百多萬臺(tái)虛擬機(jī)上運(yùn)行。NVIDIA與Databricks已開展合作,使用專為Databricks開發(fā)的RAPIDSTM軟件套件優(yōu)化Spark,將GPU加速應(yīng)用于在Databricks上運(yùn)行的醫(yī)療、金融、零售等眾多行業(yè)的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工作負(fù)載中。
Apache Spark最初的創(chuàng)建者兼Databricks首席技術(shù)員Matei Zaharia表示:“我們與NVIDIA開展了長(zhǎng)期合作,用專為Apache Spark 3.0和Databricks開發(fā)的RAPIDS相關(guān)優(yōu)化來提高性能,使得像Adobe這樣的我們兩家公司共同的客戶能夠得以受益。我們所作出的這些努力加快了數(shù)據(jù)處理流程、模型訓(xùn)練和評(píng)分的速度,直接為我們的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家社區(qū)帶來更多的突破和洞見。”
NVIDIA GPU加速Spark中的ETL和數(shù)據(jù)傳輸
NVIDIA正在提供一種用于Apache Spark的全新開源RAPIDS加速器,幫助數(shù)據(jù)科學(xué)家提高其數(shù)據(jù)流程的端到端性能。該加速器能夠?qū)⒅靶枰贑PU上運(yùn)行的功能,轉(zhuǎn)到GPU上運(yùn)行,以發(fā)揮GPU的性能:
·在無需更改任何代碼的情況下顯著提高Spark SQL和DataFrame的運(yùn)行性能,從而加速Spark中的ETL數(shù)據(jù)流程。
·無需獨(dú)立的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)集群,即可在相同的基礎(chǔ)架構(gòu)上加速數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練。
·加速Spark分布式集群中各節(jié)點(diǎn)之間的數(shù)據(jù)傳輸性能。這些資源庫使用UCF Consortium 的開源UCX(Unified Communication X)框架,并通過使數(shù)據(jù)直接在GPU內(nèi)存之間移動(dòng)來最大程度地減少延遲。
Apache Software Foundation 上現(xiàn)已提供Spark 3.0的預(yù)覽版。該產(chǎn)品預(yù)計(jì)將在未來幾個(gè)月內(nèi)全面上市。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5247瀏覽量
105797 -
gpu
+關(guān)注
關(guān)注
28文章
4912瀏覽量
130683 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1470瀏覽量
34805 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8952瀏覽量
139530 -
SPARK
+關(guān)注
關(guān)注
1文章
106瀏覽量
20420
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA發(fā)布AI優(yōu)先DGX個(gè)人計(jì)算系統(tǒng)
NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)

NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

NVIDIA助力百度提升數(shù)據(jù)分析效能
eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別
raid 在大數(shù)據(jù)分析中的應(yīng)用
云計(jì)算在大數(shù)據(jù)分析中的應(yīng)用
IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

數(shù)據(jù)分析除了spss還有什么
數(shù)據(jù)分析的工具有哪些
數(shù)據(jù)分析有哪些分析方法
機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用
Spark基于DPU的Native引擎算子卸載方案

評(píng)論