文章轉(zhuǎn)載自:CSDN
編輯:宋慧
在生成式AI的浪潮中,數(shù)據(jù)的重要性日益凸顯。大模型在實(shí)際業(yè)務(wù)場(chǎng)景的落地過(guò)程中,必須有海量數(shù)據(jù)的支撐:經(jīng)過(guò)訓(xùn)練、推理和分析等一系列復(fù)雜的數(shù)據(jù)處理過(guò)程,才能最終產(chǎn)生業(yè)務(wù)價(jià)值。事實(shí)上,大模型本身就是數(shù)據(jù)處理后的產(chǎn)物,以數(shù)據(jù)驅(qū)動(dòng)的決策與創(chuàng)新需要通過(guò)更智能的平臺(tái)解決數(shù)據(jù)多模處理、實(shí)時(shí)分析等問題,這正是以阿里云為代表的企業(yè)推動(dòng) “Data+AI”融合戰(zhàn)略的核心動(dòng)因。
那么,“Data+AI”對(duì)于數(shù)據(jù)處理究竟意味著什么?從字面意義來(lái)理解,Data+AI是指將數(shù)據(jù)和人工智能結(jié)合起來(lái),支持?jǐn)?shù)據(jù)從收集、準(zhǔn)備到模型開發(fā)、部署、迭代、監(jiān)控的全流程。與傳統(tǒng)數(shù)據(jù)管理模式相比,Data+AI更側(cè)重AI原生化、一體化、多模化等理念。
阿里云數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部AnalyticDB PostgreSQL及生態(tài)工具部負(fù)責(zé)人 周文超
從數(shù)據(jù)工程與業(yè)務(wù)實(shí)踐的角度來(lái)看,由離線數(shù)據(jù)處理到實(shí)時(shí)數(shù)據(jù)處理,再到今天的Data+AI時(shí)代,數(shù)據(jù)處理的底層邏輯到底發(fā)生了怎樣的變化?為何多模處理能力變得越來(lái)越重要?我們邀請(qǐng)了在學(xué)術(shù)界和產(chǎn)業(yè)界均有豐富經(jīng)驗(yàn)的周文超博士,他現(xiàn)在是阿里云數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部AnalyticDB PostgreSQL及生態(tài)工具部負(fù)責(zé)人。周文超博士從數(shù)據(jù)管理平臺(tái)變化角度出發(fā),結(jié)合阿里云DMS+X底層技術(shù)構(gòu)建路徑,深入分析Data+AI智能平臺(tái)構(gòu)建的現(xiàn)狀與未來(lái)。他認(rèn)為,今天的數(shù)據(jù)處理正在向多模融合方向發(fā)展,一站式的多模處理能力將是未來(lái)數(shù)據(jù)管理的標(biāo)配。
1、智能升級(jí)加速,數(shù)據(jù)管理平臺(tái)機(jī)遇與挑戰(zhàn)并存
生成式AI重塑一切,很多工作的生產(chǎn)效率得到了極大提升,當(dāng)AI內(nèi)容生產(chǎn)和代碼生成表現(xiàn)出接近甚至趕超人類的能力時(shí),原有的數(shù)據(jù)管理模式也面臨著巨大變革。與過(guò)去相比,今天的數(shù)據(jù)處理在數(shù)據(jù)量、數(shù)據(jù)類型、處理深度,以及與AI計(jì)算的融合等方面,都發(fā)生了顯著的變化。這些變化不僅提高了數(shù)據(jù)處理的效率和準(zhǔn)確性,還為AI的創(chuàng)新發(fā)展提供了有力的支持。
生成式AI雖然帶來(lái)了前所未有的機(jī)遇,讓企業(yè)在流程化、個(gè)性化服務(wù)創(chuàng)新過(guò)程中找到新的路徑,但也存在著諸多挑戰(zhàn)。面對(duì)Data+AI融合趨勢(shì)的數(shù)據(jù)處理難點(diǎn),周文超博士概括了三點(diǎn):第一,數(shù)據(jù)的多模態(tài)化;第二,算力的多元融合;第三,數(shù)據(jù)處理的實(shí)時(shí)性。
數(shù)據(jù)的多模態(tài):數(shù)據(jù)類型不再局限于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),而是包括了圖片、文檔、圖、時(shí)序、交易等多種模態(tài)的數(shù)據(jù),比如:IoT設(shè)備數(shù)據(jù)、車機(jī)圖像數(shù)據(jù)等,這些多模數(shù)據(jù)是數(shù)據(jù)處理和分析的一大挑戰(zhàn)。
算力的多元融合:算力也朝著多模態(tài)和異構(gòu)方向發(fā)展。過(guò)去,無(wú)論是在操作系統(tǒng)、數(shù)據(jù)庫(kù)、離線數(shù)據(jù)處理還是實(shí)時(shí)數(shù)據(jù)處理中,主要關(guān)注的是以CPU為核心的算力。然而,隨著大模型的出現(xiàn),GPU、FPGA、ASIC等硬件逐漸加入到算力矩陣中。特別是GPU,原本用于圖形加速和比特幣等領(lǐng)域,現(xiàn)在因其能處理更多向量數(shù)據(jù),并且可用于矩陣乘法,在算力領(lǐng)域扮演著越來(lái)越重要的角色。另外,如何在多樣化的算力硬件上合理分配計(jì)算任務(wù),以及如何更好地調(diào)度和結(jié)合不同的異構(gòu)算力,成為Data+AI領(lǐng)域需要攻克的另一個(gè)重要挑戰(zhàn)。
數(shù)據(jù)處理的實(shí)時(shí)性:實(shí)時(shí)性也是數(shù)據(jù)處理領(lǐng)域的一個(gè)難點(diǎn)。從最初的離線數(shù)據(jù)處理,到現(xiàn)今的實(shí)時(shí)數(shù)據(jù)處理,我們見證了數(shù)據(jù)處理走向?qū)崟r(shí)化的過(guò)程。過(guò)去,數(shù)據(jù)主要以批次形式處理,一天或一周進(jìn)行一次分析或訓(xùn)練。后來(lái)隨著實(shí)時(shí)分析場(chǎng)景的增加,需要分鐘級(jí)甚至秒級(jí)的數(shù)據(jù)處理能力,例如:在數(shù)據(jù)監(jiān)控平臺(tái)上,用戶希望每秒或每分鐘都在更新數(shù)據(jù),以便實(shí)時(shí)了解當(dāng)前情況。同理,Data+AI也是相同的邏輯。如果幾個(gè)月才能進(jìn)行一次訓(xùn)練,那么最近的數(shù)據(jù)將如何處理?因此,數(shù)據(jù)管理平臺(tái)對(duì)實(shí)時(shí)數(shù)據(jù)的處理,也成為企業(yè)必須要面對(duì)的一個(gè)重要課題。
只有解決了上述問題,Data+AI的落地場(chǎng)景才會(huì)變得更加豐富,數(shù)據(jù)驅(qū)動(dòng)企業(yè)智能化升級(jí)才會(huì)成為可能。
2、阿里云DMS+X一站式數(shù)據(jù)管理平臺(tái)設(shè)計(jì)原理
準(zhǔn)確來(lái)講,Data+AI所有數(shù)據(jù)處理的背后主要源于三個(gè)核心要素,即數(shù)據(jù)、模型與算法、算力,正是這“三駕馬車”成為數(shù)據(jù)管理智能平臺(tái)能否提升業(yè)務(wù)效率的關(guān)鍵。
換言之,真正滿足用戶需求的Data+AI智能平臺(tái)具有明顯的Data Gravity(數(shù)據(jù)重力)傾向。如何理解Data Gravity概念?用一句話概括,就是讓更多的模型、算法和算力向數(shù)據(jù)靠近,而不是來(lái)回遷移數(shù)據(jù)。因?yàn)椋釘?shù)據(jù)這件事,成本高昂,不能再像二十年前一樣,把不同數(shù)據(jù)進(jìn)行聚攏,再進(jìn)行數(shù)據(jù)下發(fā)。現(xiàn)在,基本都是近存計(jì)算、存內(nèi)計(jì)算,計(jì)算向存儲(chǔ)靠近,向數(shù)據(jù)偏移。
此種背景下,阿里云瑤池?cái)?shù)據(jù)庫(kù)推出的Data+AI一站式多模數(shù)據(jù)管理平臺(tái)做出幾個(gè)重要改變:一、是一體化,打破數(shù)據(jù)生態(tài)和部署域的壁壘;二、讓數(shù)據(jù)價(jià)值獲取的路徑變短。
所謂“一體化”,是指為用戶打造一個(gè)統(tǒng)一的數(shù)據(jù)管理與開發(fā)平臺(tái),以優(yōu)化數(shù)據(jù)資產(chǎn)的可見性和利用效率。首先,通過(guò)一個(gè)集中化的界面,讓用戶能夠清晰地查看所有分散在不同來(lái)源(如OLTP數(shù)據(jù)庫(kù)、OLAP數(shù)據(jù)庫(kù)、云存儲(chǔ)及自有IDC等)的數(shù)據(jù)資產(chǎn),從而更有效地管理數(shù)據(jù)并控制存儲(chǔ)成本,同時(shí)獲得全局性的數(shù)據(jù)概覽,這一理念體現(xiàn)在阿里云在DMS+X平臺(tái)中提出的OneMeta+OneOps概念上。其中,OneMeta實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的統(tǒng)一元數(shù)據(jù)管理,包括數(shù)據(jù)的來(lái)源、表結(jié)構(gòu)等關(guān)鍵信息;而OneOps強(qiáng)調(diào)了開發(fā)平臺(tái)的統(tǒng)一性,支持從離線到在線、從OLAP到Spark再到AI等多種數(shù)據(jù)處理場(chǎng)景。通過(guò)OneOps概念,DMS+X整合了數(shù)據(jù)操作、開發(fā)運(yùn)維以及針對(duì)大型語(yǔ)言模型等操作,形成一個(gè)統(tǒng)一的操作平臺(tái),讓用戶能夠在這個(gè)平臺(tái)上完成所有與數(shù)據(jù)相關(guān)的操作,從數(shù)據(jù)清洗、編排到調(diào)用AI模型,從而縮短數(shù)據(jù)價(jià)值獲取的路徑,使數(shù)據(jù)價(jià)值的挖掘變得更加簡(jiǎn)單和高效。
值得一提的是,不同數(shù)據(jù)生態(tài)的打通也是DMS+X一大亮點(diǎn)。眾所周知,OLTP數(shù)據(jù)庫(kù)和OLAP數(shù)據(jù)庫(kù)本身數(shù)據(jù)存儲(chǔ)和處理形式不同,中間免不了要進(jìn)行復(fù)雜的ETL轉(zhuǎn)換。秉承Zero-ETL理念,DMS+X在數(shù)據(jù)轉(zhuǎn)換通路上做了很多工作,讓用戶無(wú)需通過(guò)物理復(fù)制就能在無(wú)感知狀態(tài)中將ETL效率提升5-10倍。
與此同時(shí),讓數(shù)據(jù)價(jià)值它的獲取路徑變得短,或者說(shuō)讓用戶獲取價(jià)值更簡(jiǎn)單,也是DMS+X智能平臺(tái)提供的一個(gè)重要價(jià)值。為了將數(shù)據(jù)適配到AI處理的需求,DMS+X還進(jìn)行了數(shù)據(jù)的AI ready化處理,如向量化等,使數(shù)據(jù)更易于被大型語(yǔ)言模型等AI技術(shù)理解和處理。此外,DMS+X還提供了Notebook、任務(wù)編排、以及結(jié)合百煉等智能開發(fā)平臺(tái)的一系列功能,幫助用戶更容易地生成帶有業(yè)務(wù)屬性的數(shù)據(jù)處理流程,進(jìn)一步提升數(shù)據(jù)價(jià)值的挖掘效率。
從目前應(yīng)用現(xiàn)狀來(lái)看,阿里云DMS+X的用戶主要是互聯(lián)網(wǎng)、零售、游戲以及泛娛樂領(lǐng)域,這些領(lǐng)域的企業(yè)本身就有核心的數(shù)據(jù)資產(chǎn),希望通過(guò)數(shù)據(jù)處理能力的提升拓展AI邊界,構(gòu)建AI原生能力,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的價(jià)值最大化。大體來(lái)看,企業(yè)智能化升級(jí)還處于剛剛起步的階段,未來(lái)隨著Data+AI融合速度的加快,其他傳統(tǒng)領(lǐng)域也一定會(huì)全面跟進(jìn)。
當(dāng)然,部署Data+AI融合戰(zhàn)略的企業(yè)不只阿里云一家。與同類競(jìng)品相比,阿里云“Data+AI”驅(qū)動(dòng)的DMS+X一站式多模數(shù)據(jù)管理平臺(tái)之所以成為各行各業(yè)實(shí)現(xiàn)數(shù)據(jù)價(jià)值新底座,是“厚積薄發(fā)”的結(jié)果。比如:生成式AI強(qiáng)調(diào)的三層架構(gòu)(底層基礎(chǔ)設(shè)施層、中間模型層以及上層應(yīng)用),阿里云很早就已提出IaaS+PaaS+MaaS全棧產(chǎn)品矩陣。過(guò)去幾年,不管是IaaS(計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)安全)、PaaS(中間件,數(shù)據(jù)庫(kù),計(jì)算平臺(tái)),還是MaaS(通義系大模型),都已做到業(yè)內(nèi)領(lǐng)先。
具體到數(shù)據(jù)庫(kù),經(jīng)過(guò)十余年的應(yīng)用實(shí)踐以及技術(shù)迭代,阿里云瑤池?fù)碛袠I(yè)界最全面的數(shù)據(jù)庫(kù)產(chǎn)品布局,涵蓋云原生關(guān)系型數(shù)據(jù)庫(kù)PolarDB、云原生數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB、云原生多模數(shù)據(jù)庫(kù)Lindorm等多款明星產(chǎn)品,可滿足用戶不同業(yè)務(wù)需要。技術(shù)方面,瑤池旗下的自研數(shù)據(jù)庫(kù)擁有三層解耦、多主多寫、HTAP、Serverless等全球首創(chuàng)或業(yè)內(nèi)領(lǐng)先的創(chuàng)新能力。其中,PolarDB已完成全球首個(gè)大規(guī)模商用、基于共享存儲(chǔ)的云原生多主數(shù)據(jù)庫(kù)實(shí)踐,并憑此成功摘得了中國(guó)首個(gè)ACM SIGMOD和IEEE ICDE的工業(yè)賽道“最佳論文獎(jiǎng)”。
3、未來(lái):AI就緒,迎接Gen AI時(shí)代
盡管在底層技術(shù)平臺(tái)支撐上,人類已經(jīng)做好了AI就緒的準(zhǔn)備,但距離真正的Gen AI時(shí)代到來(lái),還有一段距離。周文超博士總結(jié)認(rèn)為,大模型應(yīng)用層將在未來(lái)占據(jù)主導(dǎo)地位,尤其是模型的推理應(yīng)用,其價(jià)值將遠(yuǎn)超訓(xùn)練過(guò)程。在此背景下,阿里云瑤池?cái)?shù)據(jù)庫(kù)DMS+X發(fā)展規(guī)劃也會(huì)變得更加清晰,將聚焦于支持更宏大的推理場(chǎng)景,通過(guò)提升用戶體驗(yàn)和性價(jià)比來(lái)推動(dòng)技術(shù)進(jìn)步。
具體而言,DMS+X將致力于讓用戶在使用過(guò)程中更加便捷、高效,并通過(guò)資源混部、垂直領(lǐng)域數(shù)據(jù)的存儲(chǔ)與計(jì)算優(yōu)化等手段,進(jìn)一步提升資源使用效率。同時(shí),還會(huì)更積極地探索如何更高效地使用CPU、GPU、FPGA等算力資源,以期在未來(lái)技術(shù)落地中發(fā)揮重要作用。這些努力不僅體現(xiàn)了阿里云瑤池?cái)?shù)據(jù)庫(kù)對(duì)未來(lái)技術(shù)趨勢(shì)的深刻洞察,也彰顯了企業(yè)在推動(dòng)AI技術(shù)發(fā)展方面的堅(jiān)定決心和不懈努力。
而從技術(shù)人生的視角來(lái)看,以周文超博士為代表的研發(fā)團(tuán)隊(duì),正以長(zhǎng)期主義心態(tài),將戰(zhàn)略愿景轉(zhuǎn)化為實(shí)際行動(dòng),致力于為用戶帶來(lái)更高效、更便捷的智能數(shù)據(jù)平臺(tái)體驗(yàn),推動(dòng)著AI技術(shù)的持續(xù)進(jìn)步和應(yīng)用的快速拓展。
受訪人簡(jiǎn)介:
周文超,阿里云數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部AnalyticDB PostgreSQL及生態(tài)工具部負(fù)責(zé)人,負(fù)責(zé)云原生數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)工具與管控的研發(fā)以及數(shù)據(jù)庫(kù)系統(tǒng)與智能方向科研。專注于建設(shè)一體化Data+AI數(shù)據(jù)管理平臺(tái),支持日益豐富的數(shù)據(jù)計(jì)算需求和更趨異構(gòu)化的底層架構(gòu),利用資源云化提升智能計(jì)算效能。
清華大學(xué)計(jì)算機(jī)系本科,賓夕法尼亞大學(xué)計(jì)算機(jī)與信息科學(xué)博士,國(guó)家級(jí)領(lǐng)軍人才,浙江省頂尖人才。畢業(yè)后于美國(guó)喬治城大學(xué)計(jì)算機(jī)系任教,后升任終身教授。至今在一流國(guó)際學(xué)術(shù)會(huì)議與期刊上發(fā)表論文70余篇。主要研究方向是計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),涵蓋數(shù)據(jù)庫(kù)、分布式系統(tǒng)、計(jì)算機(jī)網(wǎng)絡(luò)和系統(tǒng)安全等方向。曾獲多項(xiàng)重要獎(jiǎng)項(xiàng),包括美國(guó)基金委NSF CAREER Award(杰出教授獎(jiǎng)),ACM SIGMOD最佳博士論文獎(jiǎng),以及多個(gè)學(xué)術(shù)會(huì)議的最佳論文、最佳系統(tǒng)演示獎(jiǎng)等。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
88文章
35040瀏覽量
279014 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3922瀏覽量
66146 -
人工智能
+關(guān)注
關(guān)注
1806文章
48987瀏覽量
249027 -
阿里云
+關(guān)注
關(guān)注
3文章
1009瀏覽量
44115 -
大模型
+關(guān)注
關(guān)注
2文章
3131瀏覽量
4045
發(fā)布評(píng)論請(qǐng)先 登錄
數(shù)據(jù)庫(kù)數(shù)據(jù)恢復(fù)—SQL Server數(shù)據(jù)庫(kù)被加密如何恢復(fù)數(shù)據(jù)?

HarmonyOS5云服務(wù)技術(shù)分享--云數(shù)據(jù)庫(kù)使用指南
如何保障云服務(wù)器數(shù)據(jù)庫(kù)的安全與穩(wěn)定
避坑指南:云服務(wù)器數(shù)據(jù)庫(kù)購(gòu)買方法全攻略
分布式云化數(shù)據(jù)庫(kù)有哪些類型
云數(shù)據(jù)庫(kù)是哪種數(shù)據(jù)庫(kù)類型?
數(shù)據(jù)庫(kù)數(shù)據(jù)恢復(fù)—Mysql數(shù)據(jù)庫(kù)表記錄丟失的數(shù)據(jù)恢復(fù)流程

云托管可以操作云數(shù)據(jù)庫(kù)嗎?安全性如何
云數(shù)據(jù)庫(kù)和云主機(jī)哪個(gè)好一點(diǎn)?
數(shù)據(jù)庫(kù)數(shù)據(jù)恢復(fù)—通過(guò)拼接數(shù)據(jù)庫(kù)碎片恢復(fù)SQLserver數(shù)據(jù)庫(kù)

云數(shù)據(jù)庫(kù)可以租用嗎?完整租用流程來(lái)了
科技云報(bào)到:大模型時(shí)代下,向量數(shù)據(jù)庫(kù)的野望
數(shù)據(jù)庫(kù)數(shù)據(jù)恢復(fù)—SQL Server數(shù)據(jù)庫(kù)出現(xiàn)823錯(cuò)誤的數(shù)據(jù)恢復(fù)案例

評(píng)論