導(dǎo)讀:沒有足夠的高性能GPU數(shù)量,或者性能欠佳,都將造成AI推理和模型訓(xùn)練的準(zhǔn)確度不足,即使有類似的對話機(jī)器人, 它的“智商”也會遠(yuǎn)低于ChatGPT
國內(nèi)云廠商高性能GPU芯片的短缺,正在成為限制生成式AI在中國誕生的最直接因素。
2022年12月,微軟投資的AI創(chuàng)業(yè)公司OpenAI推出了聊天機(jī)器人ChatGPT。這是生成式人工智能在文本領(lǐng)域的實際應(yīng)用。所謂生成式AI,是指依靠AI大模型和AI算力訓(xùn)練來生成內(nèi)容。ChatGPT的本質(zhì)是OpenAI自主研發(fā)的GPT-3.5語言大模型。大型模型包含近 1800 億個參數(shù)。
微軟的 Azure 云服務(wù)為 ChatGPT 構(gòu)建了超過 10,000 個 Nvidia A100 GPU 芯片的 AI 計算集群。
美國市場研究公司TrendForce在3月1日的一份報告中計算得出,要處理1800億參數(shù)的GPT-3.5大型模型,需要的GPU芯片數(shù)量高達(dá)2萬顆。未來GPT大模型商業(yè)化所需的GPU芯片數(shù)量甚至?xí)^3萬顆。此前在 2022 年 11 月,英偉達(dá)在其官網(wǎng)的公告中提到,數(shù)萬顆 A100/H100 高性能芯片部署在微軟 Azure 上。這是第一個使用 NVIDIA 高端 GPU 構(gòu)建的大規(guī)模 AI 計算集群。
鑒于英偉達(dá)在高性能GPU方面的技術(shù)領(lǐng)先地位,國內(nèi)云計算專業(yè)人士普遍認(rèn)為,10000顆英偉達(dá)A100芯片是一個好的AI模型的算力門檻。
目前國內(nèi)云廠商擁有的GPU主要是英偉達(dá)的中低端性能產(chǎn)品(如英偉達(dá)A10)。擁有超過 10,000 個 GPU 的公司不超過 5 家,而擁有 10,000 個 Nvidia A100 芯片的公司最多只有一家。也就是說,單從算力來看,短期內(nèi)能夠部署ChatGPT的國內(nèi)玩家非常有限。
聊天GPT看似只是一個聊天機(jī)器人,但這卻是微軟AI算力、AI大模型和生成AI在云計算的實力展示。在企業(yè)市場,這是云計算新一輪的增長點(diǎn)。Microsoft Azure ML(深度學(xué)習(xí)服務(wù))擁有 200 多家客戶,其中包括制藥公司拜耳和審計公司畢馬威。Azure ML 連續(xù)四個季度收入增長超過 100%。這是微軟云三大業(yè)務(wù)中增長最快的板塊,即云、軟件、AI。
今年2月,包括阿里巴巴和百度在內(nèi)的中國企業(yè)宣布將開發(fā)類似ChatGPT的產(chǎn)品,或?qū)⑼顿Y研發(fā)生成式人工智能。在國內(nèi),AI算力、AI大模型、生成式AI被認(rèn)為只有云廠商才有資格。華為、阿里、騰訊、字節(jié)跳動、百度都有云業(yè)務(wù),理論上都有跑通AI算力、AI大模型、生成AI應(yīng)用的能力。
但是有能力不代表可以跑到終點(diǎn)線。這需要長期的高成本投資。GPU芯片的價格是公開的,算力成本也很容易衡量。大型模型需要數(shù)據(jù)收集、手動標(biāo)記和模型訓(xùn)練。這些軟成本很難簡單計算。生成式人工智能的投資規(guī)模通常高達(dá)數(shù)百億。
多位云計算廠商和服務(wù)器廠商的技術(shù)人員表示,高性能GPU芯片短缺,硬件采購成本和運(yùn)營成本高,國內(nèi)市場短期商用困難。這三個問題才是真正的挑戰(zhàn)。在他們看來,有資本儲備、戰(zhàn)略意愿和實踐能力的公司不會超過3家。
GPU芯片數(shù)量決定了“智商”
決定AI大模型“智商”的核心因素有三個,計算能力的規(guī)模、算法模型的復(fù)雜程度、數(shù)據(jù)的質(zhì)量和數(shù)量。
AI大模型的推理和訓(xùn)練高度依賴英偉達(dá)的GPU芯片。缺少芯片會導(dǎo)致算力不足。計算能力不足意味著無法處理龐大的模型和數(shù)據(jù)量。最終的結(jié)果是AI應(yīng)用存在智商差距。
3月5日,十四屆全國人大一次會議開幕式后,科技部部長王志剛在全國兩會“部長通道”在接受媒體采訪時表示,ChatGPT作為大模型,將大數(shù)據(jù)、大算力、強(qiáng)算法有效結(jié)合。其計算方法有所改進(jìn),特別是在保證算法的實時性和算法質(zhì)量的有效性方面。“就像發(fā)動機(jī)一樣,每個人都可以造發(fā)動機(jī),只是質(zhì)量不一樣。踢球就是運(yùn)球和射門,但要做到像梅西那么好并不容易。”
Nvidia是全球知名的半導(dǎo)體廠商,占據(jù)了數(shù)據(jù)中心GPU市場90%以上的份額。英偉達(dá)A100芯片在2020年推出,致力于自動駕駛、高端制造、醫(yī)療醫(yī)藥行業(yè)等AI推理或訓(xùn)練場景。2022年,英偉達(dá)推出了性能更強(qiáng)的新一代產(chǎn)品——H100。A100/H100是目前最強(qiáng)大的數(shù)據(jù)中心專用GPU,市場上幾乎沒有可擴(kuò)展的替代品。包括特斯拉、Facebook在內(nèi)的企業(yè)已經(jīng)使用A100芯片搭建AI計算集群,采購規(guī)模超過7000顆。
多位云計算技術(shù)人員告訴記者,運(yùn)行ChatGPT至少需要1萬顆英偉達(dá)A100芯片。但是,擁有超過10,000顆GPU芯片的公司不超過5家。其中,最多只有一家公司擁有 10,000 個 Nvidia A100 GPU。
另一位大型服務(wù)器廠商人士表示,即使樂觀估計,GPU儲備最大的公司也不超過5萬片,并以來自英偉達(dá)的中低端數(shù)據(jù)中心芯片(如英偉達(dá)A10) ) 為主。這些GPU芯片分散在不同的數(shù)據(jù)中心,一個數(shù)據(jù)中心通常只配備數(shù)千顆GPU芯片。
此外,由于去年8月美國政府開始實施貿(mào)易限制,中國企業(yè)長期無法獲得NVIDIA A100芯片。現(xiàn)有A100芯片儲備全部為存貨,剩余使用壽命約4-6年。
2022年8月31日,英偉達(dá)和AMD兩家半導(dǎo)體公司生產(chǎn)的GPU產(chǎn)品被美國納入限制范圍。Nvidia 的受限產(chǎn)品包括 A100 和 H100,AMD受監(jiān)管的 GPU 產(chǎn)品包括 MI250。根據(jù)美國政府的要求,未來峰值性能等于或超過A100的GPU產(chǎn)品也被限制銷售。
中國企業(yè)目前可以獲得的最佳替代品是英偉達(dá)的A800芯片。A800被認(rèn)為是A100的“閹割版”。2022年8月,在A100被禁止在中國市場銷售后,英偉達(dá)在當(dāng)年第三季度推出了專供中國市場使用的A800芯片。這款產(chǎn)品的計算性能與A100基本持平,但數(shù)據(jù)傳輸速度降低了30%。這會直接影響AI集群的訓(xùn)練速度和效果。
不過目前A800芯片在中國市場嚴(yán)重缺貨。雖然是A100的“閹割版”,但A800在京東官網(wǎng)的售價卻超過了8萬元/件,甚至超過了A100的官方售價(1萬美元/件)。即便如此,A800在京東官網(wǎng)依然處于斷貨狀態(tài)。
一位云廠商人士告訴記者,A800的實際售價甚至高于10萬元/片,而且價格還在上漲。A800目前在浪潮、新華三等國內(nèi)服務(wù)器廠商手中屬于稀缺產(chǎn)品,一次只能采購數(shù)百枚。
GPU 數(shù)量或性能不足直接導(dǎo)致 AI 推理和模型訓(xùn)練的準(zhǔn)確性不足。其結(jié)致使中國企業(yè)做出類似的對話機(jī)器人,機(jī)器人的“智商”也會遠(yuǎn)低于ChatGPT。國內(nèi)云廠商高性能GPU芯片的短缺,正成為限制中國版ChatGPT誕生的最直接因素。
成本高企
AI算力和大模型是比云還燒錢的吞金猛獸。
即使有足夠的高性能GPU,中國云廠商也將面臨高昂的硬件采購成本、模型訓(xùn)練成本和日常運(yùn)營成本。面對以上成本,有資本儲備、戰(zhàn)略選擇和實際能力的企業(yè)不超過3家。
OpenAI 可以做 ChatGPT,背后微軟提供資金和算力。2019 年,微軟向 OpenAI 投資了 10 億美元。2021年,微軟又進(jìn)行一輪新投資,金額不詳。今年 1 月,微軟宣布未來幾年將向 OpenAI 投資 100 億美元。
對于云廠商來說,AI算力和大模型需要面臨高昂的硬件采購成本、模型訓(xùn)練成本和日常運(yùn)營成本。
一是硬件采購成本和智能計算集群建設(shè)成本。如果以10000顆英偉達(dá)A800 GPU為標(biāo)配打造智能算力集群,以10萬元/顆的價格計算,光是GPU的采購成本就高達(dá)10億元。一臺服務(wù)器通常需要4-8顆GPU,一臺搭載A800的服務(wù)器成本超過40萬元。國產(chǎn)服務(wù)器均價在4萬-5萬元。GPU服務(wù)器的成本是普通服務(wù)器的10倍以上。服務(wù)器采購成本通常占數(shù)據(jù)中心建設(shè)成本的30%,一個智能計算集群的建設(shè)成本超過30億元。
第二,模型訓(xùn)練的成本。如果算法模型要足夠準(zhǔn)確,則需要進(jìn)行多輪算法模型訓(xùn)練。一家外資云廠商的資深技術(shù)人員告訴記者,ChatGPT一個完整的模型訓(xùn)練成本超過1200萬美元(約合人民幣8000萬元)。如果進(jìn)行10次完整的模型訓(xùn)練,成本將高達(dá)8億元。GPU芯片的價格是公開的,算力成本相對容易衡量。但是,大型AI模型還需要進(jìn)行數(shù)據(jù)采集、人工標(biāo)注、模型訓(xùn)練等一系列工作。這些軟成本很難簡單計算。具有不同效果的模型具有不同的最終成本。
第三,日常運(yùn)營成本。數(shù)據(jù)中心的模型訓(xùn)練會消耗網(wǎng)絡(luò)帶寬和電力資源。此外,模型訓(xùn)練還需要算法工程師負(fù)責(zé)調(diào)優(yōu)。上述成本也以數(shù)十億美元計算。
也就是說,進(jìn)入AI算力和AI規(guī)模化賽道,前期的硬件采購和集群建設(shè)成本高達(dá)數(shù)十億元。后期的模型訓(xùn)練、日常運(yùn)營、產(chǎn)品研發(fā)等成本也高達(dá)數(shù)十億元。某管理咨詢公司的技術(shù)戰(zhàn)略合作伙伴告訴記者,生成人工智能的投資規(guī)模高達(dá)百億。
微軟大規(guī)模采購GPU構(gòu)建智能計算集群,在業(yè)務(wù)邏輯上是可行的。2022年,微軟在云計算基礎(chǔ)設(shè)施上的支出超過250億美元。當(dāng)年微軟的營業(yè)利潤達(dá)到828億美元,而微軟的云營業(yè)利潤超過400億美元。微軟的云盈利超過支出,在AI算力和大規(guī)模模型業(yè)務(wù)上的大規(guī)模投入與微軟的財務(wù)狀況相匹配。
微軟AI計算有產(chǎn)品、有客戶、有收入,形成新的增長點(diǎn)。微軟客戶通常會在云上租用數(shù)千個高性能 GPU 進(jìn)行語言模型學(xué)習(xí),以此使用他們自己的生成 AI。
微軟擁有 Azure ML 和 OpenAI。Azure ML 有 200 多家客戶,包括制藥公司拜耳和審計公司畢馬威。Azure ML 連續(xù)四個季度收入增長超過 100%。微軟云甚至形成了“云-企業(yè)軟件-AI計算”三個旋轉(zhuǎn)的增長曲線。其中,公有云Azure營收增速約為30%-40%,軟件業(yè)務(wù)營收增速約為50%-60%,AI算力營收增速超過100%。
中國企業(yè)對云基礎(chǔ)設(shè)施的資本支出有限,投資智能計算集群和AI大模型需要分流有限的預(yù)算支出。更大的挑戰(zhàn)不僅是中短期內(nèi)無法盈利,還會虧損更多。
科技公司的資本支出通常用于購買服務(wù)器、建設(shè)數(shù)據(jù)中心、購買園區(qū)用地等固定資產(chǎn)。以亞馬遜為例,2022年的資本支出為580億美元,其中超過50%用于投資云基礎(chǔ)設(shè)施。阿里、騰訊、百度最近一個財年的資本支出情況,發(fā)現(xiàn)3家公司的數(shù)據(jù)分別為533億元、622億元、112億元。
三家公司均未披露投資云基礎(chǔ)設(shè)施的資本支出。假設(shè)這3家公司和亞馬遜一樣,50%的資本支出用于投資云基礎(chǔ)設(shè)施,數(shù)據(jù)分別為266億元、311億元、56億元。資本支出充裕的公司投資數(shù)十億美元能負(fù)擔(dān)得起,但對于資本支出不足的企業(yè)來說是一種負(fù)擔(dān)。
國內(nèi)已經(jīng)宣布建設(shè)智能計算集群的企業(yè)有阿里云、華為、百度等,但智能計算集群的GPU芯片數(shù)量未知。2022年,各大云廠商都把增加毛利、減少虧損作為戰(zhàn)略重點(diǎn)。現(xiàn)階段購買高性能GPU和構(gòu)建智能計算集群需要巨大的投資。不僅會加重?fù)p失,還需要依靠群體輸血。這考驗企業(yè)管理層的戰(zhàn)略意志。
大模型高昂,先做小模型
華為、阿里、騰訊、字節(jié)跳動、百度都有云服務(wù),理論上有中國版ChatGPT的實力。
云計算業(yè)內(nèi)人士指出,幾家有能力的公司也會有實際的戰(zhàn)略考慮。比如騰訊、百度、字節(jié)跳動有云,數(shù)據(jù)量也很大,但云業(yè)務(wù)虧損,長期資金儲備和戰(zhàn)略意志存疑。華為依靠自研升騰芯片建立了大模型技術(shù),但受“斷供”影響,無法獲得英偉達(dá)的GPU芯片,作為硬件廠商,缺乏互聯(lián)網(wǎng)公司的數(shù)據(jù)積累。
由于以上限制,目前能夠?qū)崿F(xiàn)AI大模型商業(yè)化的公司寥寥無幾。到最后,同時具備資本儲備、戰(zhàn)略意志和實踐能力的企業(yè)將屈指可數(shù)。
目前,沒有一家中國云廠商像微軟那樣擁有數(shù)萬顆A100/H100芯片。目前中國云廠商的高性能GPU算力不足。更務(wù)實的觀點(diǎn)是,即使中國云廠商真的獲得了10000顆NVIDIA高性能GPU,也不應(yīng)該簡單地投入中國版ChatGPT這一熱門應(yīng)用場景。
在算力資源緊缺的情況下,可以優(yōu)先投資行業(yè)市場,為企業(yè)客戶提供服務(wù)。一位管理咨詢公司的技術(shù)戰(zhàn)略合作伙伴認(rèn)為,ChatGPT只是一個對話機(jī)器人,商業(yè)應(yīng)用場景的展示暫時有限。用戶規(guī)模越大,成本越高,損失越大。如何在細(xì)分領(lǐng)域?qū)I算力和大模型商業(yè)化,是獲得正現(xiàn)金流的關(guān)鍵。
中國市場AI算力規(guī)模化商業(yè)模式仍處于起步階段。目前,國內(nèi)已有少量自動駕駛、金融等領(lǐng)域客戶開始使用AI算力。例如,小鵬汽車目前使用阿里云的智能計算中心進(jìn)行自動駕駛模型訓(xùn)練。
一位數(shù)據(jù)中心產(chǎn)品經(jīng)理認(rèn)為,國內(nèi)銀行金融客戶在反欺詐中大量使用模型訓(xùn)練技術(shù),通常只需要租用數(shù)百個性能較低的GPU訓(xùn)練模型即可。也是AI計算和模型訓(xùn)練,是一種成本更低的方案。事實上,通用的大規(guī)模模型并不能解決特定行業(yè)的問題,金融、汽車、消費(fèi)等各個領(lǐng)域都需要行業(yè)模型。
中國沒有足夠的高性能 GPU 來進(jìn)行大規(guī)模 AI 模型訓(xùn)練,所以可以先在細(xì)分領(lǐng)域做小模型。人工智能技術(shù)的飛速發(fā)展已經(jīng)超出了人們的認(rèn)知。對于中國企業(yè)來說,根本之道還是要堅持持續(xù)布局從而達(dá)成戰(zhàn)略性發(fā)力。
審核編輯 :李倩
-
芯片
+關(guān)注
關(guān)注
459文章
51876瀏覽量
433033 -
云計算
+關(guān)注
關(guān)注
39文章
7953瀏覽量
138944 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1584瀏覽量
8626
原文標(biāo)題:ChatGPT算力成本巨大,成為云廠商的一大門檻,大廠如何選擇
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
【一文看懂】什么是端側(cè)算力?


科技云報到:要算力更要“算利”,“精裝算力”觸發(fā)大模型產(chǎn)業(yè)新變局?
《一云多芯算力調(diào)度研究報告》聯(lián)合發(fā)布
九章云極DataCanvas算力包正式發(fā)布
IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書
華為云技術(shù)新突破:Flexus X 實例以其柔性算力加速企業(yè)一鍵上云

柔性算力的創(chuàng)新之作!華為云 Flexus X 實例以 6 倍性能,帶來旗艦體驗

輕松破除上云門檻,新一代柔性算力 Flexus X 實例如此簡單

助力企業(yè)數(shù)智化上云躍級提升,云耀 X 實例柔性算力一直加速一直快

華為云新一代柔性算力服務(wù)器,加速企業(yè)輕松上云數(shù)智化轉(zhuǎn)型

助力中小企業(yè)一鍵上云部署,新一代柔性算力云耀 X 實例展實力

評論