Source: DYLAN PATEL,MYRON XIE, GERALD WONG, AI Capacity Constraints - CoWoS and HBM Supply Chain, July 6, 2023
生成式人工智能已經(jīng)到來,它將改變世界。自從ChatGPT風(fēng)靡全球,讓我們對人工智能的可能性充滿想象力以來,我們看到各種各樣的公司都在爭相訓(xùn)練AI模型,并將生成式人工智能應(yīng)用于內(nèi)部工作流程或面向客戶的應(yīng)用程序中。不僅是大型科技公司和初創(chuàng)公司,很多非科技行業(yè)的財富5000強公司也在努力尋找如何部署基于LLM的解決方案。
當(dāng)然,這將需要大量的GPU計算資源。GPU銷售量像火箭一樣飆升,供應(yīng)鏈難以滿足對GPU的需求。公司們正在爭相購買GPU或云實例。
即使是OpenAI也無法獲得足夠的GPU,這嚴重制約了其近期的路線圖。由于GPU短缺,OpenAI無法部署其多模態(tài)模型。由于GPU短缺,OpenAI無法部署更長的序列長度模型(8k vs 32k)。
與此同時,中國公司不僅在投資部署自己的LLM,還在美國出口管制進一步加強之前進行庫存儲備。例如,抖音背后的中國公司字節(jié)跳動據(jù)說正在向Nvidia訂購價值超過10億美元的A800/H800。
雖然有許多合理的用例需要數(shù)十萬個GPU用于人工智能,但也有很多情況是人們急于購買GPU,試圖構(gòu)建他們不確定是否有合法市場的項目。在某些情況下,大型科技公司正在努力迎頭趕上OpenAI和Google,以免被拋在后頭。大量風(fēng)投資金涌入那些沒有明確商業(yè)用例的初創(chuàng)公司。我們了解到有十幾個企業(yè)正在嘗試在自己的數(shù)據(jù)上訓(xùn)練自己的LLM。最后,這也適用于包括沙特阿拉伯和阿聯(lián)酋在內(nèi)的國家,他們今年也試圖購買價值數(shù)億美元的GPU。
即使Nvidia試圖大幅增加產(chǎn)量,最高端的Nvidia GPU H100也將在明年第一季度之前售罄。Nvidia將逐漸提高每季度H100 GPU的發(fā)貨量,達到40萬枚。
今天我們將詳細介紹Nvidia及其競爭對手在生產(chǎn)方面的瓶頸以及下游容量的擴展情況。我們還將分享我們對Nvidia、Broadcom、Google、AMD、AMD Embedded(Xilinx)、Amazon、Marvell、Microsoft、Alchip、Alibaba T-Head、ZTE Sanechips、三星、Micron和SK Hynix等公司每個季度供應(yīng)增長的估計。
Nvidia的H100采用CoWoS-S封裝,共有7個芯片組件。中心是H100 GPU ASIC,其芯片尺寸為814平方毫米。周圍是6個HBM存儲堆疊。HBM的配置因不同的SKU而異,但H100 SXM版本使用HBM3,每個堆疊為16GB,總內(nèi)存容量為80GB。H100 NVL將有兩個封裝,每個封裝上有6個活動的HBM堆疊。
在只有5個活動HBM的情況下,非HBM芯片可以是虛擬硅,用于為芯片提供結(jié)構(gòu)支撐。這些芯片位于硅中間層之上,該硅中間層在圖片中不清晰可見。這個硅中間層位于ABF封裝基板上。
01.GPU芯片和TSMC制造
Nvidia GPU的主要計算組件是處理器芯片本身,采用定制的TSMC工藝節(jié)點“4N”制造。它在臺灣臺南的TSMC Fab 18工廠中制造,與TSMC N5和N4工藝節(jié)點共享設(shè)施。這不是生產(chǎn)的限制因素。
由于個人電腦、智能手機和非人工智能相關(guān)的數(shù)據(jù)中心芯片市場的嚴重疲軟,TSMC的N5工藝節(jié)點利用率降至70%以下。Nvidia在獲取額外晶圓供應(yīng)方面沒有遇到問題。
事實上,Nvidia已經(jīng)訂購了大量用于H100 GPU和NVSwitch的晶圓,并在這些芯片需要出貨之前立即開始生產(chǎn)。這些晶圓將在TSMC的晶圓庫中存放,直到下游供應(yīng)鏈有足夠的能力將這些晶圓封裝成成品芯片。
基本上,Nvidia正在利用TSMC低利用率的情況,并在后續(xù)購買成品的路上獲得一些價格優(yōu)勢。
芯片庫,也被稱為晶圓庫,是半導(dǎo)體行業(yè)的一種做法,即將部分加工或已完成的晶圓存放,直到客戶需要時再提供。與其它一些晶圓代工廠不同,TSMC會幫助客戶將這些晶圓保留在自己的賬面上,幾乎進行完整的加工。這種做法可以使TSMC及其客戶保持財務(wù)靈活性。由于這些晶圓只是部分加工,所以存放在晶圓庫中的晶圓并不被視為成品,而是被歸類為在制品(WIP)。只有當(dāng)這些晶圓完全完成時,TSMC才能確認收入并將這些晶圓的所有權(quán)轉(zhuǎn)移給客戶。
幫助客戶調(diào)整資產(chǎn)負債表,使其看起來庫存水平得到了控制。對于TSMC而言,好處在于可以提高利用率,從而支持利潤率。然后,當(dāng)客戶需要更多庫存時,這些晶圓可以通過幾個最后的加工步驟完全完成,然后以正常銷售價格甚至略有折扣交付給客戶。
02.數(shù)據(jù)中心中HBM的出現(xiàn)
AMD的創(chuàng)新如何幫助了Nvidia
圍繞GPU的高帶寬內(nèi)存(HBM,High Bandwidth Memory)是下一個重要組件。HBM供應(yīng)也有限,但正在增加。HBM是通過硅穿透孔(TSV,Through Silicon Vias)連接的垂直堆疊DRAM芯片,并使用TCB(thermocompression bonding,在未來需要更高堆疊層數(shù)時將需要使用混合鍵合技術(shù))進行鍵合。在DRAM芯片的下方是一個作為控制器的基礎(chǔ)邏輯芯片。通常,現(xiàn)代HBM有8層存儲芯片和1個基礎(chǔ)邏輯芯片,但我們很快將看到具有12+1層HBM的產(chǎn)品,例如AMD的MI300X和Nvidia即將推出的H100升級版。
有趣的是,盡管Nvidia和Google是HBM的最大用戶,但是AMD是HBM的先驅(qū)。在2008年,AMD預(yù)測,為了匹配游戲GPU性能的持續(xù)提升,需要更多的功率,這將需要從GPU邏輯中分流,從而降低GPU性能。AMD與SK Hynix和其它供應(yīng)鏈中的公司(如Amkor)合作,尋找一種能夠在更低功耗下提供高帶寬的存儲解決方案。這導(dǎo)致了2013年由SK Hynix開發(fā)的HBM技術(shù)的誕生。
SK Hynix于2015年首次為AMD的Fiji系列游戲GPU提供了HBM技術(shù),這些芯片由Amkor進行了2.5D封裝。隨后,在2017年推出了Vega系列,該系列采用了HBM2技術(shù)。然而,HBM對游戲GPU性能并沒有帶來太大改變。由于性能上沒有明顯的優(yōu)勢,再加上成本較高,AMD在Vega之后又轉(zhuǎn)而使用了GDDR技術(shù)來供應(yīng)其游戲顯卡。如今,Nvidia和AMD的頂級游戲GPU仍在使用價格更低的GDDR6技術(shù)。
然而,AMD的初始預(yù)測在某種程度上是正確的:內(nèi)存帶寬的擴展對于GPU來說確實是一個問題,尤其是對于數(shù)據(jù)中心的GPU而言。對于消費級游戲GPU,Nvidia和AMD已經(jīng)轉(zhuǎn)向使用大容量緩存來存儲幀緩沖區(qū),使它們能夠使用帶寬較低的GDDR內(nèi)存。
正如我們之前詳細介紹的那樣,推理和訓(xùn)練工作負載對內(nèi)存的需求很高。隨著AI模型中參數(shù)數(shù)量的指數(shù)增長,僅僅是權(quán)重的模型大小就已經(jīng)達到了TB級別。因此,AI加速器的性能受到存儲和檢索訓(xùn)練和推理數(shù)據(jù)的能力的限制,這通常被稱為內(nèi)存壁。
為了解決這個問題,領(lǐng)先的數(shù)據(jù)中心GPU采用了與高帶寬內(nèi)存(HBM)進行共封裝的方式。Nvidia在2016年推出了他們的首款HBM GPU,即P100。HBM通過在傳統(tǒng)DDR內(nèi)存和芯片上緩存之間找到了一個折衷方案,通過犧牲容量來提高帶寬。通過大幅增加引腳數(shù),每個HBM堆??梢詫崿F(xiàn)1024位寬的內(nèi)存總線,這是DDR5每個DIMM的64位寬度的18倍。與此同時,通過大幅縮短距離,HBM的功耗得到了控制,每位傳輸?shù)哪芰肯娘@著降低(以皮焦每比特為單位)。相比于GDDR和DDR的厘米級長度,HBM的傳輸路徑只有毫米級長短。
今天,許多面向高性能計算的芯片公司正在享受AMD努力的成果。諷刺的是,AMD的競爭對手Nvidia可能是最大的受益者,成為HBM的最大用戶。
03.HBM市場:SK Hynix的主導(dǎo)地位
三星和美光投資迎頭趕上
作為HBM的先驅(qū),SK Hynix是技術(shù)路線圖最為先進的領(lǐng)導(dǎo)者。SK Hynix于2022年6月開始批量生產(chǎn)HBM3,目前是唯一的HBM3供應(yīng)商,市場份額超過95%,大多數(shù)H100 SKU產(chǎn)品都在使用。目前HBM的最大配置是8層16GB HBM3模塊。SK Hynix正在生產(chǎn)12層24GB HBM3,數(shù)據(jù)速率為5.6 GT/s,用于AMD MI300X和Nvidia H100的升級版本。
HBM的主要挑戰(zhàn)在于封裝和堆疊內(nèi)存,而這正是SK Hynix擅長的領(lǐng)域,他們積累了最強的工藝流程知識。在未來的文章中,我們還將詳細介紹SK Hynix的兩項關(guān)鍵封裝創(chuàng)新,它們正在逐步推進,并將取代當(dāng)前HBM工藝中的一個關(guān)鍵設(shè)備供應(yīng)商。
三星緊隨其后,預(yù)計將于2023年下半年開始出貨HBM3。我們相信它們設(shè)計用于Nvidia和AMD的GPU。目前,它們在產(chǎn)量上與SK Hynix相比存在巨大的差距,但它們正在大舉投資以追趕市場份額。三星正在努力迎頭趕上,并力爭成為HBM市場份額的第一。我們聽說他們正在與一些加速器公司達成有利的交易,試圖獲得更多份額。
他們展示了他們的12層HBM以及未來的混合鍵合HBM。三星HBM-4技術(shù)路線圖中一個有趣的方面是,他們希望將邏輯/外圍電路放在內(nèi)部FinFET節(jié)點上。這顯示了他們在擁有邏輯和DRAM代工廠方面的潛在優(yōu)勢。
美光公司目前進展最慢。美光公司在混合存儲立方(Hybrid Memory Cube,HMC)技術(shù)方面進行了更大的投資。HMC是與HBM競爭的一種技術(shù),概念非常相似,并在同一時期發(fā)展起來。然而,HMC周圍的生態(tài)系統(tǒng)是封閉的,這使得很難在HMC周圍開發(fā)知識產(chǎn)權(quán)。此外,HMC存在一些技術(shù)缺陷。由于HBM的采用率更高,因此HBM成為了3D堆疊DRAM的行業(yè)標準。
直到2018年,美光才開始轉(zhuǎn)向HBM并進行投資。這就是為什么美光進展最慢的原因。他們?nèi)匀煌A粼贖BM2E階段(而SK Hynix在2020年中期開始大規(guī)模生產(chǎn)HBM2E),甚至無法成功制造頂級的HBM2E芯片。
在最近的財務(wù)電話會議中,美光對他們的HBM技術(shù)路線圖發(fā)表了一些大膽的言論:他們相信他們將在2024年憑借HBM3E從落后者變?yōu)轭I(lǐng)先者。預(yù)計HBM3E將于2024年第三季度/第四季度開始供貨,用于Nvidia的下一代GPU。
我們的HBM3規(guī)?;a(chǎn)實際上是下一代HBM3,具有比當(dāng)前行業(yè)中HBM3產(chǎn)品性能、帶寬更高、功耗更低的水平。該產(chǎn)品將從2024年第一季度開始規(guī)?;a(chǎn),并在2024財年帶來可觀的收入,2025年將大幅增長,甚至超過2024年的水平。我們的目標是在HBM領(lǐng)域占據(jù)非常強勢的份額,超過當(dāng)前行業(yè)DRAM的自然供應(yīng)份額。
-----美光公司首席業(yè)務(wù)官Sumit Sadana
他們聲稱在HBM領(lǐng)域的市場份額高于他們在DRAM市場的份額,這是非常大膽的說法??紤]到他們?nèi)匀辉诟弋a(chǎn)量上無法成功制造頂級HBM2E芯片,我們很難相信美光聲稱他們將在2024年初發(fā)貨領(lǐng)先的HBM3芯片,甚至成為首個發(fā)布HBM3E芯片。在我們看來,美光似乎試圖改變關(guān)于他們在人工智能領(lǐng)域的失敗者形象,盡管與英特爾/AMD CPU服務(wù)器相比,Nvidia GPU服務(wù)器的內(nèi)存容量大大降低。
根據(jù)我們的渠道檢查,SK Hynix在新一代技術(shù)方面仍然保持領(lǐng)先地位,而三星則在大幅增加供應(yīng)、提出大膽路線圖并達成交易方面努力迎頭趕上。
04.真正的瓶頸是CoWoS技術(shù)
CoWoS(Chip on Wafer on Substrate,芯片在晶圓上的襯底上)是TSMC的“2.5D”封裝技術(shù),多個活性硅芯片(通常是邏輯芯片和HBM堆疊芯片)集成在一個被動硅中間層上。中間層作為頂部活性芯片的通信層。然后,中間層和活性硅芯片與包裝基板連接在一起,包裝基板上含有與系統(tǒng)PCB連接的I/O接口。
HBM和CoWoS是相輔相成的。HBM的高引腳數(shù)和短跡長要求需要2.5D先進封裝技術(shù),如CoWoS,才能實現(xiàn)密集、短距離的連接,這在PCB甚至包裝基板上無法實現(xiàn)。CoWoS是主流封裝技術(shù),提供最高的互連密度和最大的封裝尺寸,而成本合理。由于幾乎所有HBM系統(tǒng)目前都采用CoWoS封裝,所有先進的人工智能加速器都使用HBM,因此可以推斷,幾乎所有領(lǐng)先的數(shù)據(jù)中心GPU都由TSMC采用CoWoS封裝。百度在其產(chǎn)品中使用了三星的高級加速器。
盡管TSMC的SoIC等3D封裝技術(shù)可以直接將芯片堆疊在邏輯芯片上,但對于HBM來說,這種做法在熱管理和成本方面并不合理。SoIC在互連密度方面處于不同的數(shù)量級,并更適合通過芯片堆疊擴展片上緩存,正如AMD的3D V-Cache解決方案所示。AMD的Xilinx也是多年前最早使用CoWoS技術(shù)將多個FPGA芯片集成在一起的用戶。
盡管還有其它一些應(yīng)用程序使用了CoWoS技術(shù),如網(wǎng)絡(luò)(其中一些被應(yīng)用于網(wǎng)絡(luò)GPU集群,如博通的Jericho3-AI)、超級計算和FPGA,但絕大多數(shù)CoWoS的需求來自于人工智能領(lǐng)域。與半導(dǎo)體供應(yīng)鏈的其它主要終端市場不同,這些市場的疲軟意味著有足夠的閑置產(chǎn)能來滿足對GPU的巨大需求,CoWoS和HBM已經(jīng)是主要面向人工智能的技術(shù),因此2022年第一季度已經(jīng)消耗了所有的閑置產(chǎn)能。隨著GPU需求的激增,這些供應(yīng)鏈的部分已經(jīng)無法跟上,成為了GPU供應(yīng)的瓶頸。
就在最近的兩天,我接到了一個客戶的電話,要求大幅增加后端產(chǎn)能,特別是CoWoS方面的產(chǎn)能。我們正在評估這個需求。
-----TSMC首席執(zhí)行官魏哲家
TSMC一直在為更多的封裝需求做準備,但可能沒有預(yù)料到這股生成式人工智能需求會來得如此迅速。今年6月,TSMC宣布他們在竹南開設(shè)了先進封測 6工廠。這個工廠占地面積達14.3公頃,足夠容納每年高達100萬片的3D封測產(chǎn)能。這不僅包括CoWoS,還包括SoIC和InFO技術(shù)。有趣的是,這個工廠的面積比TSMC其它封裝工廠的總和還要大。盡管這只是凈化室的面積,并遠未完全配備充分的設(shè)備來提供如此多的產(chǎn)能,但很明顯TSMC正在做好準備,預(yù)期會有更多對其先進封裝解決方案的需求。
微觀封裝(Wafer Level Fan-Out)的產(chǎn)能有些閑置,這在主要用于智能手機SoC的領(lǐng)域比較常見,其中的一些部分可以重新用于CoWoS的某些工藝步驟。特別是在沉積、電鍍、背面研磨、成型、放置和RDL(重密度線路)形成等方面存在一些重疊的工藝。我們將在后續(xù)文章中詳細介紹CoWoS的工藝流程以及所有由此帶來積極需求的公司。在設(shè)備供應(yīng)鏈中會有一些有意義的變化。
英特爾、三星和外包測試組織(如ASE的FOEB)還有其它的2.5D封裝技術(shù),但CoWoS是唯一一種被大量采用的,因為TSMC是最為主導(dǎo)的人工智能加速器代工廠。甚至英特爾的Habana加速器也是由TSMC制造和封裝。然而,一些客戶正在尋求與TSMC的替代方案,下面我們將討論這方面的內(nèi)容。更多信息請參閱我們的先進封裝系列。
05.CoWoS的變種
CoWoS有幾個變種,但原始的CoWoS-S仍然是高產(chǎn)量生產(chǎn)的唯一配置。這是上面描述的經(jīng)典配置:邏輯芯片和HBM芯片通過基于硅的中間層和TSV進行連接。中間層然后放置在有機封裝基板上。
硅中間層的一項關(guān)鍵技術(shù)是“版圖拼接”(reticle stitching)。由于光刻工具的缺陷掃描限制,芯片通常具有最大尺寸為26mm x 33mm。隨著GPU芯片尺寸接近這一限制并需要適應(yīng)周圍的HBM芯片,中間層需要更大的尺寸,將超過這個版圖限制。TSMC利用版圖拼接技術(shù)來解決這個問題,允許他們對中間層進行多次版圖拼接(目前最多可以達到3.5倍,與AMD的MI300相適應(yīng))。
CoWoS-R采用有機基板和重新分布層(RDL),而不是硅中間層。這是一種成本較低的變種,由于使用有機RDL而不是基于硅的中間層,犧牲了I/O密度。正如我們所詳細介紹的那樣,AMD的MI300最初是設(shè)計在CoWoS-R上的,但我們認為由于翹曲和熱穩(wěn)定性的問題,AMD不得不改用CoWoS-S。
CoWoS-L預(yù)計將于今年晚些時候推出,并使用RDL中間層,但包含用于芯片間互連的主動和/或被動硅橋,嵌入在中間層內(nèi)部。這是TSMC的等效產(chǎn)品,類似于英特爾的EMIB封裝技術(shù)。這將允許更大的封裝尺寸,因為硅中間層的規(guī)模越來越難以擴展。MI300 CoWoS-S可能已接近單個硅中間層的限制。
對于更大的設(shè)計來說,采用CoWoS-L將更具經(jīng)濟性。TSMC正在研發(fā)一個6倍版圖尺寸的CoWoS-L超級載體中間層。對于CoWoS-S,他們并未提及超過4倍版圖的內(nèi)容。這是因為硅中間層的脆弱性。這種硅中間層只有100微米厚,當(dāng)中間層在工藝流程中擴展到更大尺寸時,有可能出現(xiàn)剝離或開裂的風(fēng)險。
-
gpu
+關(guān)注
關(guān)注
28文章
4779瀏覽量
129368 -
CoWoS
+關(guān)注
關(guān)注
0文章
151瀏覽量
10550 -
OpenAI
+關(guān)注
關(guān)注
9文章
1140瀏覽量
6714
原文標題:AI計算能力限制:CoWoS和HBM供應(yīng)鏈的挑戰(zhàn)
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論