在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達為中國“降規”:H800變身為H20,技術如何實現、性能夠用嗎?

sakobpqhz ? 來源:算力基建 ? 2023-11-30 16:37 ? 次閱讀

10月17日,美國更新出口管制標準,要求先進芯片性能超過特定閾值,即需要申請出口許可。在嚴苛的限制條件下,英偉達針對中國市場的特供版H800、A800兩款芯片也面臨禁售,以下為美國商務部對先進芯片性能的劃定標準:

●總算力之和≥4800TOPS,

●總算力≥1600,且性能密度≥5.92;

●2400≤總算力<4800,且1.6<性能密度<5.92;

●總算力≥1600,且3.2≤性能密度<5.92。

面對新的管制條例,英偉達給了兩個解法:其一,溝通美國商務部申請許可,給特定的中國客戶“開白”;其二,針對新的管制條例,再次定制全新的特供版本。

剛剛舉辦的第三財季電話會議上,英偉達首席財務官科萊特·克雷斯確認了這一消息。克雷斯表示,英偉達正在與中東和中國的一些客戶合作,以獲得美國政府銷售高性能產品的許可。此外,英偉達正試圖開發符合政府政策且不需要許可證的新數據中心產品。

01.H800是如何“閹割”成為H20?

英偉達試圖開發的新的特供版,即業內盛傳的H20、L20等產品,最新消息顯示,相關產品的上市計劃已經延后至2024年第一季度。

問題在于,H20等全新特供芯片的研發、設計、生產,完全跳出了常規芯片的節奏,英偉達是如何在短時間內拿出這套特供解決方案?

它的答案就是我們這篇文章要討論的關鍵問題之一:后道點斷生產工藝,用大家更為常用的詞匯總結即——閹割。

fc099968-8f2d-11ee-939d-92fbcf53809c.jpg

HGXH20-L20PCIe-L2PCIe-產品規格

按正常的設計、生產周期和產品發布節奏來推斷,特供中國市場的H20/ L20等型號的芯片在這個時間節點發布,不太可能是重做光罩、重新投片的產物,一個相對合理的推論——即它們是通過半導體后道的物理點斷工藝的改造+再封裝,進而推出的新SKUs。

點斷工藝是半導體制造的后道工序(BEOL)中的改造方法,可以在無需重做光罩的前提下使用一些管/線修補工藝,包括表面激光點斷、CoWoS層面點斷,甚至通過隧道鏡手工雕線。

fc193cec-8f2d-11ee-939d-92fbcf53809c.png

芯片制造主要流程,來源:東吳證券

可以假定一下這樣的場景,代工英偉達H800的臺積電南科Fab18A、臺中Fab15B和臺中先進封裝5廠的潔凈室里,此前降規生產的幾批次裸片,還沒來得及切割、鍍上金屬線和電極,還未封裝成H800和L40S,轉而通過后道點斷生產工藝再封裝成H20、L20。

02.表面激光點斷是半導體制造傳統藝能

行業慣例來說,一顆數字邏輯芯片的緩存大小(CacheSize)、底層物理互連(PHYchannels)都可以通過在后道封測環節重修/點斷做失效屏蔽處理的,尤其是針對低分數裸片的改造方法算是幾十年的傳統藝能,例如早期的奔騰、賽揚處理器的重要區別之一就是點斷緩存。

倘若是局部微小部分,曾經可以手工完成(相當于微雕);面積稍大的部分,可以重新設計Layout預留點斷位置,再由機器完成點斷失效。

fc2315f0-8f2d-11ee-939d-92fbcf53809c.png

一種內置數字顯示的溫度傳感器設計版圖 實操上,通常的晶圓廠都會配置專業設備,由激光直接在裸片上切割線路/溝槽,而在亞利桑那錢德勒市的Intel Fab42工廠里,還有直接在專用隧道鏡下面手工雕刻晶體管的設備,宣稱是原子尺度的,不同于尋常的掃描隧道顯微鏡,幾年前Intel有個宣傳視頻,提到這臺設備,據傳全球持證的操作手不超過14人。 其實在平面晶體管以前,顯微鏡手雕不算是高難度動作,但進入FinFET以后,由于垂直方向的3D柵極結構,手雕設備的代價和操作員就變得遙不可及了。 具體到H20/L20,這兩款特供產品,是如何通過H800、L40S降規而來?可以先看看相關參數: H20:對應H100/800系列,Hopper架構(HBM3、2.5D CoWoS封裝、NVLink) L20:對應L40S系列,Ada Lovelace架構(GDDR6,2D InFO封裝,PCIe Gen4)

*注:固件相應修改;

回顧H100/H800相同架構之間比較關鍵的底層物理互連(SerDes PHY)的差異,H100降規閹割成H800,可以通過局部物理點斷失效處理來實現;但相比之下,H20雖然與前面兩款產品同構,但推測割掉的Dark Si面積可能較大,不確定常規點斷操作是否不值得,也許需要重新做Layout。

但是除了底層物理層互連(SerDes PHY)的區別,還有雙精度浮點計算(FP64)單元面積、張量核(用于矩陣、卷積類計算任務)單元面積的區別,這部分不好定論,但可以推測是類似利用物理冗余設計并加以屏蔽的操作,畢竟如今的設計方法學都是推動模塊化的,流片后的測試原本就會有70分 die與90分 die的區別,以及GPU芯片上也不止一個FP64,局部操作物理點斷失效也是合理的。

03.設計冗余為點斷創造條件,也是大廠基操

舉個例子:A、如今市面仍可見的Intel F系列CPU,就是點斷顯核的70分die;B、Apple Si的前兩代,官宣8核NPU,實際有9個,就是設計冗余。 以上這些,在晶圓制造工序中也算是基本操作,特別是中試廠/線,Alpha - Beta流片的過渡期間,有小錯就會直接手改,不會返回修改掩膜重新流片的。 從芯片設計者的角度來看,設計冗余度是在芯片開發流程中原本存在的,因為前道光刻過程是強調高良率的,具體到失效晶體管數,測試環節判斷模塊級別的良率,壞點可以直接電路割斷,后續引線、封蓋工藝流程都不變。 例如3年前,Intel曾向市場推出過不帶顯核的F系列CPU,就是物理降規/閹割的產物,點斷顯核,重新封裝銷售。但是該款芯片偶爾耗電巨大,經用戶投訴,建環境驗證后發現就是原本通過物理點斷失效的顯核在接電之后不受控制而導致的莫名電源故障。 這個案例反映的情況就是我們上文所講的,同一條流水線,經過點斷失效的芯片,后續的導線/引腳和封裝過程不變,可以繼續銷售。尤其早期Intel 10nm的良率很低,積壓很多這樣的低分片,才會把顯核失效的芯片加印F標繼續銷售。 如今這個“冗余度”可能有很大空間,畢竟H100已然是814平方毫米的大芯片,幾乎接近光罩尺寸邊緣(26mm*33mm=858mm2)。而如今發布的H20降規型號,大概是H100 15%的性能,但是其物料成本幾近相同。

04.封裝層面點斷可操作性、經濟性更好

除了在邏輯芯片表面的激光點斷工藝之外,還有針對某些特殊位置的點斷要求,比如CoWoS中介層的點斷。 CoWoS作為臺積電的2.5D封裝方案,可以使得多顆芯片封裝到一起,互連和內存等器件均通過硅中介層互聯,達到了封裝體積小,功耗低,引腳少的效果。 相比表面激光點斷,在CoWoS的前道部分——即CoW部分是硅通孔和中介層——在該層面操作點斷,做差異化,反而更經濟,也更容易保證良率。因為算力邏輯芯片和I/O芯片是分列的,可以屏蔽底層物理互連的通道,也可以縮減HBM3內存性能,而且在硅中介層修改差異化更容易,相比全部在邏輯芯片上修改的代價更低,因為中介層上操作的線寬精度可以較低,甚至點斷最上面那層金屬的線寬即可。 但是,CoWoS中介層上面是只能夠屏蔽物理互連和HBM內存,但是無法屏蔽FP64單元、Tensor core單元這樣的計算邏輯芯片面積,這就需要補充用到前文所說的在邏輯die表面點斷失效的方法。 另外,正常情況下,物理點斷失效的電路是不能從外部第三方察覺的,且工藝不可逆;尤其如今芯片都是十幾層金屬,裸片的表面修改了,上面金屬層是看不穿的,除非是用到反工程的透視掃描。 綜上,我們看到進一步特供/降規生產的H20/L20等型號,可以判斷是H800和L40S的裸片的后道物理點斷工序的改造產物,同時重新封裝、重新修改固件,成為新的SKUs。 回想Nvidia之前積壓的、原本銷往中國的50億美元的GPU產品尚未交付,如今返廠做了后道改造才得以如此快速的發布新的SKU,那么猜測國內廠商的50億美元訂單也許會轉換為這三個型號。

05.“閹割”后的H20的能與不能

fc3417f6-8f2d-11ee-939d-92fbcf53809c.png

核心AI芯片相關參數及出口管制情況,APPLIES對應受管制,DOESN'TAPPLY對應不受管制

如下是針對H20與H100/H800/A100的產品橫向比較,比較維度包括“產品規格、單卡和集群算力效能、物料成本、定價體系”等四個方面:

fc4a96e8-8f2d-11ee-939d-92fbcf53809c.png

集群綜合算力方面,H100/H800目前是AIDC算力集群的頂流部署;其中H100理論擴容極限是5萬張卡集群,最多可達10萬P算力;H800最大集群是2-3萬張卡,合計4萬P算力;A100最大集群是1.6萬張卡,合計9600P算力。 然而對于H20,其集群的理論擴容極限是5萬張卡,以單卡算力0.148P(FP16/BF16)計算,集群合計提供7400P算力,遠低于H100/H800/A100。

同時,基于算力與通信均衡度預估,5萬張H20合理的整體算力中位數約為3000P左右,倘若H20面對千億級參數模型訓練,恐怕捉襟見肘,需要集群網絡拓撲有更大的外延擴展。

但從HGX H20的硬件參數綜合來看,幾乎把美國商務部性能密度禁令中嚴格限制的算力門檻以外的指標全部拉滿,顯然是定位為一顆訓推通用的處理器。

只是針對LLM大模型業態而言,實際使用H20做千卡分布式訓練,雖然大部分有效利用時間都是GPU上的矩陣乘加計算的時間,通信和訪存的時間占比縮小,但畢竟單卡算力規格較低,超限度的千卡集群擴展反而會使其費效比降低,H20更適用于垂直類模型的訓練/推理,不容易滿足千億參數級LLM的訓練需求。

需要注意的是,選用更多低規格、更廉價的GPU并聯集群,試圖追平或是超過一臺超高算力的GH200效能,這是一種悖論。

因為這種方案的掣肘很多,環境搭建和運行的ROI并不高。因為在算力利用率、并行策略的執行、集群綜合能耗、硬件成本和組網成本等等方面都不可能獲得理想方案;H20集群與A800集群效能可以同比,對比H100/GH200集群效能則是不實際的。

H20的基本規格方面,算力水平約等于50%A100和15%H100,單卡算力是0.148P(FP16)/0.296P(Int8),900GB/S NVLink,6顆HBM3e(顯存的物料與H100 SXM版本配置相同,即6*16GB=96GB容量),die size同樣都是814mm2 。

考慮到H100GPU單卡物料成本中的HBM顆粒成本獨占55%-60%,整卡的物料成本約3320美元(H20成本相近,甚至由于增配的L2Cache以及追加了點斷工序而成本更高,且相比H800更加增配了HBM3容量和NVLinklanes帶寬),那么對應最終的渠道定價規則,H20的渠道單價可能與H100/H800處于相近水平。

同比參考幾個市面流通價格(來自某一線互聯網公司和某一線服務器廠的渠道貨價):

-DGXA800PCIe8卡服務器約145萬元/臺,NVLink版本200萬元/臺

-DGXH800NVLink版本服務器,國內渠道報價約310萬元/臺(不含IB)

-DGXH100NVLink版本服務器,香港渠道報價約45萬美元/臺(不含IB)

-H100PCIe單卡報價約2.5-3萬美元,H800PCIe單卡尚不確定,且單卡流通渠道不正規

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51192

    瀏覽量

    427324
  • 英偉達
    +關注

    關注

    22

    文章

    3848

    瀏覽量

    91991
  • 算力
    +關注

    關注

    1

    文章

    1016

    瀏覽量

    14960

原文標題:英偉達為中國“降規”:H800變身為H20,技術如何實現、性能夠用嗎?

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉H20芯片助力,預計在華銷售額將破120億美元

    近期,半導體行業的權威研究機構SemiAnalysis發布了一項引人矚目的預測,指出英偉公司的H20芯片將在當前財年顯著提振其在中國市場的銷售業績。盡管這款芯片在算力規格上相較于高端
    的頭像 發表于 07-08 10:05 ?908次閱讀

    英偉H20 AI芯片:中國市場新動向與業績預期

    在科技行業的持續關注下,英偉再次成為焦點。據英國《金融時報》7月5日的報道,英偉計劃在接下來的幾個月內向中國市場交付超過100萬顆新款
    的頭像 發表于 07-05 16:56 ?1139次閱讀

    中國科技巨頭紛紛展現出對NVIDIA H20芯片的采購意向

    最新來自摩根士丹利的報告指出,NVIDIA專為中國市場定制的H20系列人工智能芯片,正逐漸贏得中國科技巨頭如百度、阿里巴巴、騰訊及字節跳動等企業的青睞,這些企業紛紛展現出對H20系列的
    的頭像 發表于 07-05 14:30 ?785次閱讀

    英偉下調中國特供H20芯片價格

    英偉近日針對中國市場調整了其特供的AI芯片H20系列的價格,以應對需求不佳的局面。據供應鏈人士透露,目前中國服務器經銷商以每組約人民幣10
    的頭像 發表于 05-28 09:44 ?1814次閱讀

    英偉H20芯片降價引關注,供應鏈呼吁市場回歸理性

    技術局限,相對于中國競品,H20并未顯示出明顯優勢,因此市場需求存在一定限制。有知情者表示,初期H20銷量不佳,部分中國用戶對該產品定位“
    的頭像 發表于 05-27 09:44 ?683次閱讀

    英偉H20芯片價格下調,供應充足,顯示市場需求疲軟

    據知情人披露,因供貨過剩導致Nvidia H20芯片售價下調,而中國市場在該公司2024財年的營收貢獻率高達17%,這無疑凸顯出該國業務的挑戰性,同時給英偉在華前景投下了不確定性的陰
    的頭像 發表于 05-24 14:22 ?872次閱讀

    英偉芯片“倒爺”風光不再,市場熱度降溫

    中國的大模型業進入了“百模大戰”時間,英偉面向中國客戶推出H800,這個版本被俗稱為H100的
    的頭像 發表于 04-17 10:07 ?708次閱讀

    黃仁勛回應中國市場問題 推出L20H20芯片

    黃仁勛回應中國市場問題 推出L20H20芯片 在黃仁勛接受全球媒體采訪時黃仁勛強調了中國市場的重要性。英偉
    的頭像 發表于 03-20 15:45 ?1219次閱讀

    英偉H200顯卡參數是什么

    英偉H200顯卡的參數非常出色,主要表現在以下幾個方面。
    的頭像 發表于 03-07 17:02 ?3089次閱讀

    英偉H200顯卡怎么樣

    英偉H200顯卡是一款表現出色的產品,其在性能技術、應用等方面都有顯著的優勢。
    的頭像 發表于 03-07 16:50 ?2071次閱讀

    英偉H200上市時間

    英偉H200于2023年11月13日正式發布。然而,由于HBM3e芯片供應問題,其實際開售時間有所延遲。英偉表示,
    的頭像 發表于 03-07 16:46 ?2577次閱讀

    英偉H200性能怎么樣

    英偉H200性能卓越,集成了高性能CPU和GPU,通過高速NVLink連接,消除了傳統計算瓶頸。其配備了高達141GB的HBM3e高帶寬內
    的頭像 發表于 03-07 16:39 ?1149次閱讀

    英偉H200和H800的區別

    英偉H200和H800在多個方面存在一些關鍵性的區別。
    的頭像 發表于 03-07 16:30 ?4905次閱讀

    英偉H200顯卡價格

    英偉H200顯卡的具體價格尚未公布。根據上一代H100顯卡的價格范圍,預計H200的單片價格將超過40000美元。由于新芯片通常定價較高,
    的頭像 發表于 03-07 16:09 ?6081次閱讀

    英偉H200和H100的比較

    英偉H200和H100是兩款不同的AI芯片,它們各自具有獨特的特點和優勢。以下是關于這兩款芯片的一些比較。
    的頭像 發表于 03-07 15:53 ?5194次閱讀
    主站蜘蛛池模板: 欧美特级午夜一区二区三区 | 午夜黄色一级片 | l欧美18一19sex性 | 1024人成网色www| 四虎免费影院在线播放 | 午夜男人天堂 | 黄色w站| 四虎永久在线免费观看 | 成年女人在线观看 | 岛国一级毛片 | 2021精品综合久久久久 | 起碰免费视频 | 国产人免费人成免费视频 | 亚洲高清视频一区 | 国产成人1024精品免费 | 福利片欧美 | 噜噜噜天天躁狠狠躁夜夜精品 | 国产福利免费观看 | 在线一区二区观看 | 欧美私人网站 | 国产精品三级在线 | 傲视影院午夜毛片 | 在线高清视频大全 | 免费的黄色的视频 | 三级视频在线播放线观看 | 亚洲天天综合 | 成人国产精品一级毛片视频 | 黄色小毛片| 欧美日韩在线一本卡 | 男人扒开美女尿口无遮挡图片 | 免费观看在线永久免费xx视频 | 国内精品一级毛片免费看 | 狠狠尻| 老色99久久九九精品尤物 | 怡红院精品视频 | 午夜96影视| 天天弄天天操 | 青草国产在线视频 | 精品欧美小视频在线观看 | 亚洲成a人片在线观看导航 亚洲成a人片在线观看尤物 | 女人张腿让男桶免费视频网站 |