在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通往AGI之路:揭秘英偉達(dá)A100、A800、H800、V100在高性能計算與大模型訓(xùn)練中的霸主地位

GPU視覺識別 ? 來源:GPU視覺識別 ? 作者:GPU視覺識別 ? 2023-06-29 11:23 ? 次閱讀

wKgaomSc-T6AdzziAAAOTISyOTc164.png

AGI | NLP | A100 |H100 | Nvidia | Aurora

GPT| LLM | A800 |V100 | Intel | ChatGPT

日前,隨著深度學(xué)習(xí)、高性能計算、大模型訓(xùn)練等技術(shù)的保駕護(hù)航,通用人工智能時代即將到來。各個廠商也都在緊鑼密鼓的布局,如英偉達(dá)前段時間發(fā)布GH 200包含 36 個 NVLink 開關(guān),將 256 個 GH200 Grace Hopper 芯片和 144TB 的共享內(nèi)存連接成一個單元。除此之外,英偉達(dá)A100、A800、H100、V100也在大模型訓(xùn)練中廣受歡迎。AMD MI300X其內(nèi)存遠(yuǎn)超120GB的英偉達(dá)GPU芯片H100,高達(dá)192GB。

6月22日,英特爾(Intel)宣布,美國能源部阿貢國家實驗室已完成新一代超級計算機(jī)"Aurora"的安裝工作。這臺超級計算機(jī)基于英特爾的CPU和GPU,預(yù)計在今年晚些時候上線,將提供超過2 exaflops的FP64浮點性能,超越美國能源部橡樹嶺國家實驗室的"Frontier",有望成為全球第一臺理論峰值性能超過2 exaflops的超級計算機(jī)。

Aurora超級計算機(jī)是英特爾、惠普(HPE)和美國能源部(DOE)的合作項目,旨在充分發(fā)揮高性能計算(HPC)在模擬、數(shù)據(jù)分析和人工智能AI)領(lǐng)域的潛力。該系統(tǒng)由10624個刀片服務(wù)器組成,每個刀片由兩個英特爾Xeon Max系列CPU(至強(qiáng)Max 9480)和六個英特爾Max系列GPU組成。

wKgZomSc-T-AZEvBAAB-mY6OTYc25.jpeg

GPT-4作為一款先進(jìn)的AI技術(shù),其六項技術(shù)的引入將為人工智能領(lǐng)域帶來巨大的突破和變革。GPU作為算力核心服務(wù)器的重要載體扮演著至關(guān)重要的角色。GPU的高效處理能力與并行計算能力,使其成為實現(xiàn)大型語言模型訓(xùn)練的優(yōu)秀選擇。然而,數(shù)據(jù)中心算力瓶頸成為限制其發(fā)展的主要因素之一。

在中國,各大公司也在爭奪AI入場券,競逐GPU的先機(jī)。這一競爭正迅速推動著中國在人工智能領(lǐng)域的發(fā)展。GPU的廣泛應(yīng)用將為中國企業(yè)提供更多機(jī)會,從而在AI大模型訓(xùn)練場上取得更加優(yōu)勢的地位。

本文將深入探討GPU在AI大模型訓(xùn)練場上的重要性和優(yōu)勢,并分析當(dāng)前面臨的挑戰(zhàn)和機(jī)遇。同時,將探討如何優(yōu)化GPU服務(wù)器適配,以實現(xiàn)大型語言模型訓(xùn)練的突破。在接下來的內(nèi)容中,我們將探索如何解決數(shù)據(jù)中心算力瓶頸、加速AI技術(shù)的進(jìn)步、優(yōu)化GPU服務(wù)器的適配以及推動中國企業(yè)在AI領(lǐng)域的競爭力。這將引領(lǐng)我們進(jìn)入一個全新的AI時代,為人工智能的發(fā)展開創(chuàng)更加廣闊的前景。

GPT-4六項技術(shù)創(chuàng)新

一、大參數(shù)+大數(shù)據(jù)+算法創(chuàng)新

參數(shù)擴(kuò)大是提升大語言模型(LLM)能力的關(guān)鍵因素。GPT-3首次將模型大小擴(kuò)展到175B參數(shù)規(guī)模。在語言模型的早期階段性能與模型規(guī)模大致呈線性關(guān)系,但當(dāng)模型規(guī)模達(dá)到一定程度時,任務(wù)性能會出現(xiàn)明顯的突變。大語言模型的基礎(chǔ)具有很強(qiáng)的可擴(kuò)展性,可以實現(xiàn)反復(fù)自我迭代。

wKgaomSc-T-AbJlDAAXLD_lgue4183.png

參數(shù)對大模型性能起到明顯作用

模型能力不僅取決于模型大小,還與數(shù)據(jù)規(guī)模和總計算量有關(guān)。此外,預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量對于實現(xiàn)良好性能至關(guān)重要。

wKgZomSc-UCAQOAFAAJlPk_DQxI931.png

大模型主要利用各種公共文本數(shù)據(jù)集做預(yù)訓(xùn)練

預(yù)訓(xùn)練語料庫來源可以大致分為兩類:通用數(shù)據(jù)和專業(yè)數(shù)據(jù)。通用數(shù)據(jù)包括網(wǎng)頁、書籍和對話文本等,由于其規(guī)模龐大、多樣化且易于獲取,被廣泛用于大型語言模型,可以增強(qiáng)語言建模和泛化能力。專業(yè)數(shù)據(jù)則包括多語言數(shù)據(jù)、科學(xué)數(shù)據(jù)和代碼等,使得語言模型具備解決特定任務(wù)的能力。

wKgaomSc-UCAKHSpAAIDSqp4Zu4556.png

預(yù)訓(xùn)練大語言模型典型的數(shù)據(jù)處理過程

成功訓(xùn)練一個強(qiáng)大的大語言模型(LLM)是具有挑戰(zhàn)性的。為了實現(xiàn)LLM的網(wǎng)絡(luò)參數(shù)學(xué)習(xí),通常需要采用多種并行策略。一些優(yōu)化框架如Transformer、DeepSpeed和Megatron-LM已經(jīng)發(fā)布,以促進(jìn)并行算法的實現(xiàn)和部署。此外,優(yōu)化技巧對于訓(xùn)練的穩(wěn)定性和模型性能也至關(guān)重要。

目前,常用于訓(xùn)練LLM的庫包括Transformers、DeepSpeed、Megatron-LM、JAX、Colossal-AI、BMTrain和FastMoe等。此外,現(xiàn)有的深度學(xué)習(xí)框架如PyTorch、TensorFlow、MXNet、PaddlePaddle、MindSpore和OneFlow也提供對并行算法的支持。

wKgZomSc-UGATFgUAAZC67AtZmM696.png

二、Transformer

Transformer是由Google在2017年的論文《Attention is All You Need》中提出的,GPT和BERT都采用Transformer模型。Transformer基于顯著性的注意力機(jī)制為輸入序列中的任何位置提供上下文信息,使得它具有強(qiáng)大的全局表征能力、高度并行性、位置關(guān)聯(lián)操作不受限,通用性強(qiáng),可擴(kuò)展性強(qiáng)等優(yōu)勢,從而使得GPT模型具有優(yōu)異的表現(xiàn)。

wKgaomSc-UGASxhvAATvnExmpCY050.png

自注意力機(jī)制(Self-Attention)允許模型在處理每個詞(輸入序列中的每個位置)時,不僅關(guān)注當(dāng)前位置的詞,還能關(guān)注句子中其他位置的詞,從而更好地編碼這個詞。這種機(jī)制使得模型能夠記住單詞與哪些單詞在同一句話中共同出現(xiàn)。Transformer模型基于自注意力機(jī)制,學(xué)習(xí)單詞之間共同出現(xiàn)的概率。在輸入語料后,Transformer可以輸出單詞與單詞共同出現(xiàn)的概率,并且能夠捕捉到長距離上下文中詞與詞之間的雙向關(guān)系。

wKgZomSc-UKAMw0uAAI078bk00s928.png

三、RLHF

RLHF(Reinforcement Learning with Human Feedback)是ChatGPT所采用的關(guān)鍵技術(shù)之一。它是強(qiáng)化學(xué)習(xí)(RL)的一個擴(kuò)展分支,將人類的反饋信息融入到訓(xùn)練過程中。通過利用這些反饋信息構(gòu)建一個獎勵模型神經(jīng)網(wǎng)絡(luò),RLHF為RL智能體提供獎勵信號,以幫助其學(xué)習(xí)。這種方法可以更加自然地將人類的需求、偏好和觀念等信息以交互式的學(xué)習(xí)方式傳達(dá)給智能體,以對齊人類和人工智能之間的優(yōu)化目標(biāo),從而產(chǎn)生與人類行為方式和價值觀一致的系統(tǒng)。

wKgaomSc-UKAXUhSAAKL0YVnC78491.png

四、Prompt

"提示"是一種給予預(yù)訓(xùn)練語言模型的線索,旨在幫助其更好地理解人類的問題。通過在輸入中添加額外的文本(clue/prompt),可以更充分地利用預(yù)訓(xùn)練模型中的知識。

Prompt的案例演示

提示學(xué)習(xí)的基本流程包括四個步驟:提示構(gòu)造、答案構(gòu)造、答案預(yù)測和答案-標(biāo)簽映射。提示學(xué)習(xí)的優(yōu)勢主要體現(xiàn)在以下幾個方面:1)對預(yù)訓(xùn)練模LM的利用率高;2)小樣本場景訓(xùn)練效果提升;3)fine-tune成本大幅度下降等。

wKgaomSc-UOAI8DHAAMh3Q7fClY681.png

Promtptuning 與 pre-trainandfine-tune 對 比

語境學(xué)習(xí)(in-context learning, ICL)是一種特殊的提示形式,首次與GPT-3一起提出,并已成為一種典型的利用預(yù)訓(xùn)練語言模型的方法。在語境學(xué)習(xí)中,首先從任務(wù)描述中選擇一些示例作為演示。然后,將這些示例按照特定的順序組合起來,形成具有特殊設(shè)計模板的自然語言提示。最后,測試實例被添加到演示中,作為預(yù)訓(xùn)練語言模型生成輸出的輸入。基于這些任務(wù)演示,預(yù)訓(xùn)練語言模型可以在不需要顯式梯度更新的情況下識別并執(zhí)行新任務(wù)。

wKgZomSc-USARzr-AAMYhcIvg0A625.png

情境學(xué)習(xí) ( ICL ) 與思維鏈 ( CoT ) 提示的比較研究

五、插件

由于預(yù)訓(xùn)練語言模型(LLM)是在大量純文本語料庫上進(jìn)行訓(xùn)練,因此在非文本生成方面(如數(shù)值計算)的表現(xiàn)可能不佳。此外,LLM的能力受限于預(yù)訓(xùn)練數(shù)據(jù),無法捕捉最新信息。為了解決這些問題,ChatGPT引入了外部插件機(jī)制,以幫助ChatGPT獲取最新信息、進(jìn)行計算或使用第三方服務(wù),類似于LLM的"眼睛和耳朵",從而廣泛擴(kuò)展LLM的能力范圍。

截至2023年5月,ChatGPT進(jìn)行更新,包括網(wǎng)絡(luò)瀏覽功能和70個測試版插件。這一更新有望徹底改變ChatGPT的使用方式,涵蓋從娛樂和購物到求職和天氣預(yù)報等各個領(lǐng)域。ChatGPT建立了一個社區(qū),供插件開發(fā)者構(gòu)建ChatGPT插件,并在語言模型顯示的提示符中列出啟用的插件,并提供指導(dǎo)文檔,以指導(dǎo)模型如何使用每個插件。

wKgaomSc-USAS68KAAJ5KY6d2L0874.png

ChatGPT插件部分展示

六、系統(tǒng)工程

OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman表示,GPT-4是迄今為止人類最復(fù)雜的軟件系統(tǒng)。隨著預(yù)訓(xùn)練語言模型(LLM)的發(fā)展,研發(fā)和工程之間的界限變得模糊不清。LLM的訓(xùn)練需要廣泛的大規(guī)模數(shù)據(jù)處理和分布式并行訓(xùn)練經(jīng)驗。開發(fā)LLM的研究人員必須解決復(fù)雜的工程問題,并與工程師緊密合作或成為工程師本身。

wKgZomSc-USAY407AAREpkPkNYU942.png

GPU為算力核心服務(wù)器為重要載體

一、服務(wù)器:AI算力的重要載體

服務(wù)器是指具備較高計算能力的計算機(jī),可以為多個用戶提供服務(wù)。與個人電腦不同,個人電腦通常只為一個用戶提供服務(wù)。服務(wù)器與主機(jī)也有所不同,主機(jī)是通過終端設(shè)備提供給用戶使用,而服務(wù)器則通過網(wǎng)絡(luò)給客戶端用戶提供服務(wù)。

wKgaomSc-UWAAiWvAABIZhLApGU129.png

服務(wù)器的主要分類

AI服務(wù)器是專門用于進(jìn)行人工智能(AI)計算的服務(wù)器。既可以支持本地應(yīng)用程序和網(wǎng)頁,也可以為云和本地服務(wù)提供復(fù)雜的AI模型和服務(wù)。其主要作用是為各種實時AI應(yīng)用提供實時計算服務(wù)。根據(jù)應(yīng)用場景的不同,AI服務(wù)器可以分為訓(xùn)練和推理兩種類型。訓(xùn)練型服務(wù)器對芯片算力要求更高,而推理型服務(wù)器對算力的要求相對較低。

wKgZomSc-UWAVjyDAAeztHgNb24714.png

NVIDIA A100服務(wù)器

藍(lán)海大腦高性能大模型訓(xùn)練平臺利用工作流體作為中間熱量傳輸?shù)拿浇椋瑢崃坑蔁釁^(qū)傳遞到遠(yuǎn)處再進(jìn)行冷卻。支持多種硬件加速器,包括CPU、GPU、FPGA和AI等,能夠滿足大規(guī)模數(shù)據(jù)處理和復(fù)雜計算任務(wù)的需求。采用分布式計算架構(gòu),高效地處理大規(guī)模數(shù)據(jù)和復(fù)雜計算任務(wù),為深度學(xué)習(xí)、高性能計算、大模型訓(xùn)練、大型語言模型(LLM)算法的研究和開發(fā)提供強(qiáng)大的算力支持。具有高度的靈活性和可擴(kuò)展性,能夠根據(jù)不同的應(yīng)用場景和需求進(jìn)行定制化配置。可以快速部署和管理各種計算任務(wù),提高了計算資源的利用率和效率。

wKgaomSc-UaAEIjRAAEzvmyCWfw25.jpeg

1、全球服務(wù)器市場

根據(jù)Counterpoint的報告,預(yù)計到2022年,全球服務(wù)器市場的收入將同比增長17%,達(dá)到1117億美元。在該市場中,主要的服務(wù)器公司包括戴爾、惠普、聯(lián)想、浪潮和超微以及ODM廠商如富士康、廣達(dá)、緯創(chuàng)和英業(yè)達(dá)。ODM Direct的增長速度比整體市場高出3個百分點,因此ODM Direct將成為大規(guī)模數(shù)據(jù)中心部署的硬件選擇。根據(jù)IDC的數(shù)據(jù)預(yù)測,2022年市場規(guī)模約為183億美元,而2023年市場規(guī)模將達(dá)到211億美元。在市場份額方面,浪潮信息占據(jù)了20.2%的份額,其次是戴爾、HPE、聯(lián)想和華為,它們的市場份額分別為13.8%、9.8%、6.1%和4.8%。

wKgZomSc-UaARBDcAAHr9dRojSk146.png

2021年全球各服務(wù)器公司收入(單位:百萬美元)

2、中國服務(wù)器市場

據(jù)數(shù)據(jù)顯示,2022年中國服務(wù)器市場規(guī)模達(dá)到273.4億美元。在這個市場中,浪潮以28.1%的市場份額位居第一,收入達(dá)到530.63億美元。根據(jù)IDC的數(shù)據(jù),2022年中國加速服務(wù)器市場規(guī)模達(dá)到67億美元,同比增長24%。浪潮、新華三和寧暢是市場中的前三名,它們占據(jù)了市場份額的60%以上。互聯(lián)網(wǎng)行業(yè)仍然是采購加速服務(wù)器的最大行業(yè),占據(jù)了整體市場接近一半的份額。

wKgaomSc-UeAQMCIAAIx3-H_4xA172.png

2022年中國AI服務(wù)器市場份額

二、GPU:AI算力的核心

在訓(xùn)練大型模型時,超大規(guī)模的計算能力是必不可少的,而GPU是其中的核心。沒有GPU卡,訓(xùn)練大型模型幾乎是不可能的。

wKgZomSc-UeAbabxAADq13suHPE40.jpeg

AI芯片是算力的核心也被稱為AI加速器或計算卡,專門用于處理人工智能應(yīng)用中的大量計算任務(wù)(而其他非計算任務(wù)則由CPU負(fù)責(zé))。隨著數(shù)據(jù)量的急劇增長、算法模型的復(fù)雜化以及處理對象的異構(gòu)性,對計算性能的要求也越來越高。

據(jù)數(shù)據(jù)顯示,2022年我國的AI服務(wù)器中,GPU服務(wù)器占據(jù)89%的份額。目前,GPU是最廣泛應(yīng)用的AI芯片之一。除了GPU,AI芯片還包括現(xiàn)場可編程門陣列(FPGA)、專用集成電路ASIC)和神經(jīng)擬態(tài)芯片(NPU)等。GPU是一種通用型芯片,而ASIC是一種專用型芯片,而FPGA則處于兩者之間,具有半定制化的特點。

wKgaomSc-UiAZ6muAALGp7KNL9M731.png

不同AI芯片之間對比

圖形處理器(GPU)是一種專門用于執(zhí)行繪圖運算的微處理器,也被稱為顯示核心、視覺處理器、顯示芯片或圖形芯片。它擁有數(shù)百或數(shù)千個內(nèi)核,并經(jīng)過優(yōu)化,能夠并行執(zhí)行大量計算任務(wù)。盡管GPU在游戲中以3D渲染而聞名,但它們在運行分析、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法方面尤為有用。相比傳統(tǒng)的CPU,GPU可以使某些計算速度提高10倍至100倍。GPGPU是一種將GPU的圖形處理能力應(yīng)用于通用計算領(lǐng)域的處理器。

wKgZomSc-UiANzY1AAg9pANJMg8205.png

英偉達(dá)數(shù)據(jù)中心GPU類別

在2023年,英偉達(dá)的全球收入達(dá)到269.7億美元。其中,圖形業(yè)務(wù)部門的收入約為119億美元,而計算與網(wǎng)絡(luò)部門的收入為151億美元。在2023年第一季度(Q1 FY24),英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)營收達(dá)到42.8億美元,創(chuàng)下歷史新高,同比增長14%,環(huán)比增長18%。

wKgaomSc-UmAK2sIAAGIAfJMf1Q603.png

三、英偉達(dá)大模型訓(xùn)練GPU全系列介紹

自O(shè)penAI發(fā)布ChatGPT以來,生成式人工智能技術(shù)一直是備受關(guān)注的熱門趨勢。這項技術(shù)需要強(qiáng)大的算力來生成文本、圖像、視頻等內(nèi)容。在這個背景下,算力成為人工智能領(lǐng)域的必備條件,而英偉達(dá)作為芯片巨頭所生產(chǎn)的人工智能芯片在其中扮演著至關(guān)重要的角色。英偉達(dá)先后推出V100、A100和H100等多款用于AI訓(xùn)練的芯片,并為了符合美國標(biāo)準(zhǔn),推出了A800和H800這兩款帶寬縮減版產(chǎn)品,在中國大陸市場銷售。

V100是英偉達(dá)公司推出的高性能計算和人工智能加速器,屬于Volta架構(gòu)系列。它采用16nm FinFET工藝,擁有5120個CUDA核心和16GB到32GB的HBM2顯存。V100還配備Tensor Cores加速器,可提供高達(dá)120倍的深度學(xué)習(xí)性能提升。此外,V100支持NVLink技術(shù),實現(xiàn)高速的GPU到GPU通信,加速大規(guī)模模型的訓(xùn)練速度。V100被廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場景,包括自然語言處理、計算機(jī)視覺語音識別等領(lǐng)域。

A100是英偉達(dá)推出的一款強(qiáng)大的數(shù)據(jù)中心GPU,采用全新的Ampere架構(gòu)。它擁有高達(dá)6,912個CUDA核心和40GB的高速HBM2顯存。A100還包括第二代NVLink技術(shù),實現(xiàn)快速的GPU到GPU通信,提升大型模型的訓(xùn)練速度。此外,A100還支持英偉達(dá)自主研發(fā)的Tensor Cores加速器,可提供高達(dá)20倍的深度學(xué)習(xí)性能提升。A100廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場景,包括自然語言處理、計算機(jī)視覺和語音識別等領(lǐng)域。

在大模型訓(xùn)練中,V100和A100都是非常強(qiáng)大的GPU。以下是它們的主要區(qū)別和優(yōu)勢:

1、架構(gòu)

V100和A100在架構(gòu)上有所不同。V100采用Volta架構(gòu),而A100則采用全新的Ampere架構(gòu)。Ampere架構(gòu)相對于Volta架構(gòu)進(jìn)行一些改進(jìn),包括更好的能源效率和全新的Tensor Core加速器設(shè)計等,這使得A100在某些場景下可能表現(xiàn)出更出色的性能。

2、計算能力

A100配備高達(dá)6,912個CUDA核心,比V100的5120個CUDA核心更多。這意味著A100可以提供更高的每秒浮點運算數(shù)(FLOPS)和更大的吞吐量,從而在處理大型模型和數(shù)據(jù)集時提供更快的訓(xùn)練速度。

3、存儲帶寬

V100的內(nèi)存帶寬約為900 GB/s,而A100的內(nèi)存帶寬達(dá)到了更高的1555 GB/s。高速內(nèi)存帶寬可以降低數(shù)據(jù)傳輸瓶頸,提高訓(xùn)練效率,因此A100在處理大型數(shù)據(jù)集時可能表現(xiàn)更出色。

4、存儲容量

V100最高可擁有32GB的HBM2顯存,而A100最高可擁有80GB的HBM2顯存。由于大模型通常需要更多內(nèi)存來存儲參數(shù)和梯度,A100的更大內(nèi)存容量可以提供更好的性能。

5、通信性能

A100支持第三代NVLink技術(shù),實現(xiàn)高速的GPU到GPU通信,加快大模型訓(xùn)練的速度。此外,A100還引入Multi-Instance GPU (MIG)功能,可以將單個GPU劃分為多個相互獨立的實例,進(jìn)一步提高資源利用率和性能。

總的來說,A100在處理大型模型和數(shù)據(jù)集時可能比V100表現(xiàn)更優(yōu)秀,但是在實際應(yīng)用中,需要結(jié)合具體場景和需求來選擇合適的GPU。

wKgZomSc-UmAZgCNAAxiEkKI67M956.png

數(shù)據(jù)中心算力瓶頸光模塊需求放量

即使單卡的性能再強(qiáng)大,如果網(wǎng)絡(luò)性能無法跟上,也只能無奈地等待。而且,隨著集群規(guī)模的擴(kuò)大,網(wǎng)絡(luò)帶來的算力損耗也會變得更加明顯。傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)在傳輸數(shù)據(jù)時需要經(jīng)過多層協(xié)議棧的處理:需要反復(fù)停下來檢查、分揀和打包數(shù)據(jù),這使得通信效率非常低下。

一、英偉達(dá)布局InfiniBand

數(shù)據(jù)通信設(shè)備是指能夠?qū)崿F(xiàn)IP網(wǎng)絡(luò)接入終端、局域網(wǎng)、廣域網(wǎng)間連接、數(shù)據(jù)交換以及提供相關(guān)安全防護(hù)功能的通信設(shè)備,包括交換機(jī)、路由器和WLAN等。交換機(jī)和路由器是其中最重要的設(shè)備。這些網(wǎng)絡(luò)設(shè)備構(gòu)成了互聯(lián)網(wǎng)基礎(chǔ)的物理設(shè)施層,是信息化建設(shè)所必需的基礎(chǔ)架構(gòu)產(chǎn)品。

網(wǎng)絡(luò)設(shè)備制造服務(wù)行業(yè)的上游主要包括芯片、PCB電源和各類電子元器件等生產(chǎn)商。直接下游是各網(wǎng)絡(luò)設(shè)備品牌商。而終端下游涵蓋了運營商、政府、金融、教育、能源、電力、交通、中小企業(yè)、醫(yī)院等各個行業(yè)。

wKgZomSc-UqADAomAAAs8OYFDoc725.png

2017-2024年中國網(wǎng)絡(luò)設(shè)備市場規(guī)模統(tǒng)計(億美元)

在網(wǎng)絡(luò)設(shè)備行業(yè)中,競爭格局呈現(xiàn)出高度集中的情況。思科、華為、新華三等少數(shù)幾家企業(yè)占據(jù)絕大部分的市場份額,形成寡頭競爭的市場格局。隨著人工智能和高性能計算需求的不斷增長,對多節(jié)點、多GPU系統(tǒng)的高速通信需求也日益提升。為構(gòu)建強(qiáng)大、能夠滿足業(yè)務(wù)速度要求的端到端計算平臺,快速且可擴(kuò)展的互連網(wǎng)絡(luò)變得至關(guān)重要。

wKgaomSc-UqAJVNgAAJ7wCOuvNE770.png

2021年全球及中國交換機(jī)行業(yè)市場份額情況

在人工智能領(lǐng)域中,通信已經(jīng)成為算力的瓶頸。盡管AI加速器可以通過簡化或刪除其他部分來提高硬件的峰值計算能力,但卻難以解決內(nèi)存和通信方面的難題。不論是芯片內(nèi)部、芯片間還是AI加速器之間的通信,都已經(jīng)成為AI訓(xùn)練過程中的限制因素。

在過去的20年中,計算設(shè)備的算力提高了90,000倍,存儲器從DDR發(fā)展到GDDR6x,接口標(biāo)準(zhǔn)從PCIe1.0a升級到NVLink3.0。然而,與此相比,通信帶寬的增長只有30倍。

wKgZomSc-UuADcP7AAUkarwa2PQ301.png

通信帶寬的提升速度遠(yuǎn)低于計算提升的速度

NVLink是NVIDIA開發(fā)的一種高帶寬、高能效、低延遲、無損的GPU到GPU互連技術(shù)。它具備彈性特性,包括鏈路級錯誤檢測和數(shù)據(jù)包回放機(jī)制,確保數(shù)據(jù)的可靠傳輸。

與上一代相比,第四代NVLink可將全局操作的帶寬提升3倍,并提高通用帶寬50%。單個NVIDIA H100 Tensor Core GPU最多支持18個NVLink連接,多GPU之間的總帶寬可達(dá)900GB/s,是PCIe 5.0的7倍。

wKgaomSc-UuAQyQMAAQtmz0Ed-A348.png

NVLink 鏈接圖

NVSwitch是英偉達(dá)開發(fā)的一種技術(shù),包括位于節(jié)點內(nèi)部和外部的交換機(jī),用于連接多個GPU在服務(wù)器、集群和數(shù)據(jù)中心環(huán)境中的使用。每個節(jié)點內(nèi)的NVSwitch具有64個第四代NVLink鏈路端口,可以加速多個GPU之間的連接。新一代的NVSwitch技術(shù)將交換機(jī)的總吞吐量從上一代的7.2Tb/s提升到13.6Tb/s。

英偉達(dá)結(jié)合全新的NVLink和NVSwitch技術(shù),構(gòu)建了大型的NVLink Switch系統(tǒng)網(wǎng)絡(luò),實現(xiàn)了前所未有的通信帶寬水平。該系統(tǒng)最多支持256個GPU,并且互連節(jié)點能夠提供57.6TB的多對多帶寬,為高達(dá)1 exaFLOP級別的FP8稀疏計算提供了強(qiáng)大的計算能力。

wKgZomSc-UyAT6j6AAbkwr55bEY786.png

基于 DGX A100 與 DGX H100 的 32 節(jié)點、256 GPU NVIDIA SuperPOD對比

InfiniBand是一種用于高性能計算的計算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),具有高帶寬和低延遲的特點。主要應(yīng)用于高性能計算、高性能集群應(yīng)用服務(wù)器和高性能存儲等領(lǐng)域。為了加強(qiáng)在InfiniBand領(lǐng)域的投入,英偉達(dá)在2019年以69億美元收購了Mellanox。這一新架構(gòu)為AI開發(fā)者和科學(xué)研究人員提供了超強(qiáng)的網(wǎng)絡(luò)性能和豐富的功能。通過這一技術(shù),用戶可以獲得更快速、更可靠的網(wǎng)絡(luò)連接,以支持他們在人工智能領(lǐng)域的工作和研究。

wKgaomSc-UyAHfPEAAAiBmI38dg286.png

InfiniBand廣泛應(yīng)用于全球超算中心

二、光模塊:網(wǎng)絡(luò)核心器件,AI訓(xùn)練提振800G需求

預(yù)計英偉達(dá)的H100 GPU與800G光模塊在計算力網(wǎng)絡(luò)中的比例將根據(jù)不同層級而有所不同。在服務(wù)器層,預(yù)計GPU與800G光模塊的比例將為1:1;在交換機(jī)層,預(yù)計該比例將為1:2。考慮到核心層交換機(jī)、管理網(wǎng)絡(luò)、存儲網(wǎng)絡(luò)等因素,以及安裝率的相關(guān)考慮,整體而言,預(yù)計英偉達(dá)H100 GPU與800G光模塊的比例將大約在1:2至1:4之間。這種配置將確保在計算力網(wǎng)絡(luò)中實現(xiàn)高效的通信和數(shù)據(jù)傳輸。

wKgZomSc-U2ANxz9AAm7MeOkyrg863.png

DGX H100 數(shù)據(jù)網(wǎng)絡(luò)配置圖

2023年5月,英偉達(dá)推出DGX GH200,GH200是將 256 個NVIDIA Grace Hopper超級芯片完全連接,旨在處理用于大 規(guī)模推薦系統(tǒng)、生成式人工智能和圖形分析的太字節(jié)級模型。NVLink交換系統(tǒng)采用兩級、無阻塞、胖樹結(jié)構(gòu)。如下圖:L1和L2層分為96和32臺交換機(jī),承載Grace Hopper超級芯片 的計算底板使用NVLink fabric第一層的定制線纜連接到NVLink交換機(jī)系統(tǒng)。LinkX電纜擴(kuò)展了NVLink fabric的第二層連 接。我們預(yù)計GH200的推出將進(jìn)一步促進(jìn)800G光模塊的需求增長。

wKgaomSc-U2AJ6SjAASagr2Ij1o912.png

DGX GH200通過NVLink將256個GPU完全聯(lián)接

爭奪AI入場券中國大公司競逐GPU

全球范圍內(nèi),英偉達(dá)GPU的競爭非常激烈。然而,海外巨頭在GPU采購方面比較早,并且采購量更大,近年來的投資也相對連續(xù)。中國的大型公司對于GPU的需求和投資動作比海外巨頭更為急迫。以百度為例,今年向英偉達(dá)下單的GPU訂單數(shù)量高達(dá)上萬塊。盡管百度的規(guī)模要小得多,去年的營收僅為1236億元人民幣,相當(dāng)于Google的6%。然而,這顯示出中國大公司在GPU領(lǐng)域的迅速發(fā)展和巨大需求。

據(jù)了解,字節(jié)、騰訊、阿里和百度是中國投入最多的AI和云計算科技公司。在過去,它們累計擁有上萬塊A100 GPU。其中,字節(jié)擁有的A100數(shù)量最多。不計算今年的新增訂單,字節(jié)擁有接近10萬塊A100和前代產(chǎn)品V100。成長期的公司商湯也宣稱,其“AI大裝置”計算集群中已經(jīng)部署了2.7萬塊GPU,其中包括1萬塊A100。即使是看似與AI無關(guān)的量化投資公司幻方,也購買1萬塊A100。

從總數(shù)來看,這些GPU似乎足夠供各公司訓(xùn)練大型模型使用。根據(jù)英偉達(dá)官方網(wǎng)站的案例,OpenAI在訓(xùn)練具有1750億參數(shù)的GPT-3時使用了1萬塊V100,但訓(xùn)練時間未公開。根據(jù)英偉達(dá)的估算,如果使用A100來訓(xùn)練GPT-3,需要1024塊A100進(jìn)行一個月的訓(xùn)練,而A100相比V100性能提升4.3倍。

中國的大型公司過去采購的大量GPU主要用于支撐現(xiàn)有業(yè)務(wù)或在云計算平臺上銷售,不能自由地用于開發(fā)大模型或滿足客戶對大模型的需求。這也解釋了中國AI從業(yè)者對計算資源估算存在巨大差異。清華智能產(chǎn)業(yè)研究院院長張亞勤在4月底參加清華論壇時表示:“如果將中國的算力加起來,相當(dāng)于50萬塊A100,可以輕松訓(xùn)練五個模型。”

AI公司曠視科技的CEO印奇在接受《財新》采訪時表示,中國目前可用于大型模型訓(xùn)練的A100總數(shù)只有約4萬塊。這反映了中國和外國大型公司在計算資源方面的數(shù)量級差距,包括芯片、服務(wù)器和數(shù)據(jù)中心等固定資產(chǎn)投資。最早開始測試ChatGPT類產(chǎn)品的百度,在過去幾年的年度資本開支在8億到20億美元之間,阿里在60億到80億美元之間,騰訊在70億到110億美元之間。

與此同時,亞馬遜、Meta、Google和微軟這四家美國科技公司的自建數(shù)據(jù)中心的年度資本開支最低也超過150億美元。在過去三年的疫情期間,海外公司的資本開支持續(xù)增長。亞馬遜去年的資本開支已達(dá)到580億美元,Meta和Google分別為314億美元,微軟接近240億美元。而中國公司的投資在2021年后開始收縮。騰訊和百度去年的資本開支同比下降超過25%。

中國公司若想長期投入大模型并賺取更多利潤,需要持續(xù)增加GPU資源。就像OpenAI一樣,他們面臨著GPU不足的挑戰(zhàn)。OpenAI的CEO Sam Altman在與開發(fā)者交流時表示,由于GPU不夠,他們的API服務(wù)不夠穩(wěn)定,速度也不夠快。

在獲得更多GPU之前,GPT-4的多模態(tài)能力無法滿足每個用戶的需求。同樣,微軟也面臨類似的問題。微軟與OpenAI合作密切,他們的新版Bing回答速度變慢,原因是GPU供應(yīng)跟不上用戶增長的速度。

微軟Office 365 Copilot嵌入了大型模型的能力,目前還沒有大規(guī)模開放,只有600多家企業(yè)在試用。考慮到全球近3億的Office 365用戶數(shù)量,中國大公司如果想利用大型模型創(chuàng)造更多服務(wù),并支持其他客戶在云上進(jìn)行更多大型模型的訓(xùn)練,就需要提前儲備更多的GPU資源。

AI大模型訓(xùn)練常用顯卡

目前,在AI大型模型訓(xùn)練方面,A100、H100以及其特供中國市場的減配版A800、H800幾乎沒有替代品。根據(jù)量化對沖基金Khaveen Investments的測算,到2022年,英偉達(dá)在數(shù)據(jù)中心GPU市場的占有率將達(dá)到88%,而AMD和英特爾將瓜分剩下的市場份額。

英偉達(dá)GPU目前的不可替代性源于大模型的訓(xùn)練機(jī)制,其中關(guān)鍵步驟包括預(yù)訓(xùn)練和微調(diào)。預(yù)訓(xùn)練是為模型打下基礎(chǔ),相當(dāng)于接受通識教育直至大學(xué)畢業(yè);微調(diào)則是為了優(yōu)化模型以適應(yīng)具體場景和任務(wù),提升其工作表現(xiàn)。

預(yù)訓(xùn)練階段特別需要大量計算資源,對單個GPU的性能和多卡之間的數(shù)據(jù)傳輸能力有非常高的要求。目前只有A100和H100能夠提供預(yù)訓(xùn)練所需的高效計算能力,盡管價格昂貴,但實際上是最經(jīng)濟(jì)的選擇。在AI商業(yè)應(yīng)用仍處于早期階段,成本直接影響著服務(wù)的可用性。

過去的一些模型,如VGG16可以識別貓是貓,其參數(shù)量僅為1.3億,當(dāng)時一些公司會使用消費級顯卡(如RTX系列)來運行AI模型。然而,隨著GPT-3等大型模型的發(fā)布,參數(shù)規(guī)模已經(jīng)達(dá)到1750億。由于大型模型需要巨大的計算資源,使用更多低性能的GPU來組合計算力已經(jīng)不再可行。

在使用多個GPU進(jìn)行訓(xùn)練時,需要在芯片之間傳輸數(shù)據(jù)并同步參數(shù)信息,這導(dǎo)致部分GPU處于閑置狀態(tài),無法充分發(fā)揮工作能力。因此,使用性能較低的GPU越多,計算力的損耗就越大。OpenAI在使用1萬塊V100 GPU進(jìn)行GPT-3訓(xùn)練時,算力利用率不到50%。而A100和H100既具有單卡高算力,又具備提升卡間數(shù)據(jù)傳輸?shù)母邘捘芰Α100的FP32算力達(dá)到19.5 TFLOPS(1 TFLOPS相當(dāng)于每秒進(jìn)行一萬億次浮點運算),而H100的FP32算力更高,達(dá)到134 TFLOPS,是競爭對手AMD MI250的約4倍。

A100、H100 還提供高效數(shù)據(jù)傳輸能力,盡可能減少算力閑置。英偉達(dá)的獨家秘籍是自 2014 年起陸續(xù)推出的 NVLink、NVSwitch 等通信協(xié)議技術(shù)。用在 H100 上的第四代 NVLink 可將同一服務(wù)器內(nèi)的 GPU 雙向通信帶寬提升至 900 GB/s(每秒傳輸 900GB 數(shù)據(jù)),是最新一代 PCle(一種點對點高速串行傳輸標(biāo)準(zhǔn))的 7 倍多。

去年美國商務(wù)部對GPU的出口規(guī)定主要限制了算力和帶寬兩個方面:算力上限為4800 TOPS,帶寬上限為600 GB/s。A800和H800的算力與原版相當(dāng),但帶寬有所降低。

A800的帶寬從A100的600GB/s降至400GB/s,H800的具體參數(shù)尚未公開,據(jù)報道,它的帶寬僅為H100(900 GB/s)的約一半。執(zhí)行相同的AI任務(wù)時,H800可能比H100多花費10%至30%的時間。一位AI工程師推測,H800的訓(xùn)練效果可能不如A100,但價格更高。

wKgaomSc-U6AHYN0AAAj4luh_pA065.png

大模型訓(xùn)練工作站常用配置

盡管如此,A800和H800的性能仍然超過其他大公司和創(chuàng)業(yè)公司的同類產(chǎn)品。受限于性能和更專用的架構(gòu),各公司推出的AI芯片或GPU芯片主要用于AI推理,難以勝任大型模型的預(yù)訓(xùn)練任務(wù)。簡而言之,AI訓(xùn)練是創(chuàng)建模型,而AI推理是使用模型,因此訓(xùn)練對芯片性能的要求更高。

除了性能差距外,NVIDIA的更大競爭優(yōu)勢在于其軟件生態(tài)系統(tǒng)。早在2006年,NVIDIA推出了計算平臺CUDA,它是一個并行計算軟件引擎,開發(fā)者可以使用CUDA更高效地進(jìn)行AI訓(xùn)練和推理,充分發(fā)揮GPU的計算能力。如今,CUDA已成為AI基礎(chǔ)設(shè)施的標(biāo)準(zhǔn),主流的AI框架、庫和工具都是基于CUDA進(jìn)行開發(fā)的。

而其他GPU和AI芯片如果要接入CUDA,就需要自己提供適配軟件,但它們只能獲得部分CUDA的性能,并且更新迭代的速度較慢。一些AI框架如PyTorch正在嘗試打破CUDA的軟件生態(tài)壟斷,提供更多的軟件功能以支持其他廠商的GPU,但對開發(fā)者的吸引力有限。一位AI從業(yè)者提到,他所在的公司曾考慮使用一家非NVIDIA的GPU廠商,對方的芯片和服務(wù)報價更低,也承諾提供更及時的支持,但他們最終判斷,使用其他GPU會導(dǎo)致整體訓(xùn)練和開發(fā)成本高于使用NVIDIA,并且還需要承擔(dān)結(jié)果的不確定性和花費更多的時間。“雖然A100的價格高,但實際使用起來是最經(jīng)濟(jì)的。”他說道。

對于那些有意抓住大型模型機(jī)會的大型科技公司和領(lǐng)先的創(chuàng)業(yè)公司來說,金錢通常不是問題,時間才是最寶貴的資源。在短期內(nèi),唯一可能影響NVIDIA數(shù)據(jù)中心GPU銷量的因素可能只有臺積電的產(chǎn)能。

H100/800和A100/800芯片都采用了臺積電的4納米和7納米制程。根據(jù)臺灣媒體報道,今年英偉達(dá)向臺積電增加了1萬片數(shù)據(jù)中心GPU訂單,并且下達(dá)了超急件,生產(chǎn)時間可以縮短最多50%。通常情況下,臺積電生產(chǎn)A100芯片需要數(shù)月時間。目前的生產(chǎn)瓶頸主要在于先進(jìn)封裝的產(chǎn)能不足,缺口達(dá)到了10%至20%,需要逐步提升產(chǎn)能,可能需要3至6個月的時間。

自從并行計算適用的GPU被引入深度學(xué)習(xí)領(lǐng)域以來,硬件和軟件一直是推動AI發(fā)展的動力。GPU的計算能力與模型和算法的發(fā)展相互促進(jìn):模型的發(fā)展推動了對計算能力的需求增長,而計算能力的增長則使得原本難以實現(xiàn)的大規(guī)模訓(xùn)練成為可能。在以圖像識別為代表的上一波深度學(xué)習(xí)熱潮中,中國的AI軟件能力已經(jīng)與全球最前沿水平不相上下;而目前的難點在于計算能力——設(shè)計和制造芯片需要積累更長的時間,涉及到復(fù)雜的供應(yīng)鏈和眾多的專利壁壘。


審核編輯黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31711

    瀏覽量

    270507
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3854

    瀏覽量

    92076
  • Agi
    Agi
    +關(guān)注

    關(guān)注

    0

    文章

    88

    瀏覽量

    10259
  • 高性能計算
    +關(guān)注

    關(guān)注

    0

    文章

    84

    瀏覽量

    13448
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2603

    瀏覽量

    3215
  • A800
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    280
  • H800
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    268
收藏 人收藏

    評論

    相關(guān)推薦

    英偉達(dá)a100h100哪個強(qiáng)?英偉達(dá)A100H100的區(qū)別

    基于Ampere架構(gòu)的GPU計算加速器,專為高性能計算、人工智能和機(jī)器學(xué)習(xí)等領(lǐng)域而設(shè)計。它擁有高達(dá)6912個CUDA核心(32GB版本)
    的頭像 發(fā)表于 08-09 17:31 ?4.8w次閱讀

    英偉達(dá)將向中國推出芯片A800可替代被禁的A100

    此前被禁止出貨的A100 GPU一種替代產(chǎn)品。業(yè)內(nèi)預(yù)計A800 GPU的某些性能肯定會被限制或閹割。 對于上市時間的話預(yù)計A800 GPU將在第三季度投產(chǎn)。 此前
    的頭像 發(fā)表于 11-08 16:07 ?3359次閱讀

    英偉達(dá)推出A800 GPU,為了能賣給中國客戶,對A100“砍了一刀”...

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)當(dāng)?shù)貢r間本周一,英偉達(dá)官方確認(rèn)將面向中國客戶推出一款型號為A800的GPU,以替代此前受到出口管制的A100 GPU芯片。英偉
    的頭像 發(fā)表于 11-09 07:15 ?8444次閱讀

    英偉達(dá)確認(rèn):對華特供「低配版」A800芯片,可替代A100

    英偉達(dá)確認(rèn),已經(jīng)向中國提供新的計算圖形芯片A800,作為被禁運的A100的替代品,性能稍遜,但符
    的頭像 發(fā)表于 11-09 11:44 ?2764次閱讀

    英偉達(dá)a100h100哪個強(qiáng)?

    英偉達(dá)a100h100哪個強(qiáng)? 英偉達(dá)A100
    的頭像 發(fā)表于 08-07 17:32 ?1.6w次閱讀

    英偉達(dá)a100a800的區(qū)別

    英偉達(dá)a100a800的區(qū)別 英偉達(dá)A100
    的頭像 發(fā)表于 08-07 17:57 ?4.6w次閱讀

    英偉達(dá)a100a800參數(shù)對比

    英偉達(dá)a100a800參數(shù)對比 以下是英偉達(dá)A100
    的頭像 發(fā)表于 08-07 18:00 ?1.3w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>a100</b>和<b class='flag-5'>a800</b>參數(shù)對比

    英偉達(dá)A100的簡介

    英偉達(dá)A100的簡介 A100都是非常強(qiáng)大的GPU。英偉達(dá)A
    的頭像 發(fā)表于 08-08 15:17 ?9578次閱讀

    英偉達(dá)h800的參數(shù)介紹

    英偉達(dá)h800的參數(shù)介紹 英偉達(dá)H800是一款特供版本,是
    的頭像 發(fā)表于 08-08 15:38 ?3.2w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>h800</b>的參數(shù)介紹

    英偉達(dá)h800a100參數(shù)對比

    英偉達(dá)h800a100參數(shù)對比 NVIDIA H800A100是兩款高端的GPU產(chǎn)品,下面是
    的頭像 發(fā)表于 08-08 15:53 ?3.4w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>h800</b>和<b class='flag-5'>a100</b>參數(shù)對比

    英偉達(dá)h800a800的區(qū)別

    英偉達(dá)h800a800的區(qū)別 V100A100是非常強(qiáng)大的GPU。
    的頭像 發(fā)表于 08-08 15:59 ?7875次閱讀

    英偉達(dá)h800a100的區(qū)別

    英偉達(dá)h800a100的區(qū)別 NVIDIA H800A100是NVIDIA的兩種不同類型的G
    的頭像 發(fā)表于 08-08 16:05 ?1.8w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>h800</b>和<b class='flag-5'>a100</b>的區(qū)別

    英偉達(dá)h800h100的區(qū)別

    英偉達(dá)h800h100的區(qū)別 其實大白話就是,A100H100是原版,特供中國市場的減配版是
    的頭像 發(fā)表于 08-08 16:06 ?4.9w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>h800</b>和<b class='flag-5'>h100</b>的區(qū)別

    英偉達(dá)h800a800的區(qū)別

    英偉達(dá)h800a800的區(qū)別 英偉達(dá)H800
    的頭像 發(fā)表于 08-08 16:20 ?3.9w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>h800</b>和<b class='flag-5'>a800</b>的區(qū)別

    英偉達(dá)v100A100的差距有哪些?

    英偉達(dá)v100A100的差距有哪些? 在當(dāng)今人工智能和深度學(xué)習(xí)技術(shù)日益發(fā)展的時代,高性能計算機(jī)顯卡已成為支持這些技術(shù)發(fā)展的關(guān)鍵。
    的頭像 發(fā)表于 08-22 16:46 ?2.4w次閱讀
    主站蜘蛛池模板: 日本不卡高清免费v日本 | 1024手机在线看永久免费 | 在线看av的网址 | 狠狠色噜噜狠狠狠狠 | aa视频在线 | 成人午夜亚洲影视在线观看 | xx综合网| 欧美成人性高清观看 | 黄色三级录像 | 午夜性视频| 欧美伦理影院 | 色资源在线观看 | 欧美高清一级 | 手机福利视频 | 天堂在线中文无弹窗全文阅读 | 欧美在线区 | 久久国产精品网 | 午夜免费网址 | 轻点灬大ji巴太粗太长了爽文 | 888午夜不卡理论久久 | 天天骑天天干 | 人人爱操| 亚洲插插插 | 在线观看黄色的网站 | 久久国产乱子伦精品免费看 | 每日最新avhd101天天看新片 | 一级做a爱片特黄在线观看 一级做a爱片特黄在线观看免费看 | ts国产 | 中文天堂最新版www 中文天堂最新版在线精品 中文天堂最新版在线中文 中文天堂最新版资源新版天堂资源 | 婷婷九月色 | 天天干天天要 | 欧美一级爱操视频 | 免费看男女下面日出水视频 | 男女一级特黄a大片 | 婷婷在线观看网站 | 免费人成网址在线观看国内 | 中文字幕日本一区波多野不卡 | 极品国产一区二区三区 | 日韩高清毛片 | 91在线色 | 午夜精品久久久久久久四虎 |