小说,好看的小说,武道至尊帝临小说

電子發(fā)燒友網(wǎng)報道（文/黃晶晶）日前業(yè)界消息稱，DeepSeek正廣泛招募芯片設計人才，加速自研芯片布局，其芯片應用于端側或云側尚不明朗。不少科技巨頭已有自研芯片的動作，一方面是自研芯片能夠節(jié)省外購芯片的成本，掌握供應鏈主動權，另一方面隨著AI推理應用的爆發(fā)，AI推理芯片有機會被重新定義。

DeepSeek不完全依賴英偉達

去年12月底發(fā)布的DeepSeek-V3模型，整個訓練使用2048塊英偉達H800 GPU。H800是英偉達特供中國顯卡，相較于它的旗艦芯片H100降低了部分性能。也就是說DeepSeek-V3模型的訓練并不需要追求使用最尖端的GPU。

DeepSeek在訓練過程中采用了多種方法來優(yōu)化硬件利用效率。例如，通過繞過CUDA編程框架，直接使用英偉達的中間指令集框架Parallel Thread Execution (PTX)，DeepSeek能夠更高效地利用硬件資源，提供更細粒度的操作控制，從而避免由于CUDA的通用性導致的訓練靈活性損失。這種做法使得DeepSeek能夠在五天內完成其他模型需要十天才能完成的訓練任務，極大地提高了訓練效率。

DeepSeek的V3和R1大模型得到了不少芯片廠商的適配。如1月25日AMD宣布將DeepSeek-V3模型集成到其Instinct MI300X GPU上。而適配DeepSeek-R1大模型的廠商包括英偉達、英特爾以及國內廠商昇騰、龍芯、摩爾線程、海光信息等等。而采用這些芯片所獲得的DeepSeek-R1模型推理性能不亞于英偉達GPU的效果。

DeepSeek有著對架構更深層次的理解，如若自研芯片，發(fā)揮其軟硬件結合的能力，那么研發(fā)更具性價比的訓練或推理芯片，進一步降低成本，或許將在更大程度上促進端側AI的應用爆發(fā)，以及帶動AI芯片的多樣性發(fā)展。

OpenAI 3nm 推理芯片

去年，OpenAI進行硬件戰(zhàn)略調整，旨在優(yōu)化計算資源和降低成本。OpenAI將引入AMD的MI300系列芯片，并繼續(xù)使用英偉達的GPU。而其自研芯片也提上日程。去年10月，OpenAI與芯片制造商博通合作開發(fā)首款專注于推理的人工智能芯片。雙方還在與臺積電進行磋商，以推進這一項目。

據(jù)外媒最新報道OpenAI 將在未來幾個月內完成其首款內部芯片的設計，并計劃將其送往臺積電制造，臺積電將使用 3nm 技術制造 OpenAI 芯片，該芯片有望在 2025 年底進行測試以及在 2026 年開始大規(guī)模生產(chǎn)，預計該芯片將具有“高帶寬內存”和“廣泛的網(wǎng)絡功能”。

根據(jù)機構測算，到2028年人工智能的推理負載占比有望達到85%，考慮到云端和邊緣側巨大的推理需求，未來推理芯片的預期市場規(guī)模將是訓練芯片的4～6倍。OpenAI自研推理芯片正好趕上這波人工智能推理應用的全面爆發(fā)。

亞馬遜3nm制程Trainium3芯片
實際上，為了擺脫對英偉達GPU的依賴，亞馬遜、微軟和 Meta 等科技巨頭也開始自研芯片。

去年12月，亞馬遜 AWS 宣布，基于其內部團隊所開發(fā) AI 訓練芯片 Trainium2 的 Trn2 實例廣泛可用，并推出了 Trn2 UltraServer 大型 AI 訓練系統(tǒng)，同時還發(fā)布了下代更先進的 3nm 制程 Trainium3 芯片。

單個 Trn2 實例包含 16 顆 Trainium2 芯片，各芯片間采用超高速高帶寬低延遲 NeuronLink 互聯(lián)，可提供 20.8 petaflops 的峰值算力，適合數(shù) B 參數(shù)大小模型的訓練和部署。

而亞馬遜 AWS下代 Trainium3 AI 訓練芯片，是 AWS 首款采用 3nm 制程的芯片產(chǎn)品。亞馬遜表示基于 Trainium3 的 UltraServer 性能可達 Trn2 UltraServer 的 4 倍，首批基于 Trainium3 的實例預計將于2025年底推出。

LPU語言處理單元

在AI推理大潮下，Groq公司開發(fā)的語言處理單元（Language Processing Unit，即LPU），以其獨特的架構，帶來了極高的推理性能的表現(xiàn)。

Groq的芯片采用14nm制程，搭載了230MB SRAM以保證內存帶寬，片上內存帶寬達80TB/s。在算力方面，該芯片的整型（8位）運算速度為750TOPs，浮點（16位）運算速度為188TFLOPs。

在Llama 2-70B推理任務中，LPU系統(tǒng)實現(xiàn)每秒近300 token的吞吐量，相較英偉達H100實現(xiàn)10倍性能提升，單位推理成本降低達80%。在Llama 3.1-8B推理任務中，LPU系統(tǒng)實現(xiàn)每秒736 token的吞吐量。

圖源：Groq官網(wǎng)

公開信息顯示，LPU的運作方式與GPU不同，它使用時序指令集計算機（Temporal Instruction Set Computer）架構，與GPU使用的SIMD（單指令，多數(shù)據(jù)）不同。這種設計可以讓芯片不必像GPU那樣頻繁地從HBM內存重載數(shù)據(jù)。并避免了HBM短缺的問題，從而降低成本。

在能效方面，LPU 通過減少多線程管理的開銷和避免核心資源的未充分利用，實現(xiàn)了更高的每瓦特計算性能，在執(zhí)行推理任務時，從外部內存讀取的數(shù)據(jù)更少，消耗的電量也低于英偉達的GPU。

LPU的推出為AI推理芯片帶來了新的思路，但不得不說的是，Groq LPU芯片的成本相對較高，主要是購卡成本和運營成本。若以大模型運行吞吐量來計算，同等數(shù)據(jù)條件下，Groq LPU的硬件成本價格不菲。盡管這一芯片的性能表現(xiàn)突出，但對于成本優(yōu)化還需要做出很多努力。希望隨著硬件技術、生產(chǎn)制造以及規(guī)模效應的逐步成熟，其應用成本有望得到改善。

DeepSeek的出現(xiàn)，以低成本特性降低了企業(yè)準入門檻，使更多企業(yè)能夠開展 AI 項目，推理端需求大幅增長。但這還不夠，要使AI訓練或推理成本進一步下探，不再局限于采用某一家的GPU，而是SoC、ASIC、FPGA等芯片都有機會，一些新的技術架構、不依賴先進工藝的芯片等有更多發(fā)展的空間，從而推動AI芯片的多元化發(fā)展。

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

DeepSeek

DeepSeek

+關注

關注
1

文章
754

瀏覽量
989

Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

的訓練樣本和訓練模型，具體商業(yè)價值和保密性，采用海思SD3403邊緣計算AI服務器+多路安防監(jiān)控IPC，讓差異化AI視頻系統(tǒng)，成本控制極具市場競爭力。海思SD3403邊緣計算AI

發(fā)表于 04-28 11:05

科通技術推出DeepSeek+AI芯片全場景方案

2025年，隨著DeepSeek新版本的開源，AI技術掀起了全球普及的浪潮。在這股浪潮中，AI芯片作為關鍵算力支撐，其應用場景不斷拓展，從云端到本地，再到終端設備，

發(fā)表于 03-24 10:33 ?480次閱讀

HarmonyOS NEXT開發(fā)實戰(zhàn)：DevEco Studio中DeepSeek的使用

隨著HarmonyOS Next的持續(xù)發(fā)布，鴻蒙系統(tǒng)對AI能力的支持顯著增強。本文將深入探討如何在鴻蒙應用中集成AI模型，結合接入DeepSeek，一起來探索開發(fā)鴻蒙原生應用的更多可能吧！第一步

發(fā)表于 03-07 14:56

EVASH芯片公司接入DeepSeek：AI驅動的芯片設計革新

EVASH芯片公司接入DeepSeek：AI驅動的芯片設計革新

發(fā)表于 03-03 17:45 ?274次閱讀

今日看點丨小鵬自研芯片或5月上車；安森美將在重組期間裁員2400人

車型，該車將是搭載自研芯片的首款車型，內部代號或為“F57”。 ? 去年8月27日，小鵬汽車召開發(fā)布會，正式發(fā)布了其自研

發(fā)表于 02-26 10:55 ?156次閱讀

DeepSeek、晶振在AI終端中的相關應用

國產(chǎn)AI大模型DeepSeek崛起，2025年1月27日，DeepSeek應用登頂蘋果美國地區(qū)、中國區(qū)應用商店免費APP下載排行榜憑借開源、極具成本優(yōu)勢、高性能已成為全球現(xiàn)象級模型。

發(fā)表于 02-19 14:44 ?429次閱讀

研華發(fā)布昇騰AI Box及Deepseek R1模型部署流程

。這一舉措標志著研華在AI邊緣計算領域邁出了重要一步。研華邊緣AI Box MIC-ATL3S依托昇騰芯片的強大異構計算能力，結合

發(fā)表于 02-19 10:41 ?382次閱讀

添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

在 AI 技術日新月異的當下，新的模型與突破不斷涌現(xiàn)。近期，DeepSeek（深度求索）模型以其卓越性能和親民成本，迅速在全球開發(fā)者圈子里引發(fā)熱議。作為一款強大的語言模型，DeepSeek

發(fā)表于 02-14 17:42

研華邊緣AI Box MIC-ATL3S部署Deepseek R1模型

隨著深度求索(DeepSeek)大模型的發(fā)布引發(fā)行業(yè)熱議，研華科技基于昇騰Atlas平臺邊緣AI Box MIC-ATL3S正式發(fā)布與Deepseek R1模型的部署流程。該平臺依托昇

發(fā)表于 02-14 16:08 ?860次閱讀

deepseek國產(chǎn)芯片加速 DeepSeek的國產(chǎn)AI芯片天團

，從而紛紛繼續(xù)“卷”起來，效仿DeepSeek的“開源”模式。對于DeepSeek本身，人們關注其如何在有限算力實現(xiàn)強大性能，更關注其在重重條令圍城之下的未來之路。而在最近，全世界的芯片廠商

發(fā)表于 02-10 15:07 ?2517次閱讀

比亞迪最快于11月實現(xiàn)自研算法量產(chǎn),推進智駕芯片自研進程

10月21日市場傳出消息，比亞迪正計劃整合其新技術院下的自研智能駕駛團隊，目標是在今年11月實現(xiàn)自研智能駕駛算法的量產(chǎn)，并持續(xù)推進智能駕駛芯片

發(fā)表于 10-22 15:57 ?1210次閱讀

打下數(shù)字設計基礎

本人研二剛出來實習，對設計了解的不夠全面。公司的機會也很少，希望在實習階段能夠自己多學點，打下基礎。

發(fā)表于 08-26 08:57

OpenAI自研芯片計劃調整，傳交臺積電生產(chǎn)

近日，全球領先的生成式AI應用大廠OpenAI在自研芯片領域迎來了重大戰(zhàn)略調整。為降低對外部AI芯片

發(fā)表于 07-23 16:52 ?857次閱讀

大廠自研芯片背后的贏家，不只有晶圓廠

電子發(fā)燒友網(wǎng)報道（文/周凱揚）隨著不少云服務廠商和互聯(lián)網(wǎng)廠商紛紛加入到自研芯片的行業(yè)中來，除了具備先進工藝的晶圓代工廠外，提供設計解決方案的

發(fā)表于 05-28 00:17 ?3020次閱讀

蘋果將通過自研芯片在云端推出AI功能

近日，科技界傳來一則令人振奮的消息。據(jù)可靠報道，蘋果公司即將在云端推出強大的人工智能（AI）功能，而這一切將依托于自研的高端芯片。

發(fā)表于 05-11 10:59 ?705次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

傳DeepSeek自研芯片，廠商們要把AI成本打下來

評論

Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

科通技術推出DeepSeek+AI芯片全場景方案

HarmonyOS NEXT開發(fā)實戰(zhàn)：DevEco Studio中DeepSeek的使用

EVASH芯片公司接入DeepSeek：AI驅動的芯片設計革新

今日看點丨小鵬自研芯片或5月上車；安森美將在重組期間裁員2400人

DeepSeek、晶振在AI終端中的相關應用

研華發(fā)布昇騰AI Box及Deepseek R1模型部署流程

添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

研華邊緣AI Box MIC-ATL3S部署Deepseek R1模型

deepseek國產(chǎn)芯片加速 DeepSeek的國產(chǎn)AI芯片天團

比亞迪最快于11月實現(xiàn)自研算法量產(chǎn),推進智駕芯片自研進程

打下數(shù)字設計基礎

OpenAI自研芯片計劃調整，傳交臺積電生產(chǎn)

大廠自研芯片背后的贏家，不只有晶圓廠

蘋果將通過自研芯片在云端推出AI功能

電子發(fā)燒友