智能駕駛芯片排名并不簡單只看AI算力,CPU、存儲帶寬、功耗和AI算力數(shù)值一樣重要,這個下文會詳細(xì)分析。CPU算力也很重要,智能駕駛系統(tǒng)軟件異常復(fù)雜,會消耗大量的CPU運算資源,軟件系統(tǒng)包含眾多中間件諸如SOME/IP、自適應(yīng)AUTOSAR、DDS、ROS等,基礎(chǔ)軟件包括訂制的Linux BSP、OS抽象層、虛擬機,還有與底層硬件關(guān)聯(lián)的內(nèi)存管理、各種驅(qū)動、各種通訊協(xié)議等等。除此之外,應(yīng)用層中的路徑規(guī)劃、高精度地圖、行為決策等也大量消耗CPU資源,同時CPU也管理AI運算時的任務(wù)調(diào)度、存儲搬運指令等,整體的任務(wù)調(diào)度、決策自然也是CPU的任務(wù)。CPU是絕對的核心,AI是CPU的附屬功能,只是在做圖像特征提取、分類、BEV變換、矢量地圖映射或空間分布占有時才用到AI。
排名的權(quán)重依次是AI算力、存儲帶寬、CPU算力、GPU算力、制造工藝。存儲帶寬和AI算力同等權(quán)重,GPU也是錦上添花,大部分車載AI處理部分只能對應(yīng)INT8位數(shù)據(jù),而GPU可以對應(yīng)FP32數(shù)據(jù),有些時候可能有很大作用。實際AI算力數(shù)字完全是個黑箱,操作空間極大,參考意義不大。最能準(zhǔn)確衡量算力的是MAC陣列數(shù)量,谷歌的TPU V1是65000個FP16 MAC,運行頻率0.7GHz,那么算力就是65000*0.7G*2=91TOPS。特斯拉第一代FSD兩個NPU,每個NPU是9216個INT8 MAC,運行頻率是2GHz,算力就是2*2*2G*9216=73.7TOPS。制造工藝方面,自然還是越先進,功耗越低。
智能駕駛芯片TOP20
圖片來源:公開資料整理
如何計算存儲帶寬,芯片本身都有存儲管理器,這通常是CPU的一部分,決定存儲帶寬的有兩點,首先是CPU支持的存儲類型,即存儲的物理層和控制器,其次是CPU的存儲帶寬,LPDDR的存儲帶寬最高一般是256比特,GDDR可以到384比特,HBM可以到4096甚至8192比特,這些都關(guān)聯(lián)成本,廠家在設(shè)計芯片時,會在成本和性能之間找一個平衡點,有些廠家偏重成本,那就64比特甚至32比特,有些偏重性能,如真正的AI芯片,無一例外都是HBM的,成本都在1500美元以上。
常見汽車內(nèi)存性能與價格對比
圖片來源:公開資料整理
上表為常見汽車內(nèi)存性能與價格對比,顯然,一分價錢一分貨。英偉達(dá)H100是HBM3的最大采購者,每GB的采購價格大約14美元。還有一點需要指出,目前沒有車規(guī)級GDDR6存儲芯片。
目前智能駕駛芯片除了百度和特斯拉,都采用了LPDDR。
歷代LPDDR的參數(shù)
圖片來源:公開資料整理
存儲帶寬等于CPU的存儲位寬乘以存儲器的Datatransfer rate, DDR (MT/s)再除以8換算為大寫的GB,例如英偉達(dá)Orin其存儲位寬是256比特,支持LPDDR5,傳輸速率為6400MT/s,那么存儲帶寬為256*6400M/8=204.8GB/s,再比如特斯拉一代FSD,存儲位寬是128比特,支持LPDDR4,傳輸速率為3200MT/s,存儲帶寬就是128*3200M/8=51.2GB/s。
存儲帶寬如此重要的原因是Roof-line模型,Roof-lineModel 解決的,是“計算量為A且訪存量為B的模型在算力為C且?guī)挒镈的計算平臺所能達(dá)到的理論性能上限E是多少”這個問題。
模型計算量指的是輸入單個樣本(對于CNN而言就是一張圖像),模型進行一次完整的前向傳播所發(fā)生的浮點運算個數(shù),也即模型的時間復(fù)雜度,單位是FLOPS。訪存量:指的是輸入單個樣本,模型完成一次前向傳播過程中所發(fā)生的內(nèi)存交換總量,也即模型的空間復(fù)雜度。在理想情況下(即不考慮片上緩存),模型的訪存量就是模型各層權(quán)重參數(shù)的內(nèi)存占用(Kernel Mem)與每層所輸出的特征圖的內(nèi)存占用(Output Mem)之和。計算量除以訪存量就可以得到模型的計算強度I (Intensity),它表示此模型在計算過程中,每Byte內(nèi)存交換到底用于進行多少次浮點運算。單位是FLOP/Byte。模型在計算平臺上所能達(dá)到的每秒浮點運算次數(shù)(理論值)。單位是 FLOP/s,即P。
算力決定“屋頂”的高度(綠色線段),帶寬決定“房檐”的斜率(紅色線段)
模型計算的理論性能自然不可能超過其硬件的最大理論性能,如果有一個異常消耗算力的模型,其需要的算力超過了計算平臺的理論性能,那么計算平臺的利用率是100%,也就是紅色線段部分,這時的風(fēng)險就是處理圖像的幀率或者說FPS會達(dá)不到目標(biāo)幀率,對智能駕駛來說,主流幀率是30FPS,低速智能駕駛可以再降低一點,高速需要再升高一點。由于需要的算力太高,計算平臺滿負(fù)荷運轉(zhuǎn)也無法適應(yīng),幀率會下降,此時高速行駛的話就會有風(fēng)險,一般來說,廠家不會推薦算力需求遠(yuǎn)超理論性能上限的模型。
在低于100%利用率的綠色線段部分,模型理論性能 P 的大小完全由計算平臺的帶寬上限(房檐的斜率)以及模型自身的計算強度 I (Intensity)所決定,因此這時候就稱模型處于 Memory-Bound 狀態(tài)。可見,在模型處于帶寬瓶頸區(qū)間的前提下,計算平臺的帶寬即房檐越陡,或者說模型的計算強度 I 越大,模型的理論性能 P 可呈線性增長。斜率越低,意味著即使計算強度快速增加,計算平臺算力的增加還是很緩慢,計算平臺的利用率很低,比如計算平臺的理論算力是100TOPS,斜率很低,很高計算強度的模型利用率也可能不到50%,換句話說,存儲帶寬決定了計算平臺的性能利用率,因此存儲帶寬重要性絲毫不亞于算力,甚至高于算力。這也是為何特斯拉二代FSD排名第二的主要原因,GDDR6的帶寬相對LPDDR有壓倒性優(yōu)勢。
特斯拉第二代FSD
圖片來源:網(wǎng)絡(luò)
特斯拉第二代FSD采用了三星的7納米工藝,之所以用三星代工,主要可能還是價格和地理因素,三星代工的價格遠(yuǎn)低于臺積電,只有臺積電價格的一半左右,臺積電的亞利桑那廠效率低下,從2020年開工建設(shè),預(yù)計到2025年才能投產(chǎn),而三星的德克薩斯奧斯汀二代工廠僅用兩年就完工投產(chǎn),而特斯拉總部離奧斯汀也很近。第一代FSD使用三星的14納米工藝,WikiChip的數(shù)據(jù)顯示,三星7nm LPP HD高密度cell方案的晶體管密度在95.08 MTr/mm2,而HP高性能方案的晶體管密度則在77.01 MTr/mm2;三星14納米UHP方案的晶體管密度則在26.22MTr/mm2,HP方案晶體管密度則在32.94 MTr/mm2,基本上三星7納米是14納米密度的3倍以上,意味著特斯拉至少可以塞進3倍多的MAC陣列,AI性能可以提升三倍,一代FSD的AI性能是73.7TOPS@INT8,3倍就是221.1,再像英偉達(dá)那樣搞個稀疏模型加速,算力數(shù)字可以再增長一倍,加上二代FSD芯片面積明顯比一代要大,且NPU增加到3個,因此估計算力在500TOPS上下。特斯拉二代FSD也大幅度加強了CPU,使用三星Exynos 20核心配置,這也說明CPU在智能駕駛中很重要。
安霸的CV3熟悉的人可能不多,其存儲帶寬支持最高的LPDDR5X,且是最高的256比特,采用三星的5納米工藝制造,目前得到了德國大陸汽車公司的支持。
安霸CV3-AD內(nèi)部框架圖
圖片來源:Ambarella
安霸CV3-AD最高包括了16核心的Coretex-A78AE,CPU算力也是極高。也通過了ASIL-B級認(rèn)證。AI算力方面是等效于500TOPS。英偉達(dá)的位寬是256比特,特斯拉和Mobileye大多是128比特,征程6未公布存儲信息。
百度的昆侖芯2很少人知曉,實際這不能算百度的,它是百度芯片部分獨立后的產(chǎn)物,公司全稱是昆侖芯(北京)科技有限公司,前身為百度智能芯片及架構(gòu)部,于2021年4月完成獨立融資,首輪估值約130億元。2022年11月29日,在百度Apollo Day技術(shù)開放日上,第二代昆侖芯在百度無人駕駛車輛RoboTaxi的駕駛系統(tǒng)上已經(jīng)做了完整的適配,在高階自動駕駛系統(tǒng)中運行正常。2011年,昆侖芯科技正式獨立,開始從事AI計算相關(guān)的工作,早期使用FPGA芯片來對AI進行計算加速。2011-2015年之間,昆侖芯科技部署了超過5000片F(xiàn)PGA芯片用在百度數(shù)據(jù)中心,到了2017年累計部署超過12000片的FPGA芯片。并在2018年決定自研AI芯片,正式啟動昆侖芯系列產(chǎn)品的研發(fā)和設(shè)計。2020年,第一代昆侖芯開始大規(guī)模地部署,2022年,第二代昆侖芯在數(shù)據(jù)中心、工業(yè)領(lǐng)域、自動駕駛等領(lǐng)域大規(guī)模地部署和落地。第一代昆侖芯是14納米的人工智能芯片, 這款芯片采用了先進的HBM內(nèi)存、2.5D的封裝,芯片剛量產(chǎn)就在百度數(shù)據(jù)中心里面部署了超過2萬片。一年后第二代昆侖芯量產(chǎn),采用了更先進的7納米工藝、XPU第二代的架構(gòu),也是業(yè)界第一顆采用GDDR6高速顯存技術(shù)的AI芯片。昆侖芯科技正在研發(fā)更先進的第三代AI芯片,針對高階自動駕駛系統(tǒng),未來會考慮推出定制的車規(guī)高性能的SoC(系統(tǒng)級芯片)。
英偉達(dá)對存儲系統(tǒng)一向比較重視,全線都是最高的256比特。高通SA8650與座艙領(lǐng)域的SA8255非常近似,CPU和GPU基本完全相同,AI算力做了特別加強,存儲位寬是比較少見的96比特,SA8650是取代上一代SA8540P的,主要是增加了針對功能安全的部分,增加了4個Cortex-R52內(nèi)核。Mobileye對成本異常重視,也從不公布其存儲帶寬和支持存儲類型,只能猜測。Xavier雖是早期產(chǎn)品,但存儲位寬是最高的256比特,所以排名很靠前。
審核編輯:劉清
-
控制器
+關(guān)注
關(guān)注
112文章
16445瀏覽量
179451 -
智能駕駛
+關(guān)注
關(guān)注
3文章
2589瀏覽量
48920 -
HBM
+關(guān)注
關(guān)注
0文章
386瀏覽量
14836 -
GPU芯片
+關(guān)注
關(guān)注
1文章
303瀏覽量
5897 -
LPDDR
+關(guān)注
關(guān)注
0文章
43瀏覽量
6374
原文標(biāo)題:智能駕駛芯片TOP20排名
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論