林利集團(The Linley Group)高級分析師Aakash Jani撰寫
CertusPro-NX是萊迪思在18個月內(nèi)采用Nexus技術平臺開發(fā)的第四款產(chǎn)品,它將為更廣泛的應用帶來行業(yè)領先的功耗、性能和尺寸優(yōu)勢。這些通用FPGA提供低功耗、小尺寸和高帶寬I/O(例如PCIe Gen3和千兆以太網(wǎng)接口)等特性。它們非常適用于網(wǎng)絡邊緣人工智能、工業(yè)IoT、5G控制平面和其他應用。本白皮書由萊迪思贊助,但文中觀點和分析內(nèi)容為作者所有。
萊迪思半導體推出的第四款基于Nexus平臺的產(chǎn)品——CertusPro-NX為現(xiàn)有FPGA市場帶來了重大革新。該系列FPGA采用28 nm FD-SOI工藝制造,擁有低功耗和小尺寸優(yōu)勢,主要針對低密度器件市場。與之前發(fā)布的Certus-NX相比,新產(chǎn)品的邏輯單元從17 K提升到了96 K。2020年,通用FPGA市場更加多元化,市場規(guī)模增長約為10%;CertusPro-NX可用于實現(xiàn)各種功能,應用領域包括5G蜂窩網(wǎng)、人工智能和物聯(lián)網(wǎng)。這些市場不斷發(fā)生著變化,而FPGA則能提供ASIC不具備的強大靈活性。
新產(chǎn)品系列有兩種型號,CPNX-50K有52K邏輯單元;CPNX-100K有96K邏輯單元,也是首發(fā)工程樣片。如圖1所示,后一種型號有一個支持LPDDR4 DRAM的可編程I/O(同類FPGA中尚屬首次)。萊迪思還將內(nèi)部存儲器容量拓展了3倍,讓CertusPro-NX在進行存儲密集運算時降低功耗。
圖1:CertusPro-NX框圖。全新FPGA包含7.3 Mb的片上存儲器、156個18x18乘法器的DSP模塊、可編程邏輯以及8個靈活的10Gbps SERDES通道(可配置連接DisplayPort或CoaXPress)。
在設計CertusPro-NX系列產(chǎn)品時,萊迪思采用了28 nmFD-SOI工藝。盡管之前人們對這個選擇存在質(zhì)疑,但萊迪思完美達成了功耗和軟錯誤率方面的標準,這對公司贏得客戶的多個應用設計來說至關重要。除了可編程邏輯之外,CertusPro-NX還擁有硬核模塊,也可以降低功耗。它還包括一個10G以太網(wǎng)端口和一個四通道PCIe Gen3控制器。萊迪思還尤其關注位流配置模塊,因而其器件的啟動速度非常之快,可在不到 30 毫秒內(nèi)完成配置。
CertusPro-NX相比于前代產(chǎn)品提升巨大,能夠讓客戶在他們基于FPGA的設計中實現(xiàn)高級功能。萊迪思將新產(chǎn)品的邏輯單元數(shù)量翻倍,拓展了片上存儲器容量,升級了PCIe控制器以及可編程I/O接口。與英特爾的Cyclone V GT系列和賽靈思的Artix-7系列相比,新產(chǎn)品的性能達到了行業(yè)最佳。
除了拓展CertusPro-NX的可編程邏輯架構外,萊迪思還強化了該平臺的AI功能。新器件使用了7.3 Mb的內(nèi)部存儲器,客戶可以加載輕量化的神經(jīng)網(wǎng)絡來識別物體、監(jiān)聽關鍵詞或檢測異常行為。然而硬件只是設計的一方面。萊迪思的sensAI軟件集合能與Caffe、TensorFlow、TensorFlow Lite和Keras等框架配合使用,且擁有萊迪思AI編譯器的支持。這一經(jīng)過驗證的解決方案集合為眾多萊迪思客戶提供了功耗和資源效率充分優(yōu)化的人工智能應用。該軟件平臺與公司的多款FPGA兼容(CertusPro-NX的兼容性計劃于今年晚些時候推出)。
網(wǎng)絡邊緣的機器視覺應用不僅要求使用硬件來實現(xiàn)神經(jīng)網(wǎng)絡,還需要傳感器兼容、傳感器聚合和圖像預處理等功能。在這方面,萊迪思通過可編程I/O和SERDES模塊來為CertusPro-NX的客戶提供足夠的靈活性。例如,許多高清圖像傳感器都采用SLVS-EC接口,這是許多網(wǎng)絡邊緣AI加速器所缺少的。
可編程SERDES還支持各種將數(shù)據(jù)從網(wǎng)絡邊緣傳輸?shù)较到y(tǒng)內(nèi)部的標準,包括CoaXPress和10G Ethernet。
CertusPro-NX 的片上存儲器大小遠超競品。由于DRAM操作會增加功耗并降低吞吐量,所以如果所有權重都存儲在芯片上,神經(jīng)網(wǎng)絡就能以最佳狀態(tài)運行,且能夠最大限度地減少DRAM訪問。因此,客戶希望擁有更大的片上存儲器。萊迪思全新FPGA可以存儲多達100萬個8位權重——幾乎是Cyclone V GT或Artix-7的兩倍。由于芯片內(nèi)部可以存儲更多的權重,CertusPro-NX可以在不訪問DRAM的情況下運行更大的AI模型,從而降低功耗。
當萊迪思FPGA確實需要訪問DRAM時會使用可編程I/O模塊,它支持LPDDR4和速度達1066 Mbps的DDR3存儲器。CertusPro-NX是同類產(chǎn)品中首個支持LPDDR4的產(chǎn)品——比僅提供DDR3及更低標準的競品領先一代。然而,平均而言,這種較新的技術會增加芯片和系統(tǒng)的功耗。但由于CertusPro-NX有著更大的片上存儲器和優(yōu)化的存儲器控制器,它可以通過使用片上和外部存儲器,降低能耗和存儲器訪問時間來達到新的能效高度。長期的可用性也是包括嵌入式視覺在內(nèi)的許多市場關注的問題,LPDDR4則解除了這種擔憂。
構建智能家居甚至是智慧城市的一個關鍵因素是可見性。大多數(shù)終端用戶更傾向于不顯眼的物聯(lián)網(wǎng)傳感器設計,而小尺寸的微處理器是此類設計的核心。CertusPro-NX的面積僅為81 mm2,在支持SERDES的同類產(chǎn)品中擁有最小的封裝,比Cyclone V GT小33%,比Artix-7小84%。小尺寸FPGA進一步增加了設計的可用空間,讓OEM廠商得以增加更多功能或縮小設計尺寸。
工業(yè)物聯(lián)網(wǎng)
最新一代工業(yè)物聯(lián)網(wǎng)的特點就是大規(guī)模自動化,這得益于互連和數(shù)據(jù)分析方面的進步。為實現(xiàn)自動化分揀和包裝等任務,智能工廠需要數(shù)千臺物聯(lián)網(wǎng)設備,它們每天共生成和處理的數(shù)據(jù)量達TB級。驅動這些設備的芯片必須尺寸小、功耗低且可靠性高。為了讓客戶為工業(yè)4.0做好充分準備,萊迪思在其最新一代FPGA中采用了以上原則。
與基于CMOS工藝的FPGA競品相比,CertusPro-NX采用了FD-SOI來降低功耗。對這種功耗優(yōu)勢進行量化分析的一種方法是查看各個供應商的功耗估算器。假設設計需要65 K邏輯單元、使用了75%的DSP和存儲器、運行兩個5Gbps的SERDES通道。對于在85℃結溫和125MHz頻率下運行的該設計而言,CertusPro-NX的總功耗(動態(tài)+靜態(tài))比Artix-7少75%,比Cyclone V GT少65%,如圖 2 所示。
這些數(shù)據(jù)展示了FD-SOI工藝帶來的強大功耗優(yōu)勢。該制造技術在基板中使用絕緣層,與其他28 nm Bulk CMOS產(chǎn)品相比,漏電流最多可降低75%;而漏電流是產(chǎn)生靜態(tài)功耗和待機功耗的主要因素。
隨著OEM廠商通過提高功耗來提升其產(chǎn)品性能,英特爾和賽靈思的FPGA將比萊迪思FPGA更快地超過其結溫閾值。憑借其領先的功耗效率,CertusPro-NX擁有更多功耗和散熱空間,從而幫助OEM廠商縮減系統(tǒng)尺寸,降低散熱管理成本。此外在結溫以下運行的系統(tǒng)不需要安裝容易出現(xiàn)機械故障的風扇。
散熱對于工業(yè)馬達控制更為重要。馬達往往是密封的,防止灰塵顆粒進入,縮短其使用壽命。然而,在運行期間,熱量會在馬達中積聚并提高FPGA周圍的環(huán)境溫度。與競品相比,萊迪思的低功耗解決方案能讓FPGA控制更高扭矩的馬達而不會過熱。
圖2:FPGA功耗比較。LC = 邏輯單元。與英特爾和賽靈思的同類FPGA相比,萊迪思FPGA的功耗降低65-75%。此處的功耗估算是5 Gbps雙通道SERDES應用在125MHz以及85℃結溫下,資源使用率為75%時計算得出的。(數(shù)據(jù)來源:萊迪思)
FD-SOI還擁有消除單粒子翻轉(SEU)錯誤的額外優(yōu)勢。當輻射粒子穿過器件并與存儲器或寄存器單元相互作用時會發(fā)生這種錯誤,這會導致器件邏輯狀態(tài)錯誤翻轉,從而破壞存儲器或數(shù)據(jù)路徑。與Artix-7相比,CertusPro-NX可降低99%的軟錯誤數(shù)量,無需使用軟錯誤檢測邏輯和糾錯代碼。這種方法既提高了系統(tǒng)可靠性,又簡化了客戶設計。
CertusPro-NX的平均故障間隔時間(MTBF)是Artix-7的110倍。這一特性可滿足汽車和醫(yī)療系統(tǒng)對可靠性的需求;由于不需要經(jīng)常進行現(xiàn)場調(diào)整,因此還可以降低維護成本,保證關鍵操作的正常持續(xù)運行。較高的MTBF還可以提高工業(yè)機器人的安全性,因為控制FPGA進入未知狀態(tài)可能會導致機器故障,從而造成人身傷害或財產(chǎn)損失。
OEM廠商通常需要將FPGA與其他系統(tǒng)組件配對,這要求芯片間接口擁有高帶寬,防止數(shù)據(jù)流瓶頸。全新CertusPro-NX具有支持此類連接的四通道PCIe Gen3控制器。而其競品通常只支持PCIe Gen2,每個通道速度比PCIe Gen3慢了50%。更高的SERDES帶寬結合更新的PCIe技術,讓CertusPro-NX的客戶打破芯片互連的瓶頸,而使用其他解決方案可能難以實現(xiàn)這樣的效果。
5G應用
為了更好地服務于無線網(wǎng)絡,基站OEM會將控制平面和用戶平面分開,讓每個平面獨立擴展——這是5G網(wǎng)絡的一個關鍵特性,因為隨著3GPP不斷發(fā)布新規(guī)范,這兩個平面每年都會有所變化。控制平面是模塊化的,因此無線網(wǎng)絡供應商可以將其功能拆分到多個芯片中或將它們整合到單個芯片上。它處理各種任務,包括身份驗證、客戶端 (UE) 會話管理和統(tǒng)一數(shù)據(jù)管理。
盡管CPU可以執(zhí)行所有這些功能,但它的效率不如FPGA。據(jù)行業(yè)估計,OEM廠商需要高效的硬件,因為每個5G基站的功耗比4G基站高70%。考慮到靈活性和功耗限制,基站OEM通常需要FPGA來協(xié)助增強處理器或 ASIC。萊迪思新產(chǎn)品的功耗低于Artix-7和Cyclone V GT,簡化了基站的散熱管理。
5G小基站空間狹小,數(shù)據(jù)流動量大。CertusPro-NX在擁有SERDES功能的同類芯片產(chǎn)品尺寸最小,非常適合小尺寸設計且數(shù)據(jù)速率不會受到限制。如圖3所示,CertusPro-NX領先的75 Gbps SERDES帶寬比Artix-7高36%,是Cyclone V GT的2倍以上。對于數(shù)據(jù)包管理等高帶寬功能,萊迪思FPGA憑借其更大的SERDES帶寬可提供更高的吞吐量,面積效率遙遙領先。
圖3:SERDES總帶寬。CertusPro-NX超過競品達2倍之多,在數(shù)據(jù)密集型操作(例如5G基站中的統(tǒng)一數(shù)據(jù)管理)方面有著顯著優(yōu)勢。(數(shù)據(jù)來源:萊迪思)
結論
萊迪思推出CertusPro-NX主要是為了滿足機器視覺、工業(yè)物聯(lián)網(wǎng)、5G蜂窩網(wǎng)和其他不斷增長的市場需求。該器件經(jīng)優(yōu)化的內(nèi)部存儲器和LPDDR4可最大限度地減少神經(jīng)網(wǎng)絡等存儲密集型操作的功耗。FD-SOI技術降低了功耗和故障率,讓下一代器件更可靠且運行成本更低。新款FPGA的10Gbps SERDES和行業(yè)領先的封裝尺寸使其非常適合輔助數(shù)據(jù)處理的小型系統(tǒng),例如5G蜂窩網(wǎng)絡。除了在這些領域中表現(xiàn)出色,OEM還可以將其應用于許多其他領域,包括國防、汽車和幀抓取。
文中三款FPGA包含數(shù)量大致相同的邏輯單元,但萊迪思的產(chǎn)品由于支持LPDDR4而具有顯著優(yōu)勢。相比之下,其他器件仍采用DDR3存儲器。CertusPro-NX 還提供更大的內(nèi)部存儲器和領先的SERDES帶寬。客戶不僅可以使用萊迪思FPGA處理和傳輸更多數(shù)據(jù),而且還可以將功耗降低多達75%,電路板面積減少84%。
通過推出CertusPro-NX,萊迪思為多年來投資較少的這一重要領域注入了新的活力。它的主要競爭對手在過去十年中沒有發(fā)布任何一款新的低成本架構產(chǎn)品,因此它有機會通過PCIe Gen3和LPDDR4等新技術來鞏固其最新產(chǎn)品系列的市場地位。這一策略讓萊迪思在低功耗FPGA的功耗和尺寸方面始終保持領先。CertusPro-NX在前一代產(chǎn)品創(chuàng)新技術的基礎上,擴展了存儲器、SERDES和邏輯功能,更好地服務于5G基站、工業(yè)物聯(lián)網(wǎng)和機器視覺等新興市場。
Aakash Jani是 The Linley Group 的高級分析師兼《微處理器報告》的主編。Linley Group 為客戶提供最全面的微處理器和 SoC 設計方面的分析。我們不僅分析業(yè)務戰(zhàn)略,還 分析技術層面。我們的專題文章涵蓋的主題包括嵌入式處理器、移動處理器、服務器處理 器、AI 加速器、IoT 處理器、處理器 IP 核和以太網(wǎng)芯片
評論
查看更多