Xilinx UltraScale? 架構針對要求最嚴苛的應用,提供了前所未有的ASIC級的系統級集成和容量。
UltraScale架構是業界首次在All Programmable架構中應用最先進的ASIC架構優化。該架構能從20nm平面FET結構擴展至16nm鰭式FET晶體管技術甚至更高的技術,同時還能從單芯片擴展到3D IC。借助Xilinx Vivado?設計套件的分析型協同優化,UltraScale架構可以提供海量數據的路由功能,同時還能智能地解決先進工藝節點上的頭號系統性能瓶頸。這種協同設計可以在不降低性能的前提下達到實現超過90%的利用率。
UltraScale架構的突破包括:
? 幾乎可以在晶片的任何位置戰略性地布置類似于ASIC的系統時鐘,從而將時鐘歪斜降低達50%
? 系統架構中有大量并行總線,無需再使用會造成時延的流水線,從而可提高系統速度和容量
? 甚至在要求資源利用率達到90%及以上的系統中,也能消除潛在的時序收斂問題和互連瓶頸
? 可憑借3D IC集成能力構建更大型器件,并在工藝技術方面領先當前行業標準整整一代
? 能在更低的系統功耗預算范圍內顯著提高系統性能,包括多Gb串行收發器、I/O以及存儲器帶寬
? 顯著增強DSP與包處理性能
賽靈思UltraScale架構為超大容量解決方案設計人員開啟了一個全新的領域。
越多越好
自從“全面數字化”(all things digital)概念引入以來,“越多越好”成為了所有市場領域中數字系統的一種基本的、必然的發展趨勢。這一期望成為了促使系統要求更高分辨率、更高帶寬和更大存儲量的基本動力。而“更多”這一理念同時從邏輯上也引發了如下事實的產生:
? 更多的器件生成更多數據。
? 更多的數據意味著數據必須更快流動。
? 更多快速流動的數據要求計算速度更快。
? 更多的應用需要更快速地訪問更多數據。
? 數據量的增長和數據速率的提高對數據完整性提出了更高要求。
目前幾乎每個領域的數據創建和數據傳輸速率都在快速增長,這會加大對新型器件架構的需求,以應對如下問題所帶來的重重挑戰:
? 海量數據流以及類似于ASIC的時鐘布線
? 海量I/O和存儲器帶寬
? 更快的DSP和包處理
? 電源管理
? 多級安全
UltraScale架構:賽靈思的新一代All Programmable架構
為了達到每秒數百Gb的系統性能和全線速下的智能處理能力,并擴展到Tb級和每秒萬億次浮點運算,需要采用一種新的架構方案。為此,我們要做的不僅僅是簡單地提高每個晶體管或系統模塊的性能,或擴展系統中的模塊數量,而是要從根本上改善通信、時鐘、關鍵路徑和互連功能,以滿足海量數據流、實時數據包和圖像處理需求。
UltraScale? 架構通過在一個全面可編程(All Programmable)架構中應用最先進的ASIC 技術,可應對上述需要海量I/O和存儲器帶寬、海量數據流以及卓越DSP和包處理性能的挑戰。。UltraScale架構經過精調可提供大規模布線能力并且與Vivado?設計工具進行協同優化,因此該架構的利用率達到了空前的高水平(超過90%),而且不會降低性能。
UltraScale架構是業界首次在All Programmable架構中應用最先進的ASIC架構優化該架構能從20nm平面FET結構擴展至16nm鰭式FET晶體管技術甚至更高的技術,同時還能從單芯片擴展到3D IC。UltraScale架構不僅能解決系統總吞吐量擴展和時延方面的局限性,而且還能直接應對先進工藝節點上的頭號系統性能瓶頸,即互連問題。
Xilinx UltraScale架構旨在滿足下一代系統級性能要求。(見圖1)
賽靈思對UltraScale架構進行了數百項設計提升,并將這些改進實現有機結合,讓設計團隊能夠打造出比以往功能更強、運行速度更快、單位功耗性能更高的系統。見圖2。
圖2:Xilinx UltraScale架構
UltraScale架構與Vivado?設計套件結合使用可提供如下這些新一代系統級功能:
· 針對寬總線進行優化的海量數據流,可支持數Tb級吞吐量和最低時延
· 高度優化的關鍵路徑和內置高速存儲器,級聯后可消除DSP和包處理中的瓶頸
· 增強型DSP slice包含27x18位乘法器和雙加法器,可以顯著提高定點和IEEE 754標準浮點算法的性能與效率
· 第二代3D IC系統集成的晶片間帶寬以及最新3D IC寬存儲器優化接口均實現階梯式增長
· 類似于ASIC的多區域時鐘,提供具備超低時鐘歪斜和高性能擴展能力的低功耗時鐘網絡
· 海量I/O和存儲器帶寬,用多個硬化的ASIC級100G以太網、Interlaken和PCIe? IP核優化,可支持新一代存儲器接口功能并顯著降低時延
· 電源管理可對各種功能元件進行寬范圍的靜態與動態電源門控,實現顯著節能降耗
· 新一代安全策略,提供先進的AES比特流解密與認證方法、更多密鑰模糊處理功能以及安全器件編程
· 通過與Vivado工具協同優化消除布線擁塞問題,實現了90%以上的器件利用率,同時不降低性能或增大時延
系統設計人員將這些系統級功能進行多種組合,以解決各種問題。下面的寬數據路徑方框圖可以很好地說明這一問題。見圖3.
圖3:Tb級I/O需要海量的并行數據路徑
圖中,數據速率高達Tbps的數據流從從左側流入再從右側流出。系統必須在左右兩側的I/O端口之間傳輸數據流,同時還要執行必要的處理工作。可以通過高速串行收發器來進行I/O傳輸,運行速率高達數Gbps。一旦數Gbps的串行數據流進入器件,就必須扇出(fan out),以便與片上資源的數據流、路由和處理能力相匹配。
Tb級系統的設計挑戰:時鐘歪斜與海量數據流
舉一個現實的實例,假設左側和右側I/O端口的帶寬為100Gb/s。這意味著片上資源也必須要處理至少100Gb/s的流量。設計人員一般采用512至1024位的寬總線或數據路徑來處理相關的數據吞吐量,產生一個與片上資源功能相匹配的系統時鐘。如果線速提高到400Gb/s,那么總線寬度達到1024至2048位也并不少見。
現在考慮一下這類總線的時鐘要求。在UltraScale架構推出之前,高系統時鐘頻率運行會使這些海量數據路徑上的時鐘歪斜程度增大,甚至達到整個系統時鐘周期的將近一半。時鐘歪斜幾乎占用一半的時鐘周期,這種情況下設計方案需要依靠大量流水線才有可能達到目標系統性能。只剩下一半的時鐘周期可用于計算,因此得到可行解決方案的幾率就會很低。大量使用流水線不僅會占用大量寄存器資源,而且還會對系統的總時延造成巨大影響,這也再次證明了這種方法在當今的高性能系統中不可行。
UltraScale架構提供類似ASIC時鐘功能
多虧UltraScale 架構提供類似ASIC的多區域時鐘功能,使得設計人員現在可以將系統級時鐘放在整個晶片的任何最佳位置上,從而使系統級時鐘歪斜降低多達50%。將時鐘驅動的節點放在功能模塊的幾何中心并且平衡不同葉節點時鐘單元(leaf clock cell)的時鐘歪斜,這樣可以打破阻礙實現多Gb系統級性能的一個最大瓶頸。系統總體時鐘歪斜降低后,就無需再使用大量流水線,并可消除隨之而來的時延問題。UltraScale架構中類似于ASIC的時鐘功能不僅能移除時鐘布置方面的限制,還能在系統設計中實現大量獨立的高性能、低歪斜時鐘源。這與前幾代可編程邏輯器件中所采用的時鐘方案完全不同。從系統設計人員的角度出發,這種解決方案能輕松解決時鐘歪斜問題。
從容應對海量數據流挑戰
極高性能應用一般采用寬總線或寬數據路徑來匹配路由到片上處理資源的數據流。然而采用寬總線來擴展性能時,除了要簡單處理時鐘歪斜問題外,還要應對一系列自身挑戰。眾所周知,同類競爭架構經證實其適用于高性能設計的布線資源非常有限且缺乏靈活性。如果FPGA的互連架構性能較低,那么用它來實現100Gb/s吞吐量的應用時,需要將數據總線提升到1536至2048位的寬度。
盡管更寬的總線實現方案可以降低系統時鐘頻率,但由于缺乏支持寬總線系統所需的布線資源,因此會產生嚴重的時序收斂問題。而且有些FPGA廠商采用的是過時的模擬退火布局布線算法,不考慮擁塞程度和總線路長度等全局設計指標,因此會進一步加劇時序收斂問題。這樣,設計人員就不得不進行多方面權衡,包括降低系統性能(通常不可?。皇褂么罅苛魉€,不惜增大時延;或者降低可用器件資源利用率。在任何情況下,經證明這些解決方案都是不佳或存在欠缺的方案。最重要的是,傳統FPGA中布線資源(用于滿足100Gb/s應用的要求)的局限性幾乎可以說明它們不可能適用新一代多Tb應用的要求,即便能適用,但器件的利用率會非常低,時延極高。
更為復雜的問題在于,通過大量的寬數據總線來擴展性能會帶來額外的代價,那就是需要顯著增加邏輯電路開銷用以支持寬總線的實施,從而進一步加大實現時序收斂的難度。
以以太網數據包大小為例可以很好地說明這個情況。以太網的數據包最小為64字節(512位)。假設采用2048位寬的總線來實現400G的系統,那么總線最多容納4個數據包。
在2048位寬的總線中存在多種數據包組合形式,例如4個完整數據包或者1個、2個或3個完整或部分數據包,這樣需要使用大量邏輯來處理不同的情況與組合。需要大量復雜的重復邏輯來應對這些可能的組合。此外,如果總線要求對四個數據包進行同時處理并寫入到存儲器中,那么可能需要對邏輯的某些部分進行加速(或擴展性能)??梢钥紤]通過邏輯加速或用四個獨立的相同存儲器控制器來相繼處理多個數據包,但這些方式會進一步加大布線資源的壓力,迫使架構必須具備更多的高性能、低歪斜布線資源。參見圖4。
圖4:增加數據路徑時鐘寬度和時鐘速率需要更多邏輯和布線資源
半導體工藝的擴展影響互連技術
隨著業界向20nm或更高級半導體工藝技術推進,在與銅線互連有關的RC延遲方面出
現了新的挑戰,它會阻礙向新工藝節點演進所實現的性能提升效果。晶體管互連延遲的增加會直接影響所能實現的總體系統性能,因此更加需要所使用的布線架構能提供滿足新一代應用要求的性能等級。UltraScale布線架構在開發過程中充分考慮了新一代工藝技術的特點,而且能明顯減輕銅線互連的影響——如不進行妥善處理會成為系統性能瓶頸。
UltraScale互連架構:針對海量數據流進行優化
UltraScale新一代互連架構的推出體現了可編程邏輯布線技術的真正突破。賽靈思致力于滿足從多Gb智能包處理到多Tb數據路徑等新一代應用需求,即必須支持海量數據流。在實現寬總線邏輯模塊(將總線寬度擴展至512位、1024位甚至更高)的過程中,布線或互連擁塞問題一直是影響實現時序收斂和高質量結果的主要制約因素。過于擁堵的邏輯設計通常無法在早期器件架構中進行布線;即使工具能夠對擁塞的設計進行布線,最終設計也經常需要在低于預期的時鐘速率下運行。而UltraScale布線架構則能完全消除布線擁塞問題。結論很簡單:只要設計合理,就能進行布線。
我們來做個類比。位于市中心的一個繁忙十字路口,交通流量的方向是從北到南,從南到北,從東到西,從西到東,有些車輛正試圖掉頭,所有交通車輛試圖同時移動。這樣通常就會造成大堵車?,F在考慮一下將這樣的十字路口精心設計為現代化高速公路或主干道,情況又會如何。道路設計人員設計出了專用坡道(快行道),用以將交通流量從主要高速路口的一端順暢地疏導至另一端。交通流量可以從高速路的一端全速移動到另一端,不存在堵車現象。
賽靈思為UltraScale架構加入了類似的快行道。這些新增的快行道可供附近的邏輯元件之間傳輸數據,盡管這些元件并不一定相鄰,但它們仍通過特定的設計實現邏輯上的連接。這樣,UltraScale架構所能管理的數據量就會呈指數級上升,如圖5所示。
圖5:增加真實有效的路由路徑可以幫助解決日益增長的系統復雜性
UltraScale架構堆疊硅片互聯技術全面強化所有功能
很少有開發的技術能夠像堆疊硅片互聯(SSI)技術集成那樣對器件容量和性能產生如此重大的影響,這已得到了賽靈思第一代基于7系列All Programmable器件的3D IC產品的驗證。集成SSI技術后,設計人員可以構建出工藝技術領先行業標準整整一代水平的更大型器件。而且該技術在賽靈思第二代基于UltraScale架構的3D IC產品中也同樣會達到這種效果。
由于3D IC中硅片間通信連接比獨立封裝的硅片間通信連接更密集、更快速,因此硅片間的通信所需功耗更低(假設硅片無需驅動硅片到封裝間互連以及板級互連的附加阻抗)。所以,與獨立封裝的硅片相比,SSI技術的集成能夠在顯著擴大容量和性能的同時降低功耗。此外,由于無法輕易訪問電路板層面的硅片間通信,這樣系統安全性也得到了加強。
Virtex?UltraScale和Kintex?UltraScale系列成員在第二代3D IC中的連接資源數量以及相關的硅片間帶寬都實現了階梯式增長。布線資源和硅片間帶寬的大幅增長確保了新一代應用能夠在實現其高器件利用率的前提下達到目標性能和時序收斂。
更多內容,請點擊鏈接下載:http://m.xsypw.cn/soft/5/2013/20130715324025.html
評論