XAPP1206:利用NEON提高ZYNQ-7000 AP SOC上的軟件性能
一般來說,CPU需要一個接一個地執(zhí)行指令和進程數(shù)據(jù)。設(shè)計人員通常使用高時鐘頻率來實現(xiàn)高性能,但是半導(dǎo)體技術(shù)在此項技術(shù)上存在極限。并行計算是下一個提高CPU數(shù)據(jù)處理能力的典型策略。單指令多數(shù)據(jù)(SIMD)技術(shù)使得在一個或幾個CPU周期內(nèi)處理多個數(shù)據(jù)成為可能。NEON是賽靈思Zynq-7000 All Programmable SoC所采用的雙核ARM Cortex-A9處理器中的高級SIMD引擎。NEON專門用來對大數(shù)據(jù)集進行并行數(shù)據(jù)計算,有效利用該技術(shù)可以提高設(shè)計的軟件性能。
在本應(yīng)用指南中,作者Haoliang Qin介紹了四種利用Cortex-A9處理器內(nèi)核上的NEON 提高軟件性能和緩存效率的方法,這四種方法分別是:優(yōu)化匯編碼、使用NEON intrinsics、使用針對NEON優(yōu)化的函數(shù)庫以及使用針對編譯器優(yōu)化的自動向量化。此外,他還詳細介紹了改善CPU、緩存和主存儲器之間數(shù)據(jù)交換的方法。
軟件優(yōu)化是一個復(fù)雜的話題。Qin表示,要實現(xiàn)最佳硬件性能,必須同時使用所有這些技術(shù),并在它們之間取得最佳平衡。
XAPP1208:邏輯中的BITSLIP
賽靈思UltraScale器件中的I/O邏輯是指位于I/O緩沖器和通用互聯(lián)之間的專用I/O處理組件。相對此前器件系列而言,UltraScale器件中的I/O邏輯設(shè)置可提供更快速的I/O處理、更低的抖動以及更多的功能。但是,它省略了7系列和Virtex-6 FPGAI/O邏輯中的一些可用功能,如Bitslip。
由Marc Defossez撰寫的本應(yīng)用指南介紹了在通用互聯(lián)中實現(xiàn)的可用在UltraScale器件及此前器件架構(gòu)中的Bitslip解決方案。本參考設(shè)計實現(xiàn)了Bitslip功能,并通過若干附加選項擴展了基本功能。
Bitslip參考設(shè)計執(zhí)行的功能與7 系列和Virtex-6 FPGA的ISERDES中嵌入的固有Bitslip功能相同,但是,該參考設(shè)計提供的一些額外選項是基于7 系列和Virtex-6 FPGA器件的解決方案中所沒有的,因而超越了后者。當這個設(shè)計中的功能需要用在7系列或Virtex-6 FPGA設(shè)計中時,必須使用通用互聯(lián)。因此,Bitslip參考設(shè)計可滿足先前器件系列中Bitslip的要求和目標。
XAPP1203:在ZYNQ-7000 AP SOC上實現(xiàn)信號處理IP,以對XADC采樣進行后處理
本應(yīng)用指南是白皮書《在賽靈思All Programmable器件中有效實現(xiàn)模擬信號處理功能》(WP442)的后續(xù)配套文章,給出了簡單易用的設(shè)計流程,以便利用賽靈思All Programmable抽象在賽靈思FPGA和All Programmable SoC中實現(xiàn)模擬信號處理功能。作者Mrinal J. Sarmah和Cathal Murphy在書中詳細描述了如何利用白皮書中介紹的概念在Zynq-7000 All Programmable SoC上輕松構(gòu)建信號處理IP核與完整的混合信號系統(tǒng)。
本應(yīng)用指南演示了如何對來自模數(shù)轉(zhuǎn)換器的采樣進行后處理,以便以低成本方式濾除環(huán)境噪聲。所用的設(shè)計模塊是基于DSP模塊(支持標準AXI接口)的輕量級解決方案。讀者可在他們自己的設(shè)計中重用這些IP核,并作為XADC采樣的后處理方法。基于Vivado IP Integrator的設(shè)計流程可在基于原理圖的環(huán)境下簡化重用過程,使設(shè)計人員在該環(huán)境下不必處理底層RTL。
XAPP1205:利用ZYNQ-7000 ALL PROGRAMMABLE SOC和IP INTEGRATOR設(shè)計高性能視頻系統(tǒng)
對于賽靈思Zynq-7000 All Programmable SoC這樣的高端處理平臺,客戶希望充分利用器件中的處理系統(tǒng)(PS)和可用的定制外設(shè)。針對該理念的實例為一種具有多條視頻流水線的系統(tǒng),其中,在處理器訪問存儲器的同時,可將現(xiàn)場視頻流寫入存儲器(輸入),將存儲器的內(nèi)容送到現(xiàn)場視頻流(輸出)。由James Lucero和Bob Slous撰寫的本應(yīng)用指南涵蓋相應(yīng)設(shè)計原則,以便從Zynq SoC存儲器接口、可編程邏輯(PL)中實現(xiàn)的AXI主接口以及ARM Cortex-A9處理器中獲得高性能。.
對于視頻流,最差情況時延要確保不丟失或破壞數(shù)據(jù)幀。為了在PL中提供具有更低時延的高速AXI主接口,并直接訪問Zynq-7000 SoC存儲器接口,需要連接到高性能(HP)接口。Zynq SoC包含四個HP接口,均為針對高吞吐量而設(shè)計的64位或32位AXI3從接口。
該設(shè)計使用四個AXI視頻直接存儲器訪問(VDMA)內(nèi)核同步移動8個視頻流(4個發(fā)送視頻流和4個接收視頻流),所有視頻流均為1920 x 1080p格式,60Hz刷新率,每像素多達24個數(shù)據(jù)位。每個AXI視頻DMA內(nèi)核均采用視頻定時控制器(VTC)內(nèi)核建立必要的視頻定時信號,內(nèi)核由視頻測試模式發(fā)生器(TPG)驅(qū)動。每個AXI視頻DMA內(nèi)核讀取的數(shù)據(jù)被送到一個共用的視頻屏幕顯示(OSD)內(nèi)核,該內(nèi)核可將多個視頻流多路復(fù)用或重疊為單個輸出視頻流。板載HDMI視頻顯示接口由視頻屏幕顯示內(nèi)核的輸出和附加的IP核驅(qū)動。
該設(shè)計采用AXI性能監(jiān)視器內(nèi)核捕捉性能數(shù)據(jù)。所有4個AXI視頻DMA內(nèi)核都通過AXI互聯(lián)連接到4個獨立的HP接口,并受Cortex-A9處理器的控制。該系統(tǒng)使用70%的存儲器控制器帶寬。該參考設(shè)計適用于Zynq SoC ZC702評估板。
XAPP1091:在KINTEX-7 FPGA中實現(xiàn)實時視頻引擎2.0
在廣播視頻領(lǐng)域,不同格式的視頻內(nèi)容流經(jīng)過采集、處理、分配和使用等不同操作。為了正確存檔、分配和顯示內(nèi)容,視頻信號經(jīng)常需要通過適當?shù)母袷睫D(zhuǎn)換進行正確處理。例如,為了在全高清(FHD)LCD屏幕上正確顯示NTSC/PAL信號,必須執(zhí)行一系列去隔行、縮放、色度上采樣、顏色校正以及α混合操作。
本應(yīng)用指南利用最新的賽靈思Kintex-7 FPGA架構(gòu)提供真正可擴展的視頻處理器參考設(shè)計,以滿足多數(shù)據(jù)流/多流水線視頻處理需求。作者Bob Feng和Kavoos Hedayati針對的是多畫面監(jiān)控器顯示器、視頻開關(guān)和多通道視頻路由器以及多數(shù)據(jù)流上變頻器和下變頻器等應(yīng)用。
XAPP1095:在賽靈思ZYNQ-7000 ALL PROGRAMMABLE SOC中實現(xiàn)實時視頻引擎2.1
另一個以視頻為導(dǎo)向的應(yīng)用指南利用最新的Zynq-7000 All Programmable SoC架構(gòu)提供真正可擴展的視頻處理器參考設(shè)計,以滿足多數(shù)據(jù)流/多流水線視頻處理需求。此外,它還提供用以創(chuàng)建差異化內(nèi)容的圖形渲染功能。該設(shè)計針對的是多畫面監(jiān)控器顯示器、視頻開關(guān)和多通道視頻路由器以及多數(shù)據(jù)流上變頻器和下變頻器等應(yīng)用。
作者Bob Feng表示,他們的目標是提供針對多種視頻應(yīng)用的高度可論證的廣播質(zhì)量視頻處理參考設(shè)計。實時視頻引擎參考設(shè)計2.1版本(RTVE 2.1)可提供一種在Linux v3.3下使用API的圖形渲染平臺,具有Qt圖形環(huán)境并可執(zhí)行可擴展的視頻處理功能。
TIPS:文中文檔下載方式,請登錄China.xilinx.com,在搜索欄直接以文件編號為關(guān)鍵詞進行搜索,比如“XAPP1095”。
---> END <---
-
cpu
+關(guān)注
關(guān)注
68文章
11003瀏覽量
214998 -
模擬信號
+關(guān)注
關(guān)注
8文章
1155瀏覽量
53135 -
高性能
+關(guān)注
關(guān)注
0文章
169瀏覽量
20727
發(fā)布評論請先 登錄
相關(guān)推薦

評論