FPGA實(shí)現(xiàn)算法硬件加速的方法與步驟

當(dāng)設(shè)計(jì)者試圖從算法中獲得最佳性能但軟件方法已無計(jì)可施時(shí)，可以嘗試通過硬件/軟件重新劃分來進(jìn)行加速。FPGA易于實(shí)現(xiàn)軟件模塊和硬件模塊的相互交換，且不必改變處理器或進(jìn)行板級變動(dòng)。本文闡述如何用FPGA來實(shí)現(xiàn)算法的硬件加速。

如果想從代碼中獲得最佳性能，方法包括優(yōu)化算法、使用查找表而不是算法、將一切都轉(zhuǎn)換為本地字長尺寸、使用注冊變量、解開循環(huán)甚至可能采用匯編代碼。如果所有這些都不奏效，可以轉(zhuǎn)向更快的處理器、采用一個(gè)不同的處理器架構(gòu)，或?qū)⒋a一分為二通過兩個(gè)處理器并行處理。不過，如果有一種方法可將那些對時(shí)間有嚴(yán)格要求的代碼段轉(zhuǎn)換為能夠以5-100倍速度運(yùn)行的函數(shù)調(diào)用，而且如果這一方法是一種可供軟件開發(fā)之用的標(biāo)準(zhǔn)工具，這可信嗎？現(xiàn)在，利用可編程邏輯作為硬件加速的基礎(chǔ)可使這一切都變成現(xiàn)實(shí)。

圖1：帶定制指令的可配置處理器架構(gòu)。

低成本可編程邏輯在嵌入式系統(tǒng)中應(yīng)用得越來越普遍，這為系統(tǒng)設(shè)計(jì)者提供了一個(gè)無需對處理器或架構(gòu)進(jìn)行大的改動(dòng)即可獲得更高性能的可選方案。可編程邏輯可將計(jì)算密集型功能轉(zhuǎn)換為硬件加速功能。從軟件的角度看，這只是簡單地將一個(gè)函數(shù)調(diào)用做進(jìn)一個(gè)定制的硬件模塊中，但運(yùn)行速度要比通過匯編語言優(yōu) 化的相同代碼或?qū)⑺惴ㄞD(zhuǎn)換為查找表要快得多。

1. 硬件加速

首先探討一下什么是硬件加速，以及將算法作為定制指令來實(shí)現(xiàn)與采用硬件外圍電路的區(qū)別。硬件加速是指利用硬件模塊來替代軟件算法以充分利用硬件所固有的快速特性。從軟件的角度看，與硬件加速模塊接口就跟調(diào)用一個(gè)函數(shù)一樣。唯一的區(qū)別在于此函數(shù)駐留在硬件中，對調(diào)用函數(shù)是透明的。

取決于算法的不同，執(zhí)行時(shí)間最高可加快100倍。硬件在執(zhí)行各種操作時(shí)要快得多，如執(zhí)行復(fù)雜的數(shù)學(xué)功能、將數(shù)據(jù)從一個(gè)地方轉(zhuǎn)移到另一個(gè)地方，以及多次執(zhí)行同樣的操縱。本文后面將討論一些通常用軟件完成的操作，經(jīng)過硬件加速后這些操作可獲得極大的性能提高。

如果在系統(tǒng)設(shè)計(jì)中采用FPGA，那么在設(shè)計(jì)周期的任何時(shí)候都可以添加定制的硬件。設(shè)計(jì)者可以立刻編寫軟件代碼，并可在最終定稿之前在硬件部分上運(yùn)行。此外，還可以采取增量法來決定哪部分代碼用硬件而不是軟件來實(shí)現(xiàn)。FPGA供應(yīng)商所提供的開發(fā)工具可實(shí)現(xiàn)硬件和軟件之間的無縫切換。這些工具可以為總線邏輯和中斷邏輯生成HDL代碼，并可根據(jù)系統(tǒng)配置定制軟件庫及include文件。

2. 帶一些CISC的RISC

精簡指令集計(jì)算(RISC)架構(gòu)的目標(biāo)之一即是保持指令簡單化，以便讓指令運(yùn)行得足夠快。這與復(fù)雜指令集計(jì)算(CISC)架構(gòu)正好相反，后者一般不會(huì)同樣快地執(zhí)行指令，但每個(gè)指令可完成更多處理任務(wù)。這兩種架構(gòu)應(yīng)用得都很普遍，而且各有所長。

如果能根據(jù)特定的應(yīng)用將RISC的簡單和快速特性與CISC強(qiáng)大的處理能力結(jié)合起來，豈不兩全其美？其實(shí)這正是硬件加速所要做的。加入為某種應(yīng)用而定制的硬件加速模塊可以提高處理能力，并減少代碼復(fù)雜性和密度，因?yàn)橛布K取代了軟件模塊。可以這么說，是用硬件來換取速度和簡單性。

定制指令和硬件外圍電路方式

有兩種硬件加速模塊實(shí)現(xiàn)方式。其一是定制指令，它幾乎可在每一個(gè)可配置處理器中實(shí)現(xiàn)，這是采用可配置處理器的主要優(yōu)點(diǎn)。如圖1所示，定制指令是作為算術(shù)邏輯單元(ALU)的擴(kuò)展而添加的。處理器只知道定制指令就像其它指令一樣，包括擁有自己的操作代碼。至于C代碼，宏可自動(dòng)生成，從而使得使用該定制指令跟調(diào)用函數(shù)一樣。

如果定制指令需要幾個(gè)時(shí)鐘周期才能完成，而且要連續(xù)調(diào)用它，則可以流水線式定制指令來實(shí)現(xiàn)。這樣可在每個(gè)時(shí)鐘周期產(chǎn)生一個(gè)結(jié)果，不過開始時(shí)有些延遲。

硬件加速模塊的另一種實(shí)現(xiàn)方式是硬件外圍電路。在這一方式下，數(shù)據(jù)不是傳遞給軟件函數(shù)，而是寫入存儲(chǔ)器映射的硬件外圍電路中。計(jì)算是在 CPU之外完成的，因此在外圍電路工作的同時(shí)CPU可以繼續(xù)運(yùn)行代碼。其實(shí)代替軟件算法的只是一個(gè)普通的硬件外圍電路。與定制指令的另一個(gè)不同之處是硬件外圍電路可以訪問系統(tǒng)中的其它外圍電路或存儲(chǔ)器，而無須CPU介入。

根據(jù)硬件需要做什么、怎么工作以及需要多長時(shí)間可以決定采用是定制指令還是硬件外圍電路更合適。對于那些在幾個(gè)周期內(nèi)就可完成的操作，定制指令一般更好些，因?yàn)樗a(chǎn)生的開銷要更少。對于外圍電路，一般需要執(zhí)行幾個(gè)指令來寫入控制寄存器、狀態(tài)寄存器和數(shù)據(jù)寄存器，而且需要一個(gè)指令來讀取結(jié)果。如果計(jì)算需要幾個(gè)周期，實(shí)施外圍電路比較好，因?yàn)樗粫?huì)影響CPU流水線。或者，也可以實(shí)施前面所述的流水線式定制指令。

另一個(gè)區(qū)別是定制指令需要有限數(shù)目的操作數(shù)，并返回一個(gè)結(jié)果。根據(jù)處理器指令集架構(gòu)的不同，操作數(shù)也各異。對某些操縱，這樣可能顯得很麻煩。此外，如果需要硬件從存儲(chǔ)器或存儲(chǔ)器中的其它外圍電路讀出和寫入，則必須采用硬件外圍電路，因?yàn)槎ㄖ浦噶顭o法訪問總線。

圖2：16位CRC算法的硬件實(shí)現(xiàn)。（Optional）

3. 選擇代碼

當(dāng)需要優(yōu)化C語言代碼以滿足某些速度要求時(shí)，可能要運(yùn)行一個(gè)代碼仿制工具，或親自檢查該代碼以便了解代碼的哪個(gè)部分導(dǎo)致系統(tǒng)停滯。當(dāng)然，這需要熟悉代碼以便知道瓶頸在哪兒。

即便找出瓶頸所在，如何優(yōu)化也是個(gè)挑戰(zhàn)。有些方案采用本地字大小的變量、帶預(yù)先計(jì)算值的查找表，以及通用軟件算法優(yōu)化。這些技巧可產(chǎn)生快幾倍的執(zhí)行速度效果。另一種優(yōu)化C算法的方法是用匯編語言編寫。過去這種方法可獲得很好的提高，但現(xiàn)今的編譯器在優(yōu)化C算法上已做得很好，因此這種性能的提高是有限的。如果需要顯著的性能提高，傳統(tǒng)的軟件算法優(yōu)化技巧恐怕是不夠的。

然而，利用硬件實(shí)施的算法比軟件實(shí)施要強(qiáng)100倍，這不足為奇。那么，如何確定將哪些代碼轉(zhuǎn)為硬件實(shí)施呢？大可不必將整個(gè)軟件模塊轉(zhuǎn)換為硬件，而應(yīng)選擇那些在硬件中運(yùn)行得特別快的操作，比如將數(shù)據(jù)從一處復(fù)制到另一處、大量的數(shù)學(xué)運(yùn)算以及任何運(yùn)行多次的循環(huán)。如果一個(gè)任務(wù)由幾個(gè)數(shù)學(xué)運(yùn)算組成，還可以考慮在硬件中加速整個(gè)任務(wù)。有些時(shí)候，僅加速任務(wù)中的一個(gè)操作就可滿足性能要求。

4. 實(shí)例：CRC算法的硬件加速

由于大量且重復(fù)的計(jì)算，循環(huán)冗余校驗(yàn)(CRC)算法或任何“校驗(yàn)和”算法都是硬件加速的不錯(cuò)選擇。下面通過一個(gè)CRC算法的優(yōu)化過程來探討如何實(shí)現(xiàn)硬件加速。

首先，利用傳統(tǒng)的軟件技巧來優(yōu)化算法，然后將其轉(zhuǎn)向定制指令以加速算法。我們將討論不同實(shí)現(xiàn)方法的性能比較和折衷。

CRC算法可用來校驗(yàn)數(shù)據(jù)在傳輸過程中是否被破壞。這些算法很流行，因?yàn)樗鼈兙哂泻芨叩臋z錯(cuò)率，而且不會(huì)對數(shù)據(jù)吞吐量造成太大影響，因?yàn)?CRC校驗(yàn)位被添加進(jìn)數(shù)據(jù)信息中。但是，CRC算法比一些簡單的校驗(yàn)和算法有更大的計(jì)算量要求。盡管如此，檢錯(cuò)率的提高使得這種算法值得去實(shí)施。

一般說來，發(fā)送端對要被發(fā)送的消息執(zhí)行CRC算法，并將CRC結(jié)果添加進(jìn)該消息中。消息的接收端對包括CRC結(jié)果在內(nèi)的消息執(zhí)行同樣的CRC操作。如果接收端的結(jié)果與發(fā)送端的不同，這說明數(shù)據(jù)被破壞了。

CRC算法是一種密集的數(shù)學(xué)運(yùn)算，涉及到二元模數(shù)除法(modulo-2 division)，即數(shù)據(jù)消息被16或32位多項(xiàng)式(取決于所用CRC標(biāo)準(zhǔn))除所得的余數(shù)。這種操作一般通過異或和移位的迭代過程來實(shí)現(xiàn)，當(dāng)采用16位多項(xiàng)式時(shí)，這相當(dāng)于每數(shù)據(jù)字節(jié)要執(zhí)行數(shù)百條指令。如果發(fā)送數(shù)百個(gè)字節(jié)，計(jì)算量就會(huì)高達(dá)數(shù)萬條指令。因此，任何優(yōu)化都會(huì)大幅提高吞吐量。

代碼列表1中的CRC函數(shù)有兩個(gè)自變量(消息指針和消息中的字節(jié)數(shù))，它可返回所計(jì)算的CRC值(余數(shù))。盡管該函數(shù)的自變量是一些字節(jié)，但計(jì)算要逐位來執(zhí)行。該算法并不高效，因?yàn)樗胁僮?與、移位、異或和循環(huán)控制)都必須逐位地執(zhí)行。

列表1：逐位執(zhí)行的CRC算法C代碼。

/*
* The width of the CRC calculation and result.
* Modify the typedef for a 16 or 32-bit CRC standard.
*/
typedef unsigned char crc;
#define WIDTH (8 * sizeof(crc))
#define TOPBIT (1 << (WIDTH - 1))

crc crcSlow(unsigned char const message[], int nBytes)
{
    crc remainder = 0;
    /*
    * Perform modulo-2 division, a byte at a time.
    */
    for (int byte = 0; byte < nBytes; ++byte)
    {
        /*
        * Bring the next byte into the remainder.
        */
        remainder ^= (message[byte] << (WIDTH - 8));
        /*
        * Perform modulo-2 division, a bit at a time.
        */
        for (unsigned char bit = 8; bit > 0; bit--)
        {
            /*
            * Try to divide the current data bit.
            */
            if (remainder & TOPBIT)
            {
                remainder = (remainder << 1) ^ POLYNOMIAL;
            }
            else
            {
                remainder = (remainder << 1);
            }
        }
    }
    /*
    * The final remainder is the CRC result.
    */
    return (remainder);
}

4.1 傳統(tǒng)的軟件優(yōu)化

圖3：帶CRC外圍電路和DMA的系統(tǒng)模塊示意圖。

讓我們看一下如何利用傳統(tǒng)的軟件技巧來優(yōu)化CRC算法。因?yàn)镃RC操作中的一個(gè)操作數(shù)，即多項(xiàng)式(除數(shù))是常數(shù)，字節(jié)寬CRC操作的所有可能結(jié)果都可以預(yù)先計(jì)算并存儲(chǔ)在一個(gè)查找表中。這樣，通過一個(gè)讀查找表動(dòng)作就可讓操作按逐個(gè)字節(jié)執(zhí)行下去。

采用這一算法時(shí)，需要將這些預(yù)先計(jì)算好的值存儲(chǔ)在存儲(chǔ)器中。選擇ROM或RAM都可以，只要在啟動(dòng)CRC計(jì)算之前將存儲(chǔ)器初始化就行。查找表有256個(gè)字節(jié)，表中每個(gè)字節(jié)位置包含一個(gè)CRC結(jié)果，共有256種可能的8位消息(與多項(xiàng)式大小無關(guān))。

列表2示出了采用查找表方法的C代碼，包括生成查找表crcInit()中數(shù)值的代碼。

crc crcTable[256];
void crcInit(void)
{
    crc remainder;
    /*
    * Compute the remainder of each possible dividend.
    */
    for (int dividend = 0; dividend < 256; ++dividend)
    {
        /*
        * Start with the dividend followed by zeros.
        */
        remainder = dividend << (WIDTH - 8);
        /*
        * Perform modulo-2 division, a bit at a time.
        */
        for (unsigned char bit = 8; bit > 0; bit--)
        {
            /*
            * Try to divide the current data bit.
            */
            if (remainder & TOPBIT)
            {
                remainder = (remainder << 1) ^ POLYNOMIAL;
            }
            else
            {
                remainder = (remainder << 1);
            }
        }
        /*
        * Store the result into the table.
        */
        crcTable[dividend] = remainder;
    }
} /* crcInit() */

crc crcFast(unsigned char const message[], int nBytes)
{
    unsigned char data;
    crc remainder = 0;
    /*
    * Divide the message by the polynomial, a byte at a time.
    */
    for (int byte = 0; byte < nBytes; ++byte)
    {
        data = message[byte] ^ (remainder >> (WIDTH - 8));
        remainder = crcTable[data] ^ (remainder << 8);
    }
    /*
    * The final remainder is the CRC.
    */
    return (remainder);
} /* crcFast() */

整個(gè)計(jì)算減少為一個(gè)循環(huán)，每字節(jié)(不是每位)有兩個(gè)異或、兩個(gè)移位操作和兩個(gè)裝載指令。基本上，這里是用查找表的存儲(chǔ)空間來換取速度。該方法比逐位計(jì)算的方法要快9.9倍，這一提高對某些應(yīng)用已經(jīng)足夠。如果需要更高的性能，可以嘗試編寫匯編代碼或增加查找表容量以擠出更多性能來。但是，如果需要20、50甚至500倍的性能提高，就要考慮采用硬件加速來實(shí)現(xiàn)該算法了。

表1：各種規(guī)模的數(shù)據(jù)模塊下CRC算法測試比較結(jié)果。

4.2 采用定制指令方法

CRC算法由連續(xù)的異或和移位操作構(gòu)成，用很少的邏輯即可在硬件中簡單實(shí)現(xiàn)。由于這一硬件模塊僅需幾個(gè)周期來計(jì)算CRC，采用定制指令來實(shí) 現(xiàn)CRC計(jì)算要比采用外圍電路更好。此外，無須涉及系統(tǒng)中任何其它外圍電路或存儲(chǔ)器。僅需要一個(gè)微處理器來支持定制指令即可，一般是指可配置微處理器。

當(dāng)在硬件中實(shí)現(xiàn)時(shí)，算法應(yīng)該每次執(zhí)行16或32位計(jì)算，這取決于所采用的CRC標(biāo)準(zhǔn)。如果采用CRC-CCITT標(biāo)準(zhǔn)(16位多項(xiàng)式)，最好每次執(zhí)行16位計(jì)算。如果使用8位微處理器，效率可能不太高，因?yàn)檠b載操作數(shù)值及返回CRC值需要額外的周期。圖2示出了用硬件實(shí)現(xiàn)16位CRC算法的內(nèi)核。

信號msg(15..0)每次被移入異或/移位硬件一位。列表3示出了在64KB數(shù)據(jù)模塊上計(jì)算CRC的一些C代碼例子。該實(shí)例是針對Nios 嵌入式處理器。

列表3：采用定制指令的CRC計(jì)算C代碼。

unsigned short crcCompute(unsigned short *data_block, unsigned int nWords)
{
    unsigned short* pointer;
    unsigned short word;
    /*
    * initialize crc reg to 0xFFFF
    */
    word = nm_crc (0xFFFF, 1); /* nm_crc() is the CRC custom instruction */
    /*
    * calculate CRC on block of data
    * nm_crc() is the CRC custom instruction
    *
    */
    for (pointer = data_block; pointer < (data_block + nWords); pointer ++)
    word = nm_crc(*pointer, 0) return (word);
}

int main(void)
{
    #define data_block_begin (na_onchip_memory)
    #define data_block_end (na_onchip_memory + 0xffff)
    unsigned short crc_result;
    unsigned int data_block_length = (unsigned short *)data_block_end - 
                                     (unsigned short *)data_block_begin + 1;
    crc_result = crcCompute((unsigned short *)data_block_begin, data_block_length);
}

采用定制指令時(shí)，用于計(jì)算CRC值的代碼是一個(gè)函數(shù)調(diào)用，或宏。當(dāng)針對Nios處理器實(shí)現(xiàn)定制指令時(shí)，系統(tǒng)構(gòu)建工具會(huì)生成一個(gè)宏。在本例中為nm_crc()，可用它來調(diào)用定制指令。

在啟動(dòng)CRC計(jì)算之前，定制指令內(nèi)的CRC寄存器需要先初始化。裝載初始值是CRC標(biāo)準(zhǔn)的一部分，而且每種CRC標(biāo)準(zhǔn)都不一樣。接著，循環(huán)將為數(shù)據(jù)模塊中的每16位數(shù)據(jù)調(diào)用一次CRC定制指令。這種定制指令實(shí)現(xiàn)方式要比逐位實(shí)現(xiàn)的方法快27倍。

4.3 CRC外圍電路方法

如果將CRC算法作為硬件外圍電路來實(shí)現(xiàn)，并利用DMA將數(shù)據(jù)從存儲(chǔ)器轉(zhuǎn)移到外圍電路，這樣還可以進(jìn)一步提高速度。這種方法將省去處理器為每次計(jì)算而裝載數(shù)據(jù)所需要的額外周期。DMA可在此外圍電路完成前一次CRC計(jì)算的時(shí)鐘周期內(nèi)提供新的數(shù)據(jù)。圖3示出了利用DMA、CRC外圍電路來實(shí)現(xiàn) 加速的系統(tǒng)模塊示意圖。

在64KB數(shù)據(jù)模塊上，利用帶DMA的定制外圍電路可獲得比逐位計(jì)算的純軟件算法快500倍的性能。要知道，隨著數(shù)據(jù)模塊規(guī)模的增加，使用 DMA所獲得的性能也隨之提高。這是因?yàn)樵O(shè)置DMA僅需很少的開銷，設(shè)置之后DMA運(yùn)行得特別快，因?yàn)槊總€(gè)周期它都可以傳遞數(shù)據(jù)。因此，若只有少數(shù)字節(jié)的數(shù)據(jù)，用DMA并不劃算。

這里所討論的所有采用CRC-CCITT標(biāo)準(zhǔn)(16位多項(xiàng)式)的算法都是在Altera Stratix FPGA的Nios處理器上實(shí)現(xiàn)的。表1示出了各種數(shù)據(jù)長度的測試比較結(jié)果，以及大致的硬件使用情況(FPGA中的存儲(chǔ)器或邏輯單元)。

可以看出，算法所用的硬件越多，算法速度越快。這是用硬件資源來換取速度。

5. FPGA的優(yōu)點(diǎn)

當(dāng)采用基于FPGA的嵌入式系統(tǒng)時(shí)，在設(shè)計(jì)周期之初不必為每個(gè)模塊做出用硬件還是軟件的選擇。如果在設(shè)計(jì)中間階段需要一些額外的性能，則可以利用FPGA中現(xiàn)有的硬件資源來加速軟件代碼中的瓶頸部分。由于FPGA中的邏輯單元是可編程的，可針對特定的應(yīng)用而定制硬件。因此，僅使用所需要的硬件即可，而不必做出任何板級變動(dòng)(前提是FPGA中的邏輯單元足夠用)。設(shè)計(jì)者不必轉(zhuǎn)換到另一個(gè)新的處理器或者編寫匯編代碼，就可做到這一點(diǎn)。

使用帶可配置處理器的FPGA可獲得設(shè)計(jì)靈活性。設(shè)計(jì)者可以選擇如何實(shí)現(xiàn)軟件代碼中的每個(gè)模塊，如用定制指令，或硬件外圍電路。此外，還可以通過添加定制的硬件而獲取比現(xiàn)成微處理器更好的性能。

另一點(diǎn)要知道的是，F(xiàn)PGA有充裕的資源，可配置處理器系統(tǒng)可以充分利用這一資源。

算法可以用軟件，也可用硬件實(shí)現(xiàn)。出于簡便和成本考慮，一般利用軟件來實(shí)現(xiàn)大部分操作，除非需要更高的速度以滿足性能指標(biāo)。軟件可以優(yōu)化，但有時(shí)是不夠的。如果需要更高的速度，利用硬件來加速算法是一個(gè)不錯(cuò)的選擇。

FPGA使軟件模塊和硬件模塊的相互交換更加簡便，不必改變處理器或進(jìn)行板級變動(dòng)。設(shè)計(jì)者可以在速度、硬件邏輯、存儲(chǔ)器、代碼大小和成本之間做出折衷。利用FPGA可以設(shè)計(jì)定制的嵌入式系統(tǒng)，以增加新的功能特性及優(yōu)化性能。

審核編輯：黃飛

閱讀全文

處理器(221453) 處理器(221453)
FPGA(591969) FPGA(591969)
寄存器(117355) 寄存器(117355)
嵌入式系統(tǒng)(128115) 嵌入式系統(tǒng)(128115)
RISC(83081) RISC(83081)

縱覽FFmpeg硬件加速方案，涉及主流硬件和操作系統(tǒng)！

被稱為“多媒體技術(shù)領(lǐng)域的瑞士軍刀”，F(xiàn)Fmpeg擁有廣泛的應(yīng)用基礎(chǔ)。不過，當(dāng)（實(shí)時(shí)）處理海量視頻時(shí)，需要借助各種方法提升效率。本文將縱覽FFmpeg的硬件加速方案，涉及各主流硬件方案和操作系統(tǒng)。

2018-05-18 09:03:30

8487

FPGA硬件加速的圖像大小調(diào)整案例分析

大小調(diào)整，另一種使用Xilinx xfopencv library實(shí)現(xiàn)了在FPGA上硬件加速的圖像大小調(diào)整。初始化 1. 首先在SD卡內(nèi)配置Pynq-Z2最新鏡像PYNQ image v2.5并燒錄

2020-11-19 15:29:43

3044

基于賽靈思FPGA的廣告推薦算法Wide and deep硬件加速案例

作者：雪湖科技梅碧峰在這篇文章里你可以了解到廣告推薦算法Wide and deep模型的相關(guān)知識(shí)和搭建方法，還能了解到模型優(yōu)化和評估的方式。我還為你準(zhǔn)備了將模型部署到賽靈思 FPGA上做硬件加速

2020-11-27 10:46:44

2669

針對LSTM實(shí)現(xiàn)硬件加速的稀疏化案例分析

的應(yīng)用于語音識(shí)別、機(jī)器翻譯、手寫識(shí)別等。LSTM涉及到大量的矩陣乘法和向量乘法運(yùn)算，會(huì)消耗大量的FPGA計(jì)算資源和帶寬。為了實(shí)現(xiàn)硬件加速，提出了稀疏LSTM。核心是通過剪枝算法去除影響較小的權(quán)重，不斷迭代訓(xùn)練以達(dá)到目標(biāo)函數(shù)收斂。參與實(shí)際運(yùn)算的權(quán)重?cái)?shù)量大大縮減，這可以有效降低FPGA計(jì)算資源

2020-11-29 11:24:19

2746

2017雙11技術(shù)揭秘—千億級流量來襲，如何用硬件加速技術(shù)為CPU減負(fù)？

利用硬件模塊來替代軟件算法以充分利用硬件所固有的快速特性（硬件加速通常比軟件算法的效率要高），從而達(dá)到性能提升、成本優(yōu)化目的，當(dāng)前主要是如下兩大加速方式：FPGA 現(xiàn)場可編程門陣列，可針對某個(gè)具體的軟件

2017-12-29 11:25:28

硬件實(shí)現(xiàn)EMD算法用那種架構(gòu)比較好？

本人學(xué)生，在實(shí)驗(yàn)室打算做EMD算法的硬件實(shí)現(xiàn)，看了一些論文，感覺主要是單獨(dú)用FPGA實(shí)現(xiàn)，或者用DSP+FPGA實(shí)現(xiàn)（DSP做EMD算法，FPGA做數(shù)據(jù)流控制），請問大家用哪種架構(gòu)做硬件實(shí)現(xiàn)EMD算法比較好？

2018-04-25 21:04:33

Firefly-RK3288 Linux硬件加速，可安裝Kodi

適用于Firefly-RK3288的板子* rockchip kernel 4.4 (VPU, GPU, DRM RGA and WIFI設(shè)備驅(qū)動(dòng))* rockchip debian stretch (xserver已加入GPU加速,帶硬件加速的gstreamer )

2017-08-19 15:10:30

GNN（圖神經(jīng)網(wǎng)絡(luò)）硬件加速的FPGA實(shí)戰(zhàn)解決方案

算法的軟件實(shí)現(xiàn)方式非常低效，所以業(yè)界對GNN的硬件加速有著非常迫切的需求。我們知道傳統(tǒng)的CNN（卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)）硬件加速方案已經(jīng)有非常多的解決方案；但是，GNN的硬件加速尚未得到充分的討論和研究，在

2021-07-07 08:00:00

H.264解碼器中CABAC硬件加速器怎么實(shí)現(xiàn)？

H.264解碼器中CABAC硬件加速器怎么實(shí)現(xiàn)？

2021-06-07 06:48:58

MCU廠推多樣解決方案 DSP/FPU硬件加速芯片整合

處理對應(yīng)至各式演算法應(yīng)用，兩者功能可以說是各有互補(bǔ)效用，比較難被獨(dú)立拆分。以ARM Cortex-M4來看，若僅提供DSP硬件加速處理器反而沒設(shè)置FPU浮點(diǎn)運(yùn)算加速器反而會(huì)造成應(yīng)用限制，因?yàn)樵?/div>

2016-10-14 17:17:54

XCKU115板卡資料：1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡一、概述本板卡系我公司自主研發(fā)，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作為主處理器，主要用于FPGA

2019-10-25 16:00:50

labview可用硬件怎么加速？

目前我使用NI的機(jī)箱采集數(shù)據(jù)，labview做軟件平臺(tái)生成一個(gè)系統(tǒng)。想要達(dá)到實(shí)時(shí)性效果。能否給NI或labview采用硬件加速，提高處理速的呢？如何做呢？有什么資料可以參考？

2018-09-29 09:34:24

【FPGA干貨分享六】基于FPGA協(xié)處理器的算法加速的實(shí)現(xiàn)

HDL的轉(zhuǎn)換工具將C代碼轉(zhuǎn)換到HDL加速器是一種創(chuàng)建硬件協(xié)處理器的高效方法。圖2所示以及下面詳述的步驟總結(jié)了C到HDL轉(zhuǎn)換的過程：[/url]圖2：C-HDL設(shè)計(jì)流程1. 使用標(biāo)準(zhǔn)C工具實(shí)現(xiàn)應(yīng)用程序或

2015-02-02 14:18:19

【KV260視覺入門套件試用體驗(yàn)】硬件加速之—使用PL加速FFT運(yùn)算（Vivado）

的應(yīng)用，比如在數(shù)學(xué)，密碼學(xué)，天文學(xué)，地震學(xué)，生物學(xué)等領(lǐng)域。本文主旨利用PL端的并行性和靈活性來實(shí)現(xiàn)高效的FFT運(yùn)算，在KV260搭建一個(gè)硬件加速算法，作為對比，我同時(shí)使用ARM核進(jìn)行fft運(yùn)算，驗(yàn)證PL

2023-10-02 22:03:13

【PYNQ-Z2申請】圖像目標(biāo)識(shí)別FPGA硬件加速

項(xiàng)目名稱：圖像目標(biāo)識(shí)別FPGA硬件加速試用計(jì)劃：申請理由本人供職于一家AI公司，現(xiàn)在在使用FPGA硬件加速相關(guān)目標(biāo)檢測算法的端側(cè)實(shí)現(xiàn)（鑒黃/司機(jī)行為識(shí)別），公司已經(jīng)有非常成熟的軟件算法以及GPU

2019-01-09 14:51:09

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】（原創(chuàng)）7.硬件加速Sora文生視頻源代碼

信號 text_ready <= 0; end // 文本處理與視頻生成（占位符，調(diào)用硬件加速器或實(shí)現(xiàn)相應(yīng)算法） if (text_processing &&

2024-02-22 09:49:01

一種基于FPGA的圖神經(jīng)網(wǎng)絡(luò)加速器解決方案

（Baidu）都無法搜索到關(guān)于GNN硬件加速的中文研究資料。本白皮書的寫作動(dòng)機(jī)是將國外最新的GNN算法、對加速技術(shù)的研究以及對基于現(xiàn)場可編程邏輯門陣列（FPGA）的GNN加速技術(shù)的探討相結(jié)合，并以概述

2021-09-25 17:20:41

為什么FPGA協(xié)處理器可以實(shí)現(xiàn)算法加速？

代碼加速和代碼轉(zhuǎn)換到硬件協(xié)處理器的方法如何采用FPGA協(xié)處理器實(shí)現(xiàn)算法加速？

2021-04-13 06:39:25

為什么要進(jìn)入最佳硬件加速板？

我想進(jìn)入硬件加速。什么板對此有好處，為什么？

2019-10-10 07:00:38

基于 FPGA 的目標(biāo)檢測網(wǎng)絡(luò)加速電路設(shè)計(jì)

流水線結(jié)構(gòu)和很強(qiáng) 的并行處理能力，還擁有低功耗、配置方便靈活的特性，可以根據(jù)應(yīng)用需要來編程定制硬件，已成為研究實(shí)現(xiàn) CNN 硬件加速的熱門平臺(tái)。綜上所述，使用功耗低、并行度高的 FPGA 平臺(tái)加速

2023-06-20 19:45:12

基于FPGA的FFT算法硬件實(shí)現(xiàn)

本帖最后由 gk320830 于 2015-3-8 21:23 編輯開始科創(chuàng)，老師給了我們一個(gè)題基于FPGA的FFT算法硬件實(shí)現(xiàn)。但是什么都不會(huì)，想找些論文看看，求相關(guān)的論文

2012-05-24 22:14:40

基于FPGA的超高速FFT硬件實(shí)現(xiàn)

基于FPGA的超高速FFT硬件實(shí)現(xiàn)介紹了頻域抽取基二快速傅里葉運(yùn)算的基本原理；討論了基于FPGA達(dá)4 096點(diǎn)的大點(diǎn)數(shù)超高速FFT硬件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)方法，當(dāng)多組大點(diǎn)數(shù)進(jìn)行FFT運(yùn)算時(shí)，利用FPGA

2009-06-14 00:19:55

基于FPGA的邊緣檢測和Sobel算法

轉(zhuǎn)帖摘要：針對嵌入式軟件無法滿足數(shù)字圖像實(shí)時(shí)處理速度問題，提出用硬件加速器的思想，通過FPGA實(shí)現(xiàn)Sobel邊緣檢測算法。通過乒乓操作、并行處理數(shù)據(jù)和流水線設(shè)計(jì)，大大提高算法的處理速度。采用模塊

2017-11-29 08:57:04

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡解決方案

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡一、概述本板卡系我公司自主研發(fā)，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作為主處理器，主要用于FPGA

2018-07-27 16:49:30

基于Xilinx XCKU115的半高PCIe x8硬件加速卡

，主要用于FPGA硬件加速。板卡設(shè)計(jì)滿足工業(yè)級要求。如下圖所示：圖 1：硬件加速卡實(shí)物圖二、技術(shù)指標(biāo)圖 2：硬件加速卡結(jié)構(gòu)框圖標(biāo)準(zhǔn)PCIe半高、半長卡，符合PCI Express 3.0 規(guī)范

2018-08-22 17:31:55

如何充分利用數(shù)字信號處理器上的片內(nèi)FIR和IIR硬件加速器？

上的片內(nèi)FIR和IIR硬件加速器也分別稱為FIRA和IIRA，我們可以利用這些硬件加速器來分擔(dān)FIR和IIR處理任務(wù)，讓內(nèi)核去執(zhí)行其他處理任務(wù)。在本文中，我們將借助不同的使用模型以及實(shí)時(shí)測試示例來探討如何在實(shí)踐中利用這些加速器。

2020-12-28 06:26:54

如何讓opencv使用官方的GStreamer-rockchip實(shí)現(xiàn)硬件加速呢

opencv編譯和運(yùn)行時(shí)，使用的是安裝的GStreamer視頻IO，那么如何讓opencv使用官方的GStreamer-rockchip實(shí)現(xiàn)硬件加速呢？

2022-04-08 15:25:33

想用FPGA實(shí)現(xiàn)雙邊濾波算法，有懂得能說一下具體的實(shí)現(xiàn)步驟嗎

想用FPGA實(shí)現(xiàn)雙邊濾波算法，有懂得能說一下具體的實(shí)現(xiàn)步驟嗎

2017-03-21 15:41:13

找不到3d硬件加速器怎么辦

器解決辦法　　1：Flash設(shè)置　　Flash從10開始引入了顯卡硬件加速功能，可以大幅度提高Flash播放速度和流暢度。如果未開啟顯卡硬件加速，那么游戲卡是很正常。　　設(shè)置方法：　　右鍵點(diǎn)擊游戲頁面

2019-08-21 09:04:31

指紋識(shí)別算法的研究及基于FPGA的硬件實(shí)現(xiàn)

本帖最后由 eehome 于 2013-1-5 10:04 編輯指紋識(shí)別算法的研究及基于FPGA的硬件實(shí)現(xiàn)

2012-05-23 20:14:46

無法導(dǎo)入硬件加速器

嗨！我已經(jīng)創(chuàng)建了一個(gè)硬件加速器（在vhdl中）并且合成成功完成。但是，當(dāng)我使用創(chuàng)建和導(dǎo)入外圍設(shè)備向?qū)r(shí)，它向我顯示我的包在庫中不可用，盡管它是。我能做什么？？？L'enfer，c'est l

2019-02-27 14:15:31

機(jī)器學(xué)習(xí)實(shí)戰(zhàn)：GNN加速器的FPGA解決方案

，其算法的軟件實(shí)現(xiàn)方式非常低效，所以業(yè)界對GNN的硬件加速有著非常迫切的需求。我們知道傳統(tǒng)的CNN（卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)）硬件加速方案已經(jīng)有非常多的解決方案；但是，GNN的硬件加速尚未得到充分的討論和研究

2020-10-20 09:48:39

求一種基于Xilinx XCKU115的半高PCIe x8 硬件加速卡

半高PCIe x8硬件加速卡有哪些技術(shù)指標(biāo)？半高PCIe x8硬件加速卡的物理特性是什么？半高PCIe x8硬件加速卡的接口測試軟件有哪些？

2021-06-25 07:16:05

求助：小波算法的FPGA硬件如何實(shí)現(xiàn)

用FPGA硬件實(shí)現(xiàn)。現(xiàn)在我沒有FPGA硬件實(shí)現(xiàn)的經(jīng)驗(yàn)，不知道如何用FPGA硬件實(shí)現(xiàn)小波算法。懇請賜教！謝謝！

2012-11-20 21:35:16

轉(zhuǎn)：用fpga 實(shí)現(xiàn)圖形算法的硬件加速設(shè)計(jì) 有源碼

,刀劍棍棒皆可用，無論單片機(jī),FPGA或是ARM DSP.下面是Bresenham畫線算法分別用C語言和verilog 分別實(shí)現(xiàn)，這是我做的LCD控制器里硬件加速的一個(gè)模塊,其它如畫圓，字符，填充等可以

2012-12-25 16:33:01

問下ARM3的硬件加速器只能用verilog寫嗎？

問下ARM3的硬件加速器只能用verilog寫嗎？

2022-09-30 10:45:39

阿里七層流量入口 Tengine硬件加速探索之路

卸載，相對于QAT并不具有加速作用。方案三是FPGA卡方案，相對來說開發(fā)成本較高，且相關(guān)資源匱乏。綜上評估，選擇方案一對Gzip進(jìn)行卸載及加速。Tengine Gzip 硬件加速方案實(shí)踐左邊的圖是軟件

2018-06-04 17:07:55

基于FPGA 的指紋識(shí)別算法硬件實(shí)現(xiàn)

提出用FPGA 來實(shí)現(xiàn)指紋識(shí)別算法, 代替了PC 機(jī)、通用MCU 或者DSP。算法由硬件來實(shí)現(xiàn), 提高了運(yùn)算速度。同時(shí)具體說明了指紋識(shí)別系統(tǒng)的基本原理、系統(tǒng)總體結(jié)構(gòu)、FPGA 模塊劃分, 以及指

2009-07-22 15:17:27

數(shù)字集成電路設(shè)計(jì)中的硬件加速驗(yàn)證技術(shù)

摘要：在芯片規(guī)模指數(shù)式上升和要求面市時(shí)間快速縮短的雙重壓力下，驗(yàn)證已成為數(shù)字集成電路設(shè)計(jì)的瓶頸。利用硬件加速驗(yàn)證技術(shù)能很好地解決這一問題。該文論述了硬件加速驗(yàn)

2010-04-26 10:20:15

ARM：未來視覺體驗(yàn)將通過圖形硬件加速得到提升

ARM：未來視覺體驗(yàn)將通過圖形硬件加速得到提升 iPhone所帶來的“蝴蝶效應(yīng)”讓業(yè)界對視覺體驗(yàn)(Visual Experience)有了全新的認(rèn)識(shí)，其圖形的縮放、翻轉(zhuǎn)、倒置、井深、反射、三

2008-10-24 09:06:06

520

采用硬件加速發(fā)揮MicroBlaze處理能力

采用硬件加速發(fā)揮MicroBlaze處理能力　　MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開發(fā)套件 (EDK) 中提供的兩款32位內(nèi)核之一，是實(shí)現(xiàn)硬件加速的靈活工具。圖1是MicroBlaze的

2010-03-10 10:24:16

1132

加速處理器的正弦函數(shù)計(jì)算步驟

有很多種算法可對單精度浮點(diǎn)數(shù)字的正弦值進(jìn)行計(jì)算，但添加硬件加速器是功能最為強(qiáng)大的方法之一。之所以得出這一結(jié)論，是因?yàn)榭蛻舻膽?yīng)用要求使用此類正弦計(jì)算，而我們又針對能

2011-08-31 15:36:46

基于VxWorks的硬件加速技術(shù)探討

簡述了愛普生S1D13A05芯片的架構(gòu)特征，并且介紹了其中的2D硬件加速引擎的工作模式和相關(guān)的寄存器設(shè)置，最后以VxWorks操作系統(tǒng)作為開發(fā)環(huán)境，基于風(fēng)河公司W(wǎng)indML圖形開發(fā)包，對S1D13A0

2011-09-01 14:07:47

960

基于FPGA Nios-Ⅱ的矩陣運(yùn)算硬件加速器設(shè)計(jì)

針對復(fù)雜算法中矩陣運(yùn)算量大, 計(jì)算復(fù)雜, 耗時(shí)多, 制約算法在線計(jì)算性能的問題, 從硬件實(shí)現(xiàn)角度, 研究基于FPGA/Nios-Ⅱ的矩陣運(yùn)算硬件加速器設(shè)計(jì), 實(shí)現(xiàn)矩陣并行計(jì)算。首先根據(jù)矩陣運(yùn)算

2011-12-06 17:30:41

Nios II C語言至硬件加速編譯器

電子發(fā)燒友網(wǎng)核心提示: 獲獎(jiǎng)的Nios II 嵌入式處理器C語言至硬件（C2H）加速編譯器將對時(shí)間要求較高的ANSI C函數(shù)轉(zhuǎn)換為FPGA中的硬件加速器，從而提高了性能。特性： (1)ANSI/ISO C 代碼按鍵

2012-10-17 14:29:34

1901

Mentor Graphics硬件加速仿真服務(wù)使用Veloce 硬件加速仿真平臺(tái)加速驗(yàn)證

　　俄勒岡州威爾遜維爾，2016 年 4 月 20 日 — Mentor Graphics公司（納斯達(dá)克代碼：MENT）今日宣布，Mentor? 硬件加速仿真服務(wù)采用具有專業(yè)服務(wù)和 IP 的 Veloce? 硬件加速仿真平臺(tái) ，借此加速仿真驗(yàn)證并降低與片上系統(tǒng) （SoC）設(shè)計(jì)相關(guān)的風(fēng)險(xiǎn)。

2016-04-20 11:22:08

2307

精確分類的視角無關(guān)人臉檢測方法與硬件加速體系結(jié)構(gòu)

精確分類的視角無關(guān)人臉檢測方法與硬件加速體系結(jié)構(gòu)，不錯(cuò)的論文，值得學(xué)習(xí)參考。

2016-09-18 15:22:48

基于硬件加速的實(shí)時(shí)仿真平臺(tái)構(gòu)建技術(shù)

基于硬件加速的實(shí)時(shí)仿真平臺(tái)構(gòu)建技術(shù)_孔璐

2017-01-03 17:41:58

Bitfusion支持通過云訪問基于賽靈思All Programmable器件的FPGA硬件加速功能

這是必然趨勢，肯定有人會(huì)通過云訪問 FPGA 硬件加速功能。 Bitfusion 既開發(fā)軟件，又設(shè)計(jì)硬件，并且與 Rackspace 協(xié)作共同創(chuàng)建專用于加速云計(jì)算的數(shù)據(jù)中心。這一理念與 FPGA

2017-02-08 19:48:30

238

UVM驗(yàn)證平臺(tái)執(zhí)行硬件加速

UVM已經(jīng)成為了一種高效率的、從模塊級到系統(tǒng)級完整驗(yàn)證環(huán)境開發(fā)標(biāo)準(zhǔn)，其中一個(gè)關(guān)鍵的原則是UVM可以開發(fā)出可重用的驗(yàn)證組件。獲得重用動(dòng)力的一個(gè)方面表現(xiàn)為標(biāo)準(zhǔn)的仿真器和硬件加速之間的驗(yàn)證組件和環(huán)境的復(fù)用

2017-09-15 17:08:11

基于SHA-1算法的硬件設(shè)計(jì)及實(shí)現(xiàn)（FPGA實(shí)現(xiàn)）

算法進(jìn)行深入研究，面向Xilinx K7 410T FPGA 芯片設(shè)計(jì)SHA-1算法實(shí)現(xiàn)結(jié)構(gòu)，完成SHA-1算法編程，進(jìn)行測試和后續(xù)應(yīng)用。該算法在FPGA 上實(shí)現(xiàn)，可以實(shí)現(xiàn)3.2G bit/s的吞吐

2017-10-30 16:25:54

基于硬件加速系統(tǒng)的PCIe-SRIO橋的邏輯結(jié)構(gòu)

基于混合架構(gòu)的硬件加速是計(jì)算機(jī)領(lǐng)域中很重要的研究方向之一。它是指將一些特定的任務(wù)從通用CPU移植到硬件處理模塊上并進(jìn)行相應(yīng)的算法優(yōu)化。由于硬件設(shè)備的專用結(jié)構(gòu)，這些硬件處理模塊往往比在基于順序指令集

2017-11-03 16:29:44

實(shí)現(xiàn)重要分析與硬件加速的可編程Xilinx zynq-7000平臺(tái)推薦

Xilinx Zynq-7000 全可編程 SoC (AP SoC) 系列集成 ARM處理器的軟件可編程性與 FPGA 的硬件可編程性，不僅可實(shí)現(xiàn)重要分析與硬件加速，同時(shí)還在單個(gè)器件上高度集成 CPU、DSP、ASSP 以及混合信號功能。

2017-11-07 14:37:52

7144

硬件加速邊緣檢測優(yōu)化處理方案

電路實(shí)現(xiàn)，根據(jù)硬件電路工作頻率高和數(shù)據(jù)位寬自定義，可以解決延時(shí)長和數(shù)據(jù)寬度受限的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明，邊緣檢測硬件加速方法不僅使延時(shí)和數(shù)據(jù)帶寬都得到了改善，而且也縮短了邊緣檢測的開發(fā)周期。

2017-11-15 18:02:01

1874

國內(nèi)首款FPGA云服務(wù)器的深度學(xué)習(xí)算法背景及算法分析

由騰訊云基礎(chǔ)產(chǎn)品中心、騰訊架構(gòu)平臺(tái)部組成的騰訊云FPGA聯(lián)合團(tuán)隊(duì)，在這里介紹國內(nèi)首款FPGA云服務(wù)器的工程實(shí)現(xiàn)深度學(xué)習(xí)算法（AlexNet），討論深度學(xué)習(xí)算法FPGA硬件加速平臺(tái)的架構(gòu)

2017-11-15 20:20:08

2468

添加硬件加速器可以加快處理器的正弦計(jì)算

如果修改軟件不能實(shí)現(xiàn)所需速度，那么你可能順理成章的想到在你的設(shè)計(jì)中加入硬件加速模塊。作有很多種算法可對單精度浮點(diǎn)數(shù)字的正弦值進(jìn)行計(jì)算，但添加硬件加速器是功能最為強(qiáng)大的方法之一。之所以得出這一結(jié)論

2017-11-24 18:38:33

1895

基于VxWorks的硬件加速技術(shù)探討

簡述了愛普生S1D13A05芯片的架構(gòu)特征，并且介紹了其中的2D硬件加速引擎的工作模式和相關(guān)的寄存器設(shè)置，最后以VxWorks操作系統(tǒng)作為開發(fā)環(huán)境，基于風(fēng)河公司W(wǎng)indML圖形開發(fā)

2017-12-01 04:26:01

258

利用硬件加速器提高處理器的性能

處理器內(nèi)部集成的硬件加速器可以實(shí)現(xiàn)三種廣泛使用的信號處理操作：FIR(有限沖激響應(yīng))、IIR(無限沖激響應(yīng))和FFT(快速傅里葉變換)。硬件加速器減輕了核處理器的負(fù)擔(dān)，能潛在的提升處理器的計(jì)算吞吐

2017-12-04 15:22:36

1036

MD5算法硬件加速模型

針對MD5軟件實(shí)現(xiàn)方法存在占用資源大、安全性差等缺點(diǎn)，提出了基于NetMagic平臺(tái)的MD5硬件加速模型設(shè)計(jì)方案，并基于ModelSim和NetMagic平臺(tái)對提出的非流水線與流水線硬件加速模型進(jìn)行

2018-01-12 16:45:07

Veloce仿真環(huán)境下的SoC端到端硬件加速器功能驗(yàn)證

很多人認(rèn)為硬件加速器無非是一種速度更快的仿真器而已。毫無疑問，由于硬件加速器使用物理硬件進(jìn)行仿真，使用硬件加速器驗(yàn)證復(fù)雜的集成電路和大型片上系統(tǒng)（SoC）能比軟件仿真器快若干數(shù)量級。與仿真用通用計(jì)算機(jī)相比，仿真用單一功能計(jì)算機(jī)能提供更高容量、更高效的系統(tǒng)。

2018-03-28 14:50:00

3160

四強(qiáng)聯(lián)手發(fā)布了基于FPGA的一系列vBRAS解決方案，加快了FPGA硬件加速的步伐

在近日舉行的2018上海世界移動(dòng)大會(huì)期間，中國電信、英特爾、聯(lián)想與賽特斯聯(lián)合發(fā)布了基于FPGA的一系列vBRAS解決方案，包括vBRAS IPv6方案、vBRAS P4方案、vBRAS FPGA硬件加速解決方案。

2018-08-14 16:20:36

1007

Vivado HLS實(shí)現(xiàn)Canny邊緣檢測硬件加速實(shí)現(xiàn)方法

Vivado HLS是Xilinx公司推出的加速數(shù)字系統(tǒng)設(shè)計(jì)開發(fā)工具，直接使用C、C++或SystemC開發(fā)的高層描述來綜合數(shù)字硬件，替代用VHDL或Verilog實(shí)現(xiàn)FPGA硬件設(shè)計(jì)[6]，實(shí)現(xiàn)設(shè)計(jì)的功能和硬件分離，不需要關(guān)心低層次具體細(xì)節(jié)，具有很強(qiáng)的靈活性，有效降低數(shù)字系統(tǒng)設(shè)計(jì)開發(fā)周期。

2018-10-04 10:41:00

7096

基于Xilinx FPGA的Memcached硬件加速器的介紹

本教程討論基于Xilinx FPGA的Memcached硬件加速器的技術(shù)細(xì)節(jié)，該硬件加速器可為10G以太網(wǎng)端口提供線速M(fèi)emcached服務(wù)。

2018-11-27 06:41:00

3433

Achronix新一代嵌入式FPGA IP為AI/ML和網(wǎng)絡(luò)硬件加速應(yīng)用帶來更高性能

和網(wǎng)絡(luò)加速應(yīng)用而設(shè)計(jì)的，并基于Speedster22i FPGA系列相同的高性能架構(gòu)，采用Speedcore作為硬件加速器的方案被廣泛應(yīng)用到數(shù)據(jù)中心和通信基礎(chǔ)設(shè)施等領(lǐng)域。據(jù)了解，eFPGA IP授權(quán)業(yè)務(wù)

2018-12-23 16:29:40

4151

想要實(shí)現(xiàn)FPGA的CNN加速需要考慮以下內(nèi)容

網(wǎng)上對于FPGACNN加速的研究已經(jīng)很多了，神經(jīng)網(wǎng)絡(luò)的硬件加速似乎已經(jīng)滿大街都是了，這里我們暫且不討論誰做的好誰做的不好，我們只是根據(jù)許許多多的經(jīng)驗(yàn)來總結(jié)一下實(shí)現(xiàn)硬件加速，需要哪些知識(shí)，考慮哪些因素。

2019-02-14 14:25:46

1222

FPGA的CNN實(shí)現(xiàn)硬件加速需要考慮這些因素

2019-03-08 14:44:33

3601

分享硬件加速仿真的 11 個(gè)謬論介紹和說明

硬件加速仿真可以實(shí)現(xiàn)寄存器傳輸級(RTL)和現(xiàn)代SoC設(shè)計(jì)門級的最佳功耗分析。只有硬件加速仿真才有處理大量邏輯以及產(chǎn)生針對所有元素的切換活動(dòng)的獨(dú)有能力。

2019-10-11 17:54:29

4550

如何將硬件加速器關(guān)閉？

硬件加速是指在計(jì)算機(jī)中通過把計(jì)算量非常大的工作分配給專門的硬件來處理以減輕中央處理器的工作量之技術(shù)。尤其是在圖像處理中這個(gè)技術(shù)經(jīng)常被使用。

2019-08-15 15:29:35

6839

LSTM的硬件加速方式

Long-short term memory，簡稱LSTM，被廣泛的應(yīng)用于語音識(shí)別、機(jī)器翻譯、手寫識(shí)別等。LSTM涉及到大量的矩陣乘法和向量乘法運(yùn)算，會(huì)消耗大量的FPGA計(jì)算資源和帶寬。為了實(shí)現(xiàn)硬件加速，提出了稀疏LSTM。

2019-08-24 10:32:35

2798

基于FPGA的硬件加速解決方案

FPGA加速卡采用CAPI接口設(shè)計(jì)，通過CAPI接口與P&P服務(wù)器緊密集成；應(yīng)用于大數(shù)據(jù)分析、密碼解算、圖像圖片處理等領(lǐng)域，實(shí)現(xiàn)百倍的加速比；

2020-07-07 16:16:12

基于FPGA的神經(jīng)網(wǎng)絡(luò)硬件實(shí)現(xiàn)方法

基于FPGA的神經(jīng)網(wǎng)絡(luò)硬件實(shí)現(xiàn)方法說明。

2021-06-01 09:35:16

如何去確定一個(gè)硬件加速器件？有哪些步驟？

在開發(fā)一個(gè)加速程序的之前，有一個(gè)很重要的步驟：正確設(shè)計(jì)程序架構(gòu)。

2021-06-11 13:05:17

1205

OpenHarmony 分論壇-華秋電子新硬件加速器

OpenHarmony 分論壇-華秋電子新硬件加速器今天的華為開發(fā)者大會(huì)2021上，OpenHarmony分論壇上展示了華秋電子新硬件加速器。 HDC分論壇-OpenHarmony 分論壇推薦鏈接：http://t.elecfans.com/live/1708.html 責(zé)任編輯：haq

2021-10-23 16:53:48

1500

用FPGA實(shí)現(xiàn)FFT算法的方法

摘要：在對FFT(快速傅立葉變換)算法進(jìn)行研究的基礎(chǔ)上，描述了用FPGA實(shí)現(xiàn)FFT的方法，并對其中的整體結(jié)構(gòu)、蝶形單元及性能等進(jìn)行了分析。

2022-04-12 19:28:25

4515

基于CORTEX-M3硬件加速的目標(biāo)跟蹤鎖定系統(tǒng)

本項(xiàng)目采用Cortex-M3軟核做控制部分，大規(guī)模專用硬件加速器做濾波跟蹤計(jì)算和智能目標(biāo)檢測部分，視頻輸入輸出通過HDMI直接進(jìn)入硬件加速器，繞過軟核實(shí)現(xiàn)更快的數(shù)據(jù)處理速度。

2022-05-16 10:04:26

959

AR機(jī)器人公司發(fā)布機(jī)器人操作系統(tǒng)(ROS)硬件加速框架ROBOTCORE

)硬件加速框架——ROBOTCORE?。ROS是機(jī)器人技術(shù)的標(biāo)準(zhǔn)。該公司為機(jī)器人提供半導(dǎo)體構(gòu)建模塊，通過硬件加速為高性能機(jī)器人創(chuàng)建定制計(jì)算架構(gòu)，同時(shí)保持機(jī)器人和加速器的硬件無關(guān)性（支持流行的FPGA和GPU）。 ROBOTCORE?可幫助機(jī)器人工程師創(chuàng)建與ROS和ROS 2 API兼容的知識(shí)產(chǎn)權(quán)(IP)核心，以提高包括

2022-06-16 12:40:20

1685

全新ROS 2 Humble硬件加速特性

自 2021 年 10 月起，NVIDIA 和 Open Robotics 開始合作并推出了兩項(xiàng)重要的改動(dòng)，現(xiàn)已發(fā)布在Humble ROS 2版本中，以提高提供硬件加速器的計(jì)算平臺(tái)的性能。

2022-07-07 09:45:07

2471

如何確定一個(gè)硬件加速應(yīng)用

在開發(fā)一個(gè)加速程序的之前，有一個(gè)很重要的步驟：正確設(shè)計(jì)程序架構(gòu)。開發(fā)人員需要明確軟件應(yīng)用程序中哪一部分是需要硬件加速的，并且它多少的并行量，以保證硬件加速器件（FPGA）能完美發(fā)揮其作用。本文將分為5個(gè)步驟來介紹

2022-08-02 10:33:07

386

用于 AI 應(yīng)用的硬件加速器設(shè)計(jì)師指南

當(dāng) AI 設(shè)計(jì)人員將硬件加速器整合到用于訓(xùn)練和推理應(yīng)用的定制芯片中時(shí)，應(yīng)考慮以下四個(gè)因素

2022-08-19 11:35:55

1267

基于FPGA的Poseidon哈希算法硬件加速方案

該項(xiàng)目基于AMD Xilinx Varium C1100 FPGA加速卡，為 Filecoin 區(qū)塊鏈應(yīng)用中的Poseidon哈希算法提供了一套完整的硬件加速方案。

2022-08-19 10:25:02

2367

借助硬件加速器開發(fā)您的設(shè)計(jì)

借助硬件加速器開發(fā)您的設(shè)計(jì)

2023-01-03 09:45:15

594

硬件加速人體姿態(tài)估計(jì)開源分享

電子發(fā)燒友網(wǎng)站提供《硬件加速人體姿態(tài)估計(jì)開源分享.zip》資料免費(fèi)下載

2023-06-25 10:27:00

硬件加速自然語言理解解決方案

電子發(fā)燒友網(wǎng)站提供《硬件加速自然語言理解解決方案.pdf》資料免費(fèi)下載

2023-09-13 10:45:12

Hyperon—大數(shù)據(jù)應(yīng)用的硬件加速解決方案

電子發(fā)燒友網(wǎng)站提供《Hyperon—大數(shù)據(jù)應(yīng)用的硬件加速解決方案.pdf》資料免費(fèi)下載

2023-09-13 10:12:43

Alveo卡的區(qū)塊鏈硬件加速器解決方案

電子發(fā)燒友網(wǎng)站提供《Alveo卡的區(qū)塊鏈硬件加速器解決方案.pdf》資料免費(fèi)下載

2023-09-15 14:42:57

EEMD方法的原理與算法實(shí)現(xiàn)步驟

電子發(fā)燒友網(wǎng)站提供《EEMD方法的原理與算法實(shí)現(xiàn)步驟.pdf》資料免費(fèi)下載

2023-10-23 11:44:01

嵌入式多媒體系統(tǒng)中硬件加速技術(shù)的應(yīng)用

電子發(fā)燒友網(wǎng)站提供《嵌入式多媒體系統(tǒng)中硬件加速技術(shù)的應(yīng)用.pdf》資料免費(fèi)下載

2023-10-26 09:33:35

fpga布局布線算法加速

任務(wù)是將邏輯元件與連接線路進(jìn)行合理的布局和布線，以實(shí)現(xiàn)性能優(yōu)化和電路連接的可靠性。然而，FPGA布局布線的過程通常是一項(xiàng)繁瑣且耗時(shí)的任務(wù)，因此加速布局布線算法的研究具有重要意義。本文將詳盡探討FPGA布局布線算法加速的方法與技術(shù)，分析其理論基礎(chǔ)和實(shí)踐應(yīng)用。 FPGA布局布

2023-12-20 09:55:13

200

怎么用FPGA做算法如何在FPGA上實(shí)現(xiàn)最大公約數(shù)算法

FPGA算法的優(yōu)點(diǎn)在于它們可以提供高度的定制化和靈活性，使得算法可以根據(jù)實(shí)際需求進(jìn)行優(yōu)化和調(diào)整。此外，FPGA還可以實(shí)現(xiàn)硬件加速，提供比傳統(tǒng)處理器更高的計(jì)算性能和吞吐量。因此，FPGA算法在許多領(lǐng)域中被廣泛應(yīng)用，包括嵌入式系統(tǒng)、高性能計(jì)算和實(shí)時(shí)信號處理等。

2024-01-15 16:03:24

434

音視頻解碼器硬件加速：實(shí)現(xiàn)更流暢的播放效果

思想是利用專門的硬件資源，如GPU或?qū)Ｓ玫慕獯a芯片，來分擔(dān)原本由CPU承擔(dān)的解碼任務(wù)。這種方式不僅可以大幅提高解碼速度，還能降低CPU的負(fù)載，從而實(shí)現(xiàn)更流暢的播放效果。 硬件加速的優(yōu)勢高效性能：硬件解碼器通常具有更高的解碼速度

2024-02-21 14:40:48

192

已全部加載完成

搜索歷史

FPGA實(shí)現(xiàn)算法硬件加速的方法與步驟

評論