神墓辰东小说,官场小说排行榜,好看的课外书

通過使用以200 MHz運行的8個并行浮點加速器，展示小型ZU3EG SoC的科學計算能力。

硬件元件

96Boards Ultra96 ×1

Avnet AES-ACC-U96-PWR ×1

USB Cable Assembly, USB Type A Plug to Micro USB Type B Plug ×1

Mini displayport cable ×1

Micro SD card (Must be 8GB or larger)×1

DisplayPort monitor ×1

USB Mouse (Optional) ×1

USB Keyboard (Optional) ×1

軟件App與線上服務

Xilinx Vivado Design Suite

Avnet Ultra96 Pynq image v2.4

介紹

牛頓物理描述了我們宇宙中的行為和非常大的物體/粒子。根據某些假設，這些定律可以應用于天文尺寸到高爾夫球（甚至更小）尺寸的物體/粒子。不同粒子之間的相互作用由以下的重力方程控制。

在N粒子系統中，每個粒子經受了其他（N-1）個粒子的力。力的組合結果導致了所述粒子的加速。類似地，所有其他（N-1）個粒子同時經歷了系統中其他粒子對它作用的力。所得到的的所有粒子的加速度，結合空間里的初始位置，初始速度和時間不長分別得到所有N個粒子的新位置。為了簡化模型的實現，做出了以下的假設：

1. 所有粒子都是點質量（質點模型）

2. G=1

3. 在重力計算中引入一個修正系數，以避免當兩個點質量處于完全相同的坐標時候產生的誤差。

該設計已經實現通過python軟件加載16bit正負整數格式的初始坐標、質量、修正系數和模擬時間步長。盡管Vivado環境中提供了浮點數的加法、減法和乘法，但我們還是努力設計自定義浮點數格式。

設計：概念證明

該算法采用python軟件實現和仿真，以下是硬件實現之前在PC上進行粒子模擬的主要算法和屏幕截圖。

由于迭代過程，該算法具有O（N2）的計算復雜度。這是在硬件中實現加速器的絕佳機會。您可以嘗試使用nbody_x86.py來查看粒子模擬在軟件中的運行速度。使用硬件實現的加速器可以更快地運行粒子模擬。

該算法可被矢量化，因此如果使用矢量處理器，復雜度將會降低到O（N）。下面的示例是識別計算密集型算法的關鍵部分，并在fabric/PL中為它們提供加速器。

假設在t0時刻，所有粒子的位置和速度信息都是已知的。

考慮雙粒子系統。由第二個粒子引起第一個粒子的加速度計算如下：

a = (G*m2)/(r^2)n

為了保持加速度的方向信息：a = (G*m2*|r|)/(r^3)

N 物體問題：

1.上述概念可以擴展到N個物體的體系。

2.在GRAPE-[x]中，修正系數“ε”用于研究尺寸的詳細影響。對于此項目，is設置為0。

3.另一個修正系數用于防止不同的顆粒彼此非常接近，即防止“r~=0”，如上面python軟件中的變量“sf”所示。

硬件設計

該設計采用8個并聯加速器發動，可完全支持多達4000多個物體并行模擬。

使用8個并行加速器的實現

最初的設計有一個加速器以75MHz運行。并聯增加7個加速器是的工作頻率增加了一倍以上，功耗增加了約1W。一個加速器的數據將在后面的部分中顯示，此表給出了8個并聯加速器的數據。

性能

針對4000個粒子，該設計滿足了200MHz的定時！通過添加管道修改了浮點加法和乘法。

僅使用200MHz的加速器實現 - 數據比較

盡管邏輯復雜，但實現在XCZU3EG上使用一個單重力計算引擎消耗了以下資源。一個重力引擎可以計算1024個粒子之間的相互作用（由輸入和輸出的BRAM深度決定）。定時器成功關閉在200MHz。流水線技術在重力引擎中實現。在每個本地模塊中重置流水線以實現優化全局重置繞線傳播。整個設計在單個時鐘源上運行。