Nsight Compute 的這一版本擴展了現有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應用程序中 CUDA API 調用和內核啟動的完整范圍。度量與整個范圍相關聯,而不是單個內核。這允許該工具在不序列化的情況下執行內核,并支持出于正確性或性能原因而需要并發運行的評測內核。范圍由起點和終點標記組成;并包括所有 CUDA API 調用和從任何 CPU 線程在這些標記之間啟動的內核。
范圍標記可以使用以下任一方法定義:
分析器啟動/停止 API
NVTX 系列圖 1 。范圍回放可視化:捕獲范圍后,每個過程都會收集整個范圍的性能信息。
記憶分析
在 A100 上評測時,內存分析部分中的一個新二級緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問次數和達到的命中率。在同一部分中,二級緩存表現在有一個新的 ECC 行,用于顯示通過在 GPU 上啟用硬件糾錯代碼而創建的流量。
圖 2 。內存工作負載分析表的改進: ECC 和二級緩存逐出策略信息。
引導分析
Nsight Compute 現在通過在打開報表時在摘要和詳細信息頁面之間動態選擇,可以更輕松地在多結果集合中選擇初始分析目標。規則被擴展以檢測非融合浮點指令作為優化機會。最后,但并非最不重要的一點是,當觸發未恢復的內存訪問規則時,它們會顯示一個包含五個最有價值實例的表,從而更容易在源頁面上檢查和解決它們。
圖 3 。打開多結果報告現在會顯示摘要頁面,允許您對結果進行排序并決定優化順序。
圖 4 。這兩種未恢復的內存訪問規則都以更簡潔、更有序的格式呈現結果。
其他改進
進一步的改進包括 Occupancy Calculator 自動更新。源頁面中 Register Dependency 列還有一個新的“執行的線程指令”度量和注冊名工具提示,以及 NVLink 更新。
關于作者
Chaitrali Joshi 是 NVIDIA 的產品營銷經理,專注于電信 5G 系統的設計和開發。她對網絡空間有著深入的了解,是移動通信系統和云棧方面的專家。在英特爾之前,她是一名領導,向開發人員宣傳電信技術和邊緣計算技術。她獲得了加利福尼亞大學計算機科學碩士學位,戴維斯專注于軟件定義的網絡和多址邊緣計算( MEC )。
Jackson Marusarz 是 NVIDIA 計算開發工具的產品經理。他關注如何使用工具使所有開發人員能夠輕松高效地評測、調試和優化 CUDA 代碼。杰克遜擁有 Boulder 科羅拉多大學計算機工程碩士學位。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5038瀏覽量
103309 -
gpu
+關注
關注
28文章
4754瀏覽量
129100 -
代碼
+關注
關注
30文章
4803瀏覽量
68777
發布評論請先 登錄
相關推薦
Silicon Labs攜手Eta Compute簡化邊緣ML開發
數字電機控制的未來:一個MCU上的多個電機、嵌入式AI和高級算法
![數字電機控制的未來:一個MCU上的多個電機、嵌入式AI和<b class='flag-5'>高級</b>算法](https://file1.elecfans.com/web1/M00/F3/2E/wKgZoWcRt36AFXnIAAAdgMey5J8065.jpg)
RISC-V內核是如何與FPGA內核進行資源共享的?
安達發|APS高級排程高級物料需求計劃
![安達發|APS<b class='flag-5'>高級</b>排程<b class='flag-5'>高級</b>物料需求計劃](https://file1.elecfans.com/web2/M00/F4/09/wKgaomZ74DiAM4lCAACO5q0k_Aw676.png)
名單公布!【書籍評測活動NO.45】RISC-V體系結構編程與實踐(第二版)
linux驅動程序如何加載進內核
名單公布!【書籍評測活動NO.42】 嵌入式Hypervisor:架構、原理與應用
Linux內核測試技術
![Linux<b class='flag-5'>內核</b>測試技術](https://file1.elecfans.com/web2/M00/02/4E/wKgZoma68fmAMBkcAADMAfJtb9Y443.png)
評論