在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

UWA推出全新GPU性能測評工具,支持多款PowerVR芯片優化

穎脈Imgtec ? 2023-08-14 10:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

移動設備GPU 性能優化對玩家游戲體驗至關重要。侑虎科技 UWA 一直專注于游戲和 VR 應用的性能優化,移動設備 GPU 優化是其關注的重點,為了更好地滿足開發者針對不同 GPU 芯片的性能測評與優化,日前他們在全新升級的UWA SDK 2.4.8版本中,推出了 GPU 性能測評工具—UWA GOT Online GPU 模式。這也是 UWA 繼去年GPU Counter 功能更新增加Imagination PowerVR GPU 芯片支持后的一次重要升級。

全新的UWA GOT Online GPU 模式帶來了更全面的GPU 性能優化方案。在 UWA 官方公開的 GOT Online 支持設備列表中,可以看到對多款Imagination PowerVR GPU的支持:GE8100、GE8200、GE8300、GE8310、GE8430、GE8320、GE8325、GE8340 等,并且會持續刷新支持Imagination PowerVR GPU的型號,表中還列出了GPU耗時均值、GPU著色、GPU帶寬、GPU圖元處理、GPU負載等多個評測優化維度。Imagination 將與 UWA 持續合作幫助開發者對GPU 進行更好地優化。

30d3fd9a-3a48-11ee-bbcf-dac502259ad0.png

現在,讓我們一一介紹這些重要功能。

  • 性能簡報:該頁面可以快速地幫助開發者把控項目的GPU性能壓力情況

  • GPU分析:分別從渲染和帶寬兩個角度,對GPU性能壓力進行分析

  • 渲染資源分析:開啟紋理和網格資源分析功能,定位這些資源的具體使用情況

  • Overdraw快照:更便捷地定位Overdraw壓力來源

GPU溫度:快速判斷設備發熱的原因是否主要來自GPU


性能簡報

如下圖,UWA列出了測試時的FPS、GPU Clocks數據,并用淺紅色背景標注了GPU Bound幀。GPU Bound表示GPU性能高壓區間,此時GPU計算耗費的時鐘周期數過高,可能無法支持滿幀運作。

3104379e-3a48-11ee-bbcf-dac502259ad0.png

同時,UWA也在圖表下列出了GPU性能、渲染統計、紋理資源分析和網格資源分析4個模塊的參數情況和對應的優化任務隊列。

311ba4c4-3a48-11ee-bbcf-dac502259ad0.png

312901dc-3a48-11ee-bbcf-dac502259ad0.png

314aab7a-3a48-11ee-bbcf-dac502259ad0.png

簡報的目的是幫助大家在茫茫多的性能指標中,快速篩選出高優先級的優化任務。如需要針對某些指標做更為深層的下探,就可以使用下文中的各個功能進行分析。


GPU分析

在指標匯總下,展示了測試過程中獲取到的各項GPU參數。同時,UWA也根據這些指標間的關聯,分別從渲染和帶寬兩個角度,幫助開發者對GPU性能壓力進行具體分析。

1. 指標匯總

GPU TimeGPU Time即每幀的GPU耗時。GPU耗時的推薦值和CPU耗時一樣,當項目需要維持在30幀時,GPU耗時應低于33ms(UWA推薦控制在28ms更佳)。同時,UWA也列出了渲染耗時Fragment Time和頂點處理耗時Non-Fragment Time數據作為補充。

3164c5b4-3a48-11ee-bbcf-dac502259ad0.png


Clocks

GPU Clocks表示渲染一幀耗費的GPU時鐘周期數,和GPU Times一樣,也是用于衡量GPU性能的主要指標。通過GPU Clocks,開發者可以快速定位項目的GPU壓力主要來自哪些場景,并結合其他GPU參數對GPU壓力情況進行具體分析。

318471de-3a48-11ee-bbcf-dac502259ad0.png


GPU Utilization

Fragment Utilization和Non Fragment Utilization分別表示圖元處理和非圖元處理任務處于活動狀態的時間百分比。

31a409a4-3a48-11ee-bbcf-dac502259ad0.png

當Non Fragment Utilization高時,開發者可以從面片數、面剔除、模型復雜度等角度著手進行優化;而當Fragment Utilization高時,則考慮項目中是否存在Overdraw過高、Fragment Shader過于復雜等問題。


GPU Shaded

在GPU Shaded下,可以獲取到相關的Fragment shaded、Vertices shaded、Cycles/Pixel指標數據。

31c88b4e-3a48-11ee-bbcf-dac502259ad0.png

其中Cycles/Pixel表示平均每個像素耗費的GPU時鐘周期。當畫面的Shader復雜度過高/或者Overdraw過高時,GPU需要消耗大量的時鐘周期對Shader進行運算,容易造成GPU耗時變高,造成卡頓。通過Cycles/Pixel,即可快速定位高Cycles的場景,需要進一步判斷場景的GPU壓力是否是由于Shader復雜度過高還是Overdraw過高造成,進行有針對性的優化。

31eb6326-3a48-11ee-bbcf-dac502259ad0.png

Fragment shaded表示每幀Fragment shader執行了多少次,用Fragment shaded數除以設備分辨率,可以側面反映項目的Overdraw情況。

當Overdraw較高時,容易引起發熱和能耗方面的問題。我們可以通過降低半透明粒子特效的粒子數量、使用不規則面片代替矩形面片渲染粒子特效或UI等方式,減少項目的Overdraw層數,降低GPU壓力。

31f12108-3a48-11ee-bbcf-dac502259ad0.png

而Vertices shaded則表示每幀Vertex shader執行了多少次。使用Vertices shaded除以輸入圖元數,即可得到平均每個圖元進行了多少次Vertices shaded。UWA推薦平均每個圖元執行次數應控制在1.5次以下。

3207e47e-3a48-11ee-bbcf-dac502259ad0.png


GPU Bandwidth

和CPU一樣,GPU Bandwidth也是芯片耗電的重要指標。當GPU持續進行高負載外部讀寫時,掉電就會過快。UWA的GPU Bandwidth模塊統計了測試過程中單幀的讀寫帶寬總量,通過查看GPU Bandwidth模塊,可以快速定位測試過程中帶寬較高的場景和原因,并進行進一步測試優化。

32228806-3a48-11ee-bbcf-dac502259ad0.png


GPU Memory Bus Utilization

GPU Memory Bus Utilization,即每幀GPU內存總線負載。它表示當前GPU帶寬消耗占總可用帶寬的百分比。當GPU Memory Bus Utilization持續較高時,說明GPU訪問內存的頻率過于頻繁,可以通過減少紋理資源與網格資源的大小和數量控制GPU緩存的占比。

324644f8-3a48-11ee-bbcf-dac502259ad0.png


GPU Primitive

渲染面是產生GPU壓力的重要因素之一,渲染面過多可能是模型過于復雜;也可能是地形、大建筑物等大面積模型沒有進行適當的拆分,導致進入視域體的面片可能不多,但提交GPU的渲染面依然很多。

對于這種情況,我們可以通過GPU Primitive下的各項參數來進行初步判斷。

3267ca42-3a48-11ee-bbcf-dac502259ad0.png

Input Primitives:提交到GPU端的圖元總數,該數值基本等同于引擎端統計的渲染面片總數。

Visible Primitives:在GPU端通過各種裁剪之后,留下的參與渲染的三角面。

Culled Primitives:因為在視域體外而被裁剪的三角面,因為朝向而被裁剪的三角面。

GPU圖元處理數量過多會對設備的帶寬和能耗造成較大的影響,應盡量在程序端完成剔除,并減小送往GPU的圖元數。在3D場景中,比較理想的情況下,可見圖元的數量應該接近或高于 50%(對于大部分模型,有一半三角面會因為朝向被裁剪)。如果某些角度下,可見圖元的比例非常低,則很可能存在上文提到的第二種情況,從而可以針對性地檢查和優化場景中,這個角度下,被提交到GPU的大面積模型。

32874d68-3a48-11ee-bbcf-dac502259ad0.png

2. GPU渲染分析

GPU Clocks是衡量GPU性能的主要指標,結合該曲線,開發者可以快速判斷各個場景中的GPU壓力。

32a22584-3a48-11ee-bbcf-dac502259ad0.png

同時,UWA也展示出了GPU Shaded、GPU Primitive指標的均值和性能走勢。當某個場景中的GPU Clocks較高時,通過這些指標的推薦值和性能曲線,開發者就可以快速判斷是哪些參數造成的GPU渲染計算壓力,并采取相應的優化方案。

32b5b4c8-3a48-11ee-bbcf-dac502259ad0.png


3. GPU帶寬分析

由于GPU讀、寫帶寬較高時都會造成大量的發熱和耗電,需要開發者重點關注。

在相關參數中,也展示了GPU Memory Bus Utilization、GPU Primitive參數。比如當GPU Primitives較高時,就說明提交到GPU端的圖元總數較多,可能引起較高的帶寬壓力。

32dacb32-3a48-11ee-bbcf-dac502259ad0.png32f66784-3a48-11ee-bbcf-dac502259ad0.png


渲染資源分析

當參與渲染的紋理和網格資源越多、采樣越多時,資源內存會變高,GPU帶寬和GPU Clocks也會相應上漲。為了保證讓參與渲染計算的資源物盡其用,開發者可以手動開啟紋理和網格資源分析功能,定位這些資源的具體使用情況。

3323d69c-3a48-11ee-bbcf-dac502259ad0.png

紋理資源分析

在紋理資源分析頁,除了紋理資源的內存、數量、尺寸等參數外,我們還可以查看紋理渲染利用率、是否開啟Mipmap和Mipmap采樣率等數據。

33f87fe6-3a48-11ee-bbcf-dac502259ad0.png

34277332-3a48-11ee-bbcf-dac502259ad0.png

通過紋理渲染利用率,開發者即可快速定位到一直在內存中但從未參與過渲染的紋理資源,以此排查是否存在場景中不可見的渲染物體、不合理的打包和加載策略等可能造成此種浪費的因素。

344f6f18-3a48-11ee-bbcf-dac502259ad0.png

347f65ba-3a48-11ee-bbcf-dac502259ad0.png

而通過Mipmap 0層采樣率是否較低(低于20%),則可以判斷哪些紋理資源的尺寸過大,開發者就可以通過降低這些紋理資源分辨率緩解內存和GPU壓力,同時也不會影響畫面效果。

網格資源分析

在網格資源分析頁,除了和紋理資源相似的資源渲染利用率外,我們也可以查看網格的最大屏占比和最小渲染密度數據。渲染利用率為0的網格資源和紋理資源優化方式相似,而網格最大屏占比和最小渲染密度則可以用于排查網格資源的精度是否合理。

3499167c-3a48-11ee-bbcf-dac502259ad0.png

當網格的最大屏占比小于0.02%時,說明網格在手機屏幕中只占很小的一部分,可見性較低。如果同時網格的復雜度較高,就說明網格的精度過高,開發者可以考慮使用更低精度的模型進行替換。

34bf2a7e-3a48-11ee-bbcf-dac502259ad0.png

34d2a342-3a48-11ee-bbcf-dac502259ad0.png

渲染密度則表示在平均每一萬像素中網格的頂點數,如果該值大于1000,則說明我們在很小的畫面中繪制了過于復雜的網格。因此,當此網格的渲染密度最小時,該數值仍然高于1000,那么此網格的頂點數大概率是過高的,開發者可以考慮對這些網格資源進行減面操作,或使用LOD分級處理。


Overdraw快照

Overdraw表示項目運行過程中單幀中整個屏幕被填充的倍數。在游戲運行過程中,場景中半透明物體的重合會使得同一個像素點在一幀中會被繪制多次,容易造成Overdraw過高,引起設備發熱。

在Overdraw快照模塊,UWA通過Fragment Shaded(渲染像素總數)與設備渲染分辨率,換算得到了Overdraw的計算值,以幫助開發者對項目的Overdraw情況進行排查。

34e9c144-3a48-11ee-bbcf-dac502259ad0.png

在測試GPU模式時,開發者可以手動Dump采集場景中具體的Overdraw情況。

350535c8-3a48-11ee-bbcf-dac502259ad0.png

在Overdraw快照模塊,即可查看Dump幀各個相機的Overdraw情況。其中Overlay-UI(UWA)相機展示的是UGUI中Overlay部分的Overdraw信息,即所有沒有掛在任何相機下UI的Overdraw信息。

35385264-3a48-11ee-bbcf-dac502259ad0.png

在柱狀圖下方,還可以查看所選柱狀圖的Overdraw熱力圖,其中顏色越紅,表示該處像素在當前幀中被填充的次數較多,Overdraw較高,GPU的壓力就越大。

355204e8-3a48-11ee-bbcf-dac502259ad0.png

開發者可以結合報告截圖和Overdraw熱力圖,更便捷地定位項目的Overdraw壓力來源。


GPU溫度

GPU壓力較高時容易引起設備發熱。UWA統計了設備的GPU、CPU、電池溫度,以便開發者判斷設備發熱的原因是否主要來自GPU。

3573bf5c-3a48-11ee-bbcf-dac502259ad0.png

若確認是由于GPU壓力導致發熱,接下來可以進一步排查與GPU溫度情況有關的參數,譬如FPS、GPU Clocks、GPU bandwidth。而功率則會和GPU溫度相互影響,也是反應能耗和發熱問題的重要參數。

358c657a-3a48-11ee-bbcf-dac502259ad0.png

這里特別建議大家:由于CPU和GPU芯片位置較近,當CPU壓力較大產生發熱時,也可能帶動GPU一起發熱。所以在優化GPU發熱問題時,也要適當結合CPU壓力情況進行排查分析??偟膩碚f,當項目存在耗電快、溫度高的現象時,開發者可以從GPU性能壓力、GPU帶寬、CPU主線程、CPU子線程等方面著手,優化發熱問題。

UWA提供的性能測評工具更進一步地拆分和細化了項目的GPU壓力成因,為您帶來前所未有的優化體驗。UWA的目標是讓您更便捷、高效地定位項目的GPU壓力來源,告別盲目猜測,擁抱精準優化。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52323

    瀏覽量

    438252
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4923

    瀏覽量

    130859
  • vr
    vr
    +關注

    關注

    34

    文章

    9670

    瀏覽量

    152304
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中的芯片知識是比較接近當前的頂尖芯片水平的,同時包含了
    發表于 06-18 19:31

    英諾達推出RTL功耗優化工具

    英諾達(成都)電子科技有限公司隆重推出芯片設計早期RTL級功耗優化工具—EnFortius RTL Power Explorer(ERPE),該工具可以高效、全面地在RTL設計階段進行
    的頭像 發表于 03-20 17:06 ?511次閱讀

    Flexus X 實例性能測評

    潛在性能瓶頸,確保在高并發和海量數據處理等極端情況下系統的穩定性有重要意義。 測評的結果還幫助企業對優化?IT 支出,避免性能不足導致的業務中斷有決策作用。因此,
    的頭像 發表于 12-24 12:18 ?460次閱讀
    Flexus X 實例<b class='flag-5'>性能</b><b class='flag-5'>測評</b>

    芯原推出新一代高性能Vitality架構GPU IP系列

    芯原股份(芯原,股票代碼:688521.SH)今日宣布推出全新Vitality架構的圖形處理器(GPU)IP系列,具備高性能計算能力,廣泛適用于云游戲、AI PC、獨立顯卡和集成顯卡等
    的頭像 發表于 12-19 15:55 ?450次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    問題,但會降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU計算需要啟用,可通過命令行
    發表于 12-16 14:25

    南方測繪多款實景三維軟件產品通過官方測評

    為推進地理信息產業高質量發展,助力數字中國建設,為相關行業或重大工程提供成熟、合格的地理信息軟件產品,根據市場、用戶、相關部門、行業的需求,中國地理信息產業協會開展了地理信息相關軟件測評工作,結果于近期公示。
    的頭像 發表于 12-13 10:35 ?1134次閱讀

    Cincoze德承推出兩款全新GPU嵌入式工控機

    ,高性能GPU全長卡可擴展型工業工控機GP-3100系列,搭載了全新的第14代Intel? Core?處理器(Raptor Lake-S Refresh),并支持最多兩張250W全長
    的頭像 發表于 12-11 14:47 ?1326次閱讀

    英諾達推出兩款全新靜態驗證EDA工具

    (2024年12月5日,四川成都)英諾達(成都)電子科技有限公司隆重推出兩款全新的靜態驗證EDA工具:EnAltiusCDC跨域檢查工具和Lint RTL代碼檢查
    的頭像 發表于 12-05 10:13 ?1007次閱讀
    英諾達<b class='flag-5'>推出</b>兩款<b class='flag-5'>全新</b>靜態驗證EDA<b class='flag-5'>工具</b>

    國科微亮相2024 UWA聯盟會員大會

    近日,2024 UWA SUMMIT暨世界超高清視頻產業聯盟會員大會在深圳開幕,超高清產業生態體驗展同期舉辦。作為UWA聯盟會員單位、超高清視頻賽道領先企業,國科微重磅展出4K/8K超高清解碼芯片系列與4K/8K超高清顯示
    的頭像 發表于 11-30 09:35 ?756次閱讀

    英特爾12月或發布Battlemage GPU芯片

    近日,有關英特爾即將在12月發布全新Battlemage GPU芯片的傳聞再次被證實。據硬件挖掘者和泄密者Tomasz Gawrońsk分享的預告圖顯示,英特爾極有可能在AMD RDNA 4和英偉達Blackwell之前,率先
    的頭像 發表于 11-19 17:37 ?787次閱讀

    天璣9400技術詳解:如何蟬聯GPU性能、能效雙冠軍

    全新高度,引發了廣泛好評。 天璣9400搭載全新頂級12核GPU G925,相較上代擁有超過41%的峰值性能飛躍,在保持與上一代相同的峰值性能
    的頭像 發表于 11-07 14:00 ?765次閱讀
    天璣9400技術詳解:如何蟬聯<b class='flag-5'>GPU</b><b class='flag-5'>性能</b>、能效雙冠軍

    如何構建及優化GPU云網絡

    并從計算節點成本優化、集群網絡與拓撲的選擇等方面論述如何構建及優化GPU云網絡。
    的頭像 發表于 11-06 16:03 ?945次閱讀
    如何構建及<b class='flag-5'>優化</b><b class='flag-5'>GPU</b>云網絡

    如何優化SOC芯片性能

    優化SOC(System on Chip,系統級芯片芯片性能是一個復雜而多維的任務,涉及多個方面的優化策略。以下是一些關鍵的
    的頭像 發表于 10-31 15:50 ?1631次閱讀

    使用Arthas火焰圖工具的Java應用性能分析和優化經驗

    分享作者在使用Arthas火焰圖工具進行Java應用性能分析和優化的經驗。
    的頭像 發表于 10-28 09:27 ?1150次閱讀
    使用Arthas火焰圖<b class='flag-5'>工具</b>的Java應用<b class='flag-5'>性能</b>分析和<b class='flag-5'>優化</b>經驗

    名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析

    。本書對華為等廠商推出的NPU芯片設計也做了架構描述,中國也擁有獨立自主知識產權的高算力芯片,并且支持芯片、高帶寬互連。本書也回顧了近20
    發表于 09-02 10:09
    主站蜘蛛池模板: 久久伊人草 | 4455亚洲| 四虎国产精品永久在线网址 | 黄色网在线 | 精品久久久久久国产免费了 | 成人免费久久精品国产片久久影院 | 俄罗斯美女69xxxxxx | 男人的天堂黄色 | 久久久久久国产精品免费 | xyx性爽欧美视频 | 男女交性无遮挡免费视频 | 亚洲www| 波多野结衣在线视频观看 | 一区二区三区四区免费视频 | 6969精品视频在线观看 | 97福利| 一级毛片日韩a欧美 | 亚洲成人777| 伊人网综合在线视频 | 97久久精品国产精品青草 | 小泽玛利亚厕所大喷水 | 一级一片免费播放 | 毛片小视频 | 丁香网五月网 | 国产在线精品观看 | 五月网址| 97午夜影院 | 亚洲欧美日韩国产一区二区三区精品 | 精品国产香港三级 | 天堂资源在线最新版 | 韩国免费人成在线观看网站 | 亚洲午夜免费视频 | 欧美成人精品一区二三区在线观看 | 亚洲深夜在线 | 午夜毛片不卡高清免费 | 青草青青视频 | 色黄污在线看黄污免费看黄污 | 丁香在线 | 日本亚洲卡一卡2卡二卡三卡四卡 | 国产va| 亚洲国产一区二区三区a毛片 |