在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析Roofline模型實踐

Linux閱碼場 ? 來源:面包板社區(qū) ? 作者:Linux閱碼場 ? 2021-04-28 16:14 ? 次閱讀

在多核異構(gòu)的時代,軟件人員普遍面臨的一個困惑是,面對如此復(fù)雜的系統(tǒng),應(yīng)該如何部署我們的算法,是應(yīng)該讓它運行在CPU,GPU還是甚至類似TPU的專門ASIC上才是最佳方案?另外給定特定的計算平臺,我們的算法實現(xiàn)是不是已經(jīng)榨干硬件平臺的最大能力,還有沒有進一步改善的空間?這些問題尋尋覓覓答案,真像霧里看花,我們渴望有一雙慧眼,幫我們穿透迷津。

在衡量計算效能的正確姿勢我們提到了內(nèi)存帶寬(memory bandiwidth)和以FLOPS為代表的算力是可以很好的刻畫計算平臺的兩個指標。同時既然是要衡量算法的性能自然我們也要考慮算法的特性。基于此,論文《Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures》提出了Roofline模型,試圖對硬件和軟件通盤考慮,從而提出改善性能的洞見。

這里我們試著解釋如下,首先我們要介紹運算強度(arithmetic intensity,簡寫成AI)的概念,指的是針對單位內(nèi)存讀寫數(shù)據(jù)進行的運算次數(shù),以FLOP/Byte為單位。比如衡量計算效能的正確姿勢(2)介紹過的SAXPY,每次迭代,有三次內(nèi)存訪問(x讀一次,y讀寫各一次),而有兩次浮點運算(乘加各一次),所以其AI為(2 * N) / (3 * N * 4) = 1/6。

int N = 1 《《 22;

void saxpy(float a, float *x, float *y){

for (int i = 0; i 《 N; ++i)

y[i] = a*x[i] + y[i];

}

引進AI后,算力FLOPS就可以用以下公式來計算。

e6fcb8b8-a7f7-11eb-9728-12bb97331649.png

兩邊取對數(shù),

e7379988-a7f7-11eb-9728-12bb97331649.png

以logFLOPS為Y,logAI為X,我們可以得到斜截式 Y = X + logBW,另對特定平臺,算力FLOPS存在極限值,據(jù)此我們可以作如下圖。

e7486da8-a7f7-11eb-9728-12bb97331649.png

圖中紫色的線條是不是很類似屋脊線,這正是該模型命名的由來。以脊點為界,左邊區(qū)域構(gòu)成內(nèi)存帶寬瓶頸區(qū)域,右邊區(qū)域?qū)?yīng)算力瓶頸區(qū)域。已知某算法的AI,其最大可獲取FLOPS很容易計算得到,見如下公式,為AI所在豎直線與Roofline的交點。如算法Algo1的AI處于內(nèi)存帶寬受限區(qū)域,而算法Algo2的AI則位于算力受限區(qū)域,如果Algo1和Algo2為同一問題兩種算法方案,顯然Alg2更有機會獲取滿意的FLOPS。

e77db544-a7f7-11eb-9728-12bb97331649.png

上面公式代表了理想化的情形,實際操作中,存在各種各樣的天花板(Ceiling)障礙,算法優(yōu)化的過程就是反復(fù)突破這些障礙而盡量接近roofline,最后得到理想的性能。如下圖過程展示,介紹如何通過改善算法的數(shù)據(jù)局部性以充分利用Cache,并通過向量化而調(diào)用SIMD硬件資源來達到這一目的。

e7a00b3a-a7f7-11eb-9728-12bb97331649.png

除了上面介紹的Roofline模型能夠讓我們在特定平臺“紙上談兵”改善算法性能,Roofline也可以可視化同一算法部署在不同平臺時候性能的比較,結(jié)果讓人一目了然。在Google的有關(guān)TPU(TPU是Google開發(fā)的專門用于神經(jīng)網(wǎng)絡(luò)算法加速的芯片)的論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》里,作者利用Roofline圖表來比較各種神經(jīng)網(wǎng)絡(luò)算法分別部署在同時代CPU、GPU和TPU的性能差異,令人印象深刻。五角星、三角形、圓形分別代表對應(yīng)算法在TPU、GPU和CPU上運行狀況。

e8b3005e-a7f7-11eb-9728-12bb97331649.png

需要指出的是,Roofline模型在實踐中并不像想象般容易,運用的時候有很多細微的地方需要仔細推敲。但它仍不失為非常insightful的尋寶圖,如果你能學(xué)會正確解讀,它完全有機會幫我們找到算法性能優(yōu)化的巨大寶藏。以后我們會有很多場合涉及它的理念和具體用法,敬請期待。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1243

    瀏覽量

    122075
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11049

    瀏覽量

    216161
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4701

    瀏覽量

    94876

原文標題:Roofline模型初步

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    Texas Instruments TLK6002ZEU 6千兆位每秒 (Gbps) 的雙通道串行器-解串器 EDA模型與數(shù)據(jù)手冊解析

    Texas Instruments TLK6002ZEU 6千兆位每秒 (Gbps) 的雙通道串行器-解串器 EDA模型與數(shù)據(jù)手冊解析
    的頭像 發(fā)表于 06-10 17:17 ?143次閱讀
    Texas Instruments TLK6002ZEU 6千兆位每秒 (Gbps) 的雙通道串行器-解串器 EDA<b class='flag-5'>模型</b>與數(shù)據(jù)手冊<b class='flag-5'>解析</b>

    千方科技大模型技術(shù)在交通運輸領(lǐng)域的應(yīng)用實踐

    2025年,全國交通運輸工作會議明確提出實施“人工智能+交通運輸”行動,推動交通基礎(chǔ)設(shè)施數(shù)字化升級。近期,千方科技作為行業(yè)標桿企業(yè),受邀參與交通運輸部管理干部學(xué)院主辦的“DeepSeek在交通運輸管理中的應(yīng)用專題研討班”,分享大模型技術(shù)在交通運輸領(lǐng)域的應(yīng)用實踐。
    的頭像 發(fā)表于 05-22 09:23 ?267次閱讀

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數(shù) 2,350 億,激活參數(shù)
    的頭像 發(fā)表于 05-08 11:45 ?863次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳<b class='flag-5'>實踐</b>

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?3031次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細<b class='flag-5'>解析</b>

    NVIDIA大語言模型在推薦系統(tǒng)中的應(yīng)用實踐

    商品。之后,系統(tǒng)會借助相對簡單的粗排模型對這些候選集進行初步篩選,以縮小候選范圍,最后通過精排和重排模型,確定最終返回給用戶的推薦結(jié)果。
    的頭像 發(fā)表于 03-05 09:30 ?697次閱讀
    NVIDIA大語言<b class='flag-5'>模型</b>在推薦系統(tǒng)中的應(yīng)用<b class='flag-5'>實踐</b>

    用PaddleNLP在4060單卡上實踐模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAI的GPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-4等大參數(shù)模型如出一轍,通過親手實踐GPT-
    的頭像 發(fā)表于 02-19 16:10 ?890次閱讀
    用PaddleNLP在4060單卡上<b class='flag-5'>實踐</b>大<b class='flag-5'>模型</b>預(yù)訓(xùn)練技術(shù)

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+第一章初體驗

    的deepseek,讓美股暴跌17%,讓美國的星際之門計劃直接流產(chǎn)了,想笑出聲。 《基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化》一書從理論到實踐,系統(tǒng)性地介紹了如何結(jié)合大模型與RAG技術(shù)構(gòu)建高效的應(yīng)用系統(tǒng)。本文針對該書
    發(fā)表于 02-07 10:42

    光電效應(yīng)的數(shù)學(xué)模型解析

    光電效應(yīng)是指光照射在物質(zhì)上,引起電子從物質(zhì)表面逸出的現(xiàn)象。以下是光電效應(yīng)的數(shù)學(xué)模型及詳細解析: 一、光電效應(yīng)的基本數(shù)學(xué)模型 光子能量公式 : 表達式:E = hν 含義:E代表光子的能量,h是普朗克
    的頭像 發(fā)表于 11-25 13:46 ?4452次閱讀

    TLC555-Q1 spice模型到LTSPICE仿真軟件中提示無法解析是怎么回事?

    請教貴司提供的模型spice模型到LTSPICE仿真軟件中提示無法解析是怎么回事?
    發(fā)表于 11-08 07:42

    云知聲山海大模型的訓(xùn)練優(yōu)化方法及應(yīng)用實踐

    由AI大模型工場主辦的AI大模型生態(tài)暨算力大會在京舉行。作為國內(nèi)最具影響力與最懂大模型的AI生態(tài)大會,此次大會以「AI NATIVE,生成未來」為主題,圍繞大模型、算力、數(shù)據(jù)產(chǎn)業(yè)、基礎(chǔ)
    的頭像 發(fā)表于 10-12 14:12 ?590次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    和信息源來推導(dǎo)出最終答案。 問答原理的具體實現(xiàn) 1. 輸入解析 當(dāng)用戶提出問題時,模型首先會對問題進行解析,提取關(guān)鍵詞、主題和背景信息等關(guān)鍵要素。這些要素將作為后續(xù)處理和推理的基礎(chǔ)。 2. 檢索
    發(fā)表于 08-02 11:03

    PyTorch神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過程

    PyTorch,作為一個廣泛使用的開源深度學(xué)習(xí)庫,提供了豐富的工具和模塊,幫助開發(fā)者構(gòu)建、訓(xùn)練和部署神經(jīng)網(wǎng)絡(luò)模型。在神經(jīng)網(wǎng)絡(luò)模型中,輸出層是尤為關(guān)鍵的部分,它負責(zé)將模型的預(yù)測結(jié)果以合適的形式輸出。以下將詳細
    的頭像 發(fā)表于 07-10 14:57 ?845次閱讀

    AI大模型的發(fā)展歷程和應(yīng)用前景

    領(lǐng)域取得重要突破。本文將深入解析AI大模型的基本原理、發(fā)展歷程、應(yīng)用前景以及面臨的挑戰(zhàn)與爭議,為讀者提供一個全面而深入的科普視角。
    的頭像 發(fā)表于 07-03 18:20 ?2165次閱讀

    我在大模型應(yīng)用之RAG方向的探索、實踐與思考

    。 本文將從背景、核心工作、業(yè)務(wù)實踐與反饋以及未來展望等幾個方向進行介紹。 背景介紹 大語言模型(LLM)在自然語言處理和自然語言理解方面取得了重大突破。大模型與應(yīng)用場景的結(jié)合有助于可以在降低成本的同時提高效率。在具體場景
    的頭像 發(fā)表于 06-28 16:20 ?1643次閱讀
    我在大<b class='flag-5'>模型</b>應(yīng)用之RAG方向的探索、<b class='flag-5'>實踐</b>與思考

    利用大模型服務(wù)一線小哥的探索與實踐

    一、小哥作業(yè)+大模型 2022年OpenAI基于GPT推出了聊天機器人ChatGPT,帶來了非常驚艷的語言理解、內(nèi)容生成、知識推理等能力,能夠準確理解人的語言、意圖,并能夠回答出清晰、完整的內(nèi)容,讓
    的頭像 發(fā)表于 06-17 14:59 ?575次閱讀
    利用大<b class='flag-5'>模型</b>服務(wù)一線小哥的探索與<b class='flag-5'>實踐</b>
    主站蜘蛛池模板: 夜夜夜夜夜夜夜猛噜噜噜噜噜噜 | 欧洲精品不卡1卡2卡三卡四卡 | 天天操操操操操操 | 妇女交性大片 | 黄色网欧美 | 4虎最新地址| 亚洲一区不卡视频 | 欧美在线性 | 欧美人另类zooz | 欧美激情在线 | 日本www色视频成人免费网站 | 日本高清视频色wwwwww色 | 日本高清色视频在线观看免费 | wwwxx在线观看| 亚洲综合在线观看一区www | 免费一级特黄 | 国产福利午夜 | 手机看片免费福利 | 国产va免费精品高清在线 | 天天澡天天摸天天添视频 | 黄色一级毛片看一级毛片 | 欧美极品第一页 | 免费看色视频 | 国产一级特黄a大片免费 | 亚洲综合色丁香婷婷六月图片 | 日韩xx00| 人人干人人艹 | 日本免费一区二区三区视频 | 亚洲狠狠综合久久 | 人色网| 欧美成人午夜 | 手机在线免费视频 | 91md天美精东蜜桃传媒在线 | 二区三区视频 | 日本色黄 | 色婷婷99综合久久久精品 | 国产精品9999| 日韩午夜 | 国产美女久久久 | 日本簧片在线观看 | 日本高清一本视频 |