在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CPU Cache偽共享問題

程序喵大人 ? 來源:程序喵大人 ? 作者:程序喵大人 ? 2022-12-12 09:17 ? 次閱讀

先看下這兩段代碼:

代碼段1:

const int row = 10240;
const int col = 10240;
int matrix[row][col];
int TestRow() {
  //按行遍歷
  int sum_row = 0;
  for (int r = 0; r < row; r++) {
    for (int c = 0; c < col; c++) {
      sum_row += matrix[r][c];
    }
  }
  return sum_row;
}

代碼段2:

int TestCol() {
  //按列遍歷
  int sum_col = 0;
  for (int c = 0; c < col; c++) {
    for (int r = 0; r < row; r++) {
      sum_col += matrix[r][c];
    }
  }
  return sum_col;
}

兩段代碼的目的相同,都是為了計算矩陣中所有元素的總和。

但有些區別:一個是按行遍歷元素做計算,一個是按列遍歷元素做計算。

它倆的運行速度有什么區別嗎?

如圖:

3234ccf4-79ba-11ed-8abf-dac502259ad0.png

32460802-79ba-11ed-8abf-dac502259ad0.png

圖中可以看到,行遍歷的代碼速度比列遍歷的代碼速度快很多。

為什么按行遍歷的代碼比按列遍歷的代碼速度快?這里就是CPU Cache在起作用。

什么是CPU Cache?

可以先看下這個存儲器相關的金字塔圖:

325369fc-79ba-11ed-8abf-dac502259ad0.png

從下到上,空間雖然越來越小,但是處理速度越來越快,相應的,設備價格也越來越貴。

圖中的寄存器和主存估計大家都知道,那中間的L1 、L2、L3是什么?它們起到了什么作用?

它們就是CPU 的Cache,如下圖:

32630e66-79ba-11ed-8abf-dac502259ad0.png

可以理解為CPU Cache就是CPU與主存之間的橋梁。

當CPU想要訪問主存中的元素時,會先查看Cache中是否存在,如果存在(稱為Cache Hit),直接從Cache中獲取,如果不存在(稱為Cache Miss),才會從主存中獲取。Cache的處理速度比主存快得多。

所以,如果每次訪問數據時,都能直接從Cache中獲取,整個程序的性能肯定會更高。

那,如何提高CPU Cache的命中率?

這里我不多介紹,感興趣的直接移步到我這篇文章:https://mp.weixin.qq.com/s/iKWQZxn6XYKU9KnlBRynfg

但CPU Cache這里還有個小問題,看下這兩段代碼:

代碼段1:

struct Point {
  std::atomic<int> x;
  // char a[128];
  std::atomic<int> y;
};
void Test() {
  Point point;
  std::thread t1(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->x += 1;
        }
      },
      &point);
  std::thread t2(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->y += 1;
        }
      },
      &point);
  t1.join();
  t2.join();
}

代碼段2:

struct Point {
  std::atomic<int> x;
  char a[128];
  std::atomic<int> y;
};
void Test() {
  Point point;
  std::thread t1(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->x += 1;
        }
      },
      &point);
  std::thread t2(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->y += 1;
        }
      },
      &point);
  t1.join();
  t2.join();
}

兩端代碼的核心邏輯都是對Point結構體中的x和y不停+1。只有一點區別就是在中間塞了128字節的數組。

它們的執行速度卻相差很大。

328d20a2-79ba-11ed-8abf-dac502259ad0.png

32a70d0a-79ba-11ed-8abf-dac502259ad0.png

帶128的比不帶128的代碼,執行速度快很多。

為什么?

看過我上面文章的同學應該就知道,每個CPU都有自己的L1和L2 Cache,而Cache line的大小一般是64字節,如果x和y之間沒有128字節的填充,它倆就會在同一個Cache line上。

代碼中開了兩個線程,兩個線程大概率會運行在不同的CPU上,每個CPU有自己的Cache。

當CPU1操作x時,會把y裝載到Cache中,其他CPU對應的的Cache line失效。

然后CPU2加載y,會觸發Cache Miss,它后面又把x裝載到了自己的Cache中,其他CPU對應的Cache line失效。

然后CPU1操作x時,又觸發Cache Miss。

它倆就會是大體這個流程:

32b498b2-79ba-11ed-8abf-dac502259ad0.png

繁的觸發Cache Miss,導致程序的性能相當差。

而如果x和y中間加了128字節的填充,x和y不在同一個Cache line上,不同CPU之前不會影響,它倆都會頻繁的命中自己的Cache,整個程序性能就會很高,這就是傳說中的False Sharing問題。

所以我們寫代碼時,可以基于此做深一層思考,如果我們寫單線程程序,最好保證訪問的數據能夠相鄰,在一個Cache line上,可以盡可能的命中Cache。

如果寫多線程程序,最好保證訪問的數據有間隔,讓它們不在一個Cache line上,減少False Sharing的頻率。

上述內容源于前一段的技術分享,完整PPT在一個優質的C++學習圈里,來一起鉆研C++吧。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11003

    瀏覽量

    215030
  • 程序
    +關注

    關注

    117

    文章

    3816

    瀏覽量

    82117
  • 代碼
    +關注

    關注

    30

    文章

    4876

    瀏覽量

    69956
收藏 人收藏

    評論

    相關推薦

    如何在NXP MCU上啟用D-Cache

    Data Cache,我已經能夠減少其他 MCU 的推理時間。我想知道如何在 NXP MCU 上啟用 D-Cache。任何其他性能提升策略也受到歡迎。
    發表于 03-27 07:48

    腦電跡系列之腦電跡處理與技術剖析

    在上一篇系列文章中了解到,腦電信號反映大腦神經元活動,在神經科學研究、臨床診斷、腦機接口等領域應用廣泛。但腦電信號幅值微弱極易受跡干擾。這些跡降低信號信噪比,增加數據變異性,導致實驗結果偏差
    的頭像 發表于 03-04 20:24 ?455次閱讀
    腦電<b class='flag-5'>偽</b>跡系列之腦電<b class='flag-5'>偽</b>跡處理與技術剖析

    腦電跡全解析:類型、成因與影響

    在腦電信號研究領域,腦電跡是影響數據準確性的關鍵因素。深入了解腦電跡,對獲取可靠腦電數據、推動腦科學研究意義重大。腦電跡的產生根源腦電信號由大腦神經元電活動產生,極其微弱,通常處于幾十微伏的低
    的頭像 發表于 02-25 22:26 ?1166次閱讀
    腦電<b class='flag-5'>偽</b>跡全解析:類型、成因與影響

    真雙極和準雙極,差動跟差動使用的性能有差別嗎?

    最近需要用到差動輸入的adc,找了很多型號,發現有真雙極和準雙極,差動輸入方式的還分差動跟差動。網上找不到相關介紹,一般我們用單極adc要測量雙極信號需要將信號抬高1/2vcc,我的理解是準雙極的原理和抬高輸入信號的原理一樣。不知道真雙極和準雙極,差動跟差動使用的性
    發表于 02-08 07:52

    hyper-v共享,Hyper-V 共享:Hyper-V的資源共享設置

    的解決方案。今天就為大家介紹Hyper-V共享:Hyper-V的資源共享設置。 ? ?在Hyper-V虛擬化環境中,資源共享是實現高效管理和靈活部署的關鍵功能之一。Hyper-V提供了多種資源
    的頭像 發表于 02-07 10:26 ?623次閱讀
    hyper-v<b class='flag-5'>共享</b>,Hyper-V <b class='flag-5'>共享</b>:Hyper-V的資源<b class='flag-5'>共享</b>設置

    什么是緩存(Cache)及其作用

    緩存(Cache)是一種高速存儲器,用于臨時存儲數據,以便快速訪問。在計算機系統中,緩存的作用是減少處理器訪問主存儲器(如隨機存取存儲器RAM)所需的時間。 緩存(Cache)概述 緩存是一種位于
    的頭像 發表于 12-18 09:28 ?5399次閱讀

    請問什么叫差分結構?什么叫真差分信號?

    請問什么叫差分結構?什么叫真差分信號?
    發表于 12-16 07:33

    OPA1642做一個差分和差分輸出轉換的電路,在差分的情況下遇到的問題求解

    我在做一個差分和差分輸出轉換的電路,但是在差分的情況下遇到下面的問題,用理想運放仿真負端就不會出現類似方波的情況,但是用OPA1642就有這個問題,方波的峰峰值大概5V,請幫忙看看是否是前端電阻匹配的不合適,兩個輸入信號是相位相差180度,峰值為5V的正弦波,謝謝
    發表于 11-07 06:07

    Cache和內存有什么區別

    Cache(高速緩存)和內存(Memory,通常指主存儲器或RAM)是計算機存儲系統中兩個重要的組成部分,它們在計算機的性能和數據處理中扮演著不同的角色。以下是對Cache和內存之間區別的詳細解析。
    的頭像 發表于 09-26 15:28 ?3241次閱讀

    德國進口蔡司工業CT去散射影技術

    CT影始終是制約分析、數據處理、可靠性以及準確度的重大難題。毋庸置疑,影的種類繁多,像是射線硬化、多材料、散射或者環狀等均在其列。今日,要與諸位分享的乃是鋁壓鑄行業里最為常見的散射影。即便是
    的頭像 發表于 09-04 11:20 ?579次閱讀
    德國進口蔡司工業CT去散射<b class='flag-5'>偽</b>影技術

    解析Arm Neoverse N2 PMU事件L2D_CACHE_WR

    有客戶希望我們幫忙分析 Eigen gemm 基準測試的一些執行情況。具體來說是為什么 L1D_CACHE_WR 的值會低于 L2D_CACHE_WR,這種情況令人費解。
    的頭像 發表于 09-03 11:42 ?1612次閱讀
    解析Arm Neoverse N2 PMU事件L2D_<b class='flag-5'>CACHE</b>_WR

    什么是CPU緩存?它有哪些作用?

    CPU緩存(Cache Memory)是計算機系統中一個至關重要的組成部分,它位于CPU與內存之間,作為兩者之間的臨時存儲器。CPU緩存的主要作用是減少
    的頭像 發表于 08-22 14:54 ?5176次閱讀

    Cortex R52內核Cache的具體操作(2)

    本節內容主要講述CortexR52內核Cache的具體操作包括使緩存無效(invalidate)操作,清除(clean)緩存。有的時候客戶可能需要對cache做一些清理,比如invalidate
    的頭像 發表于 07-15 15:44 ?1845次閱讀
    Cortex R52內核<b class='flag-5'>Cache</b>的具體操作(2)

    Cortex R52內核Cache的相關概念(1)

    在開始閱讀本系列文章之前,請先參閱《有關CR52 MPU配置說明》。因為這篇文章講述了,cache配置所涉及到的寄存器的設置和MPU的一些基本概念。如果讀者都已經理解了上述內容,可以跳過。本章內容主要講述cache屬性的具體含意、注意事項、以及在RZ/T2M的性能測試。
    的頭像 發表于 07-15 10:37 ?2097次閱讀
    Cortex R52內核<b class='flag-5'>Cache</b>的相關概念(1)

    CortexR52內核Cache的具體操作

    本節內容主要講述CortexR52內核Cache的具體操作包括使緩存無效(invalidate)操作,清除(clean)緩存。有的時候客戶可能需要對cache做一些清理,比如invalidate
    的頭像 發表于 07-15 10:32 ?1661次閱讀
    CortexR52內核<b class='flag-5'>Cache</b>的具體操作
    主站蜘蛛池模板: 国产香蕉98碰碰久久人人 | 免费的黄色大片 | 色婷婷激婷婷深爱五月小说 | 亚洲美女视频在线观看 | 一级毛片aaaaaa视频免费看 | 久久国产精品免费专区 | 久久天天躁狠狠躁狠狠躁 | bt天堂bt在线网 | 日韩精品午夜 | 亚洲国产成人精品不卡青青草原 | 色图视频 | 亚洲午夜网站 | 午夜精品视频在线看 | 手机看片神马午夜 | 久久久久激情免费观看 | 九色欧美 | 久久久久四虎国产精品 | 亚洲网在线 | 成年人啪啪网站 | 国产一级做a爰片久久毛片 国产一级做a爰片久久毛片男 | 免费中国一级啪啪片 | 94久久国产乱子伦精品免费 | 163黄页网又粗又长又舒服 | bt天堂中文在线 | 国产1024一区二区你懂的 | 在线97| 国产日本三级在线播放线观看 | 亚洲第一免费播放区 | 国产永久免费爽视频在线 | 国产黄色的视频 | 天天操狠狠干 | 精品亚洲午夜久久久久 | 久久mimi色| 国产综合成色在线视频 | 激情综合视频 | 同性男男肉交短文 | 国产中日韩一区二区三区 | 免费无遮挡很爽很污很黄 | 午夜免费观看_视频在线观看 | 爱综合网| 四虎国产精品永久在线网址 |