欢乐颂小说结局是什么,大主宰,手机推荐排行榜

在之前博客帖子我談到了使用任務并行編程模型來提高多核計算節(jié)點的性能和系統(tǒng)利用率的機會。任務分配所面臨的主要挑戰(zhàn)是不同計算線程之間的負載不平衡，以及叉連接并行模型有效利用并發(fā)執(zhí)行的局限性。結果表明，在來自不同供應商的多個處理器中，使用任務分配共享內存代碼具有更好的縮放和性能。性能改進在10%到20%之間，執(zhí)行時間降低了35。這些優(yōu)化導致更快的模擬周轉時間，加速了全球高性能計算(HPC)用戶的科學進步。

該研究的重點是共享內存并行執(zhí)行在一個節(jié)點的計算使用 OpenMP。開放MP是HPC中共享內存并行和加速器卸載的第一并行編程模型。然而，大型超級計算機不是單一的共享內存系統(tǒng)，而是一組計算節(jié)點，每個節(jié)點都有自己的內存，通過高帶寬、低延遲網(wǎng)絡連接。消息傳遞是這種分布式內存系統(tǒng)的首選編程范例。消息傳遞接口 MPI是HPC分布式內存系統(tǒng)的主要并行編程模型。

大多數(shù)科學和工程應用都使用純MPI策略并行化，其中來自參與計算節(jié)點的每個計算線程都工作在總域問題的子域中。在MPI的上下文中，每個計算線程被稱為MPI進程或秩。將一個大域劃分為分布在不同等級之間的較小子域的技術稱為域分解。通常，這種分區(qū)需要在域空間中作為鄰居的行列之間交換子域邊界數(shù)據(jù)。在這種情況下，相鄰的等級通過使用MPI接口發(fā)送和接收邊界數(shù)據(jù)來交換消息。然而，純MPI策略不是利用節(jié)點內并行性的最佳選擇。應用程序對負載不平衡變得更加敏感，因此重疊應用程序階段和線程變得復雜。它們使用不必要的顯式消息進行通信，而不是使用共享內存空間。

之間最近的協(xié)作工作巴塞羅那超級計算中心 and Arm Research 報告的經(jīng)驗，任務的自適應網(wǎng)格細化代碼從美國Exascale計算項目在開放MP和MPI級別。本文發(fā)表了實現(xiàn)共享內存和分布式內存庫的互操作性的性能結果和收獲“ 面向自適應網(wǎng)格細化應用的數(shù)據(jù)流并行化 ”他說 IEEECluster 2020會議。本文詳細介紹了任務分配方法，該方法利用自動全疊負載平衡和通信計算重疊來實現(xiàn)更好的縮放、更高的系統(tǒng)利用率、效率和性能。

MPI開放MP

在深入研究先進的編程技術之前，除了純MPI方法外，我們還需要介紹科學代碼中使用的基本編程策略。最常見的替代方案是混合并行編程。將MPI和Open MP結合起來，使大規(guī)模的科學代碼并行化，為開發(fā)兩個世界的最佳代碼提供了一個機會，同時減輕了它們的弱點。混合MPI Open MP應用程序創(chuàng)建一組MPI級別，然后每個級別都可以執(zhí)行一組OpenMP線程。

通常，科學應用具有迭代算法。迭代通常在模擬中執(zhí)行一個時間步驟，其特征是對數(shù)據(jù)進行操作的計算部分，以及一個通信部分，其中等級交換下一次迭代的更新數(shù)據(jù)。通常，在混合MPI開放MP代碼中，計算部分具有所有MPI級別中的所有OpenMP線程，通信部分具有MPI級別傳遞消息。通信部分通常由主線程串行執(zhí)行（下圖中用藍色顯示）。這種簡單的方法通常在混合編程的上下文中被命名為fork-join。

MPI具有完全并行和固有的局部性優(yōu)勢。 MPI應用程序中的所有級別從初始化到執(zhí)行結束獨立運行。它們在數(shù)據(jù)的私有分區(qū)或副本上工作，從而防止不必要的共享數(shù)據(jù)問題。另一方面，Open MP本質上是串行的，并且只在并行部分上打開并行性，這些并行部分處理共享數(shù)據(jù)。它還可能受到遠程緩存效果和一致性工件的影響，例如錯誤共享。開放處理共享數(shù)據(jù)的MP具有避免數(shù)據(jù)復制以進行消息傳遞的優(yōu)點，因為所有線程都可以訪問數(shù)據(jù)的單個副本。將這兩種方法結合起來，允許包含MPI級別，以利用合并消息傳遞模型在分布式內存系統(tǒng)中進行通信，每個級別運行OpenMP輕量級線程，利用共享數(shù)據(jù)，減少了總體數(shù)據(jù)復制需求。

程序員肯定可以按照類似的方案使用Open MP編程。它們可以自始至終具有完整的并發(fā)執(zhí)行，并在仍然訪問共享數(shù)據(jù)的同時跨線程分發(fā)工作。然而，不幸的是，采用自下而上的方法與Open MP并行是一種常見的做法：并行單個循環(huán)并將串行部分保持在中間。這就規(guī)定了所規(guī)定的比例限制 Amdahl的法律.

混合應用程序中等級的常見配置是每個計算節(jié)點一個等級，或每個非Uniform內存訪問(NUMA)節(jié)點一個等級。在MPI級別中打開MP線程，通過共享內存空間中的共享數(shù)據(jù)結構隱式通信，而不是交換MPI消息。利用每個NUMA節(jié)點的一個秩通常會提高數(shù)據(jù)的局部性，因為給定秩中的線程訪問相同的NUMA節(jié)點的內存。從不同的NUMA節(jié)點訪問內存會在線程之間帶來顯著的內存延遲差異，從而導致不平衡的場景。

MPI和Open MP之間的互操作性

這種混合模型提供了這兩種模型的優(yōu)點，但在表中留下了機會。異步傳輸(例如，MPI_Isend/MPI_Irecv)等特性通過允許一些通信和計算重疊來提供混合模型的一些好處。然而，具有全局同步的fork-join模型（如圖1中綠色所示）限制了計算-通信重疊的數(shù)量，并允許在不同級別的不同迭代中執(zhí)行的重疊。為了脫離fork-join模型，并允許開發(fā)更高級別的并行性，以及任務分配提供的異步計算和通信，MPI和OpenMP庫需要一起工作。

這種互操作性今天不存在。兩個庫相互獨立工作，兩者之間的編排由程序員負責。在當前的MPI和OpenMP標準中，在并發(fā)任務中執(zhí)行MPI通信操作（例如，并行交換子域邊界的任務）是兩者危險的 and 不稱職的.

一方面，從并發(fā)任務中調用阻塞MPI函數(shù)是不安全的。注意，阻塞MPI操作會阻塞MPI庫內的當前線程，直到操作完成。圖2說明了這個問題。我們假設一個混合應用程序具有兩個MPI等級：一個實例化多個并發(fā)任務以發(fā)送不同的數(shù)據(jù)塊，另一個實例化相同數(shù)量的并發(fā)任務以接收數(shù)據(jù)。我們還假設它們調用常見的阻塞MPI_Send和MPI_Recv方法來發(fā)送和接收每個塊，并且每個塊數(shù)據(jù)消息都被標記為其塊標識符。

如果通信任務的數(shù)量大于可以運行任務的OpenMP線程的數(shù)量，則程序可能掛起，在這種情況下，OpenMP線程的數(shù)量是每個級別兩個(每個核心一個。這是因為通信任務是并發(fā)的，所以OpenMP調度程序可以根據(jù)調度策略和執(zhí)行情況自由地決定它們的執(zhí)行順序。由于不能保證兩個級別的執(zhí)行順序相同，運行中的任務可能試圖交換一組不同的塊。這將阻塞MPI庫中兩個級別的Open MP線程，從而引發(fā)死鎖情況。請注意，當OpenMP線程在MPI庫中阻塞時，OpenMP線程調度程序無法知道線程已被阻塞，因此無法在該核心上調度另一個OpenMP線程。因此，核心不能同時執(zhí)行其他“準備”通信任務。

圖2：缺乏MPI開放的MP可操作性可能導致MPI調用任務的死鎖

另一方面，從任務中發(fā)布MPI操作通常是低效的。通信任務需要人工數(shù)據(jù)依賴，以定義所有級別的相同執(zhí)行順序，并防止以前的死鎖情況。非阻塞MPI操作(例如，MPI_Irecv)的執(zhí)行，它啟動操作并返回一個MPI請求，以檢查其稍后的完成情況，很難管理內部任務。用戶將負責手動檢查MPI請求，在大多數(shù)情況下導致算法效率低下。

任務-軟件MPI(TAMPI)庫

The 任務-軟件MPI(TAMPI)庫目的是克服所有這些限制，允許安全和高效地執(zhí)行阻塞和非阻塞MPI操作，從任務內部，在開放MP和 OmpSs-2 任務型模特。在調用阻塞MPI函數(shù)的任務(例如，MPI_Recv)的情況下，庫暫停任務，直到操作完成，允許其他“就緒”任務同時在該核心上執(zhí)行。該庫還為所有非阻塞MPI函數(shù)(例如TAMPI_Irecv)定義了TAMPI變體)。這些函數(shù)是非阻塞和異步的，將調用任務的完成綁定到它們所表示的相應的非阻塞操作的最終確定(例如，MPI_Irecv)。該函數(shù)立即返回，以便即使MPI操作尚未完成，任務也可以完成其執(zhí)行。當任務執(zhí)行完成時，任務被認為是完成的，所有掛起的MPI操作都完成了。

圖3：HPC軟件堆棧與MPI和開放MP互操作性通過TAMPI。

我們在下面的代碼中展示了如何使用TAMPI支持進行非阻塞操作的示例。程序同時接收并使用任務并行處理多個整數(shù)。第一個任務是接收機，它調用TAMPI_Irecv函數(shù)開始接收操作。這使得任務完成取決于接收操作的最終完成。注意，它聲明了對用于接收數(shù)據(jù)的緩沖區(qū)的輸出依賴（即數(shù)據(jù)將寫入緩沖區(qū)）。當操作仍在進行時，TAMPI函數(shù)可能會立即返回，因此緩沖區(qū)不能在那里被消耗。相反，我們可以在下面的后續(xù)任務中使用它，該任務將緩沖區(qū)作為輸入依賴項。這樣，當MPI操作最終完成時，TAMPI庫將透明地完成接收任務并滿足消費者任務的輸入依賴。這將最終運行以消耗接收到的數(shù)據(jù)。這樣，TAMPI庫允許開發(fā)人員與多個任務并行執(zhí)行高效和安全的通信。

int recvdata[N]; MPI_Status status[N]; for (int i = 0; i < N; ++i) { #pragma omp task out(recvdata[i]) out(status[i]) { int tag = i; TAMPI_Irecv(&recvdata[i], 1, MPI_INT, 0, tag, MPI_COMM_WORLD, &status[i]); // non-blocking and asynchronous // recvdata cannot be accessed yet } #pragma omp task in(recvdata[i]) in(status[i]) { check_status(&status[i]); consume_data(&recvdata[i]); } } #pragma omp taskwait

通過利用OpenMP或OmpSS-2等任務分配模型和TAMPI庫，我們可以對大多數(shù)應用程序進行有效的任務化，包括計算和通信部分。這導致計算和通信的有效重疊，這是任務分配模型固有的。然后，開發(fā)人員可以集中精力公開他們的應用程序的并行性，而不是擔心低級方面，例如任務發(fā)布的MPI操作的處理，這些操作隱藏在TAMPI中。這種策略還可以通過任務化高級函數(shù)來實現(xiàn)自上而下的并行化策略，而不是在叉接方法中看到的低效的自下而上策略。

運用我們的方法

到目前為止，我們已經(jīng)探討了MPI和OpenMP之間缺乏互操作性所帶來的問題，以及它如何阻礙MPI級別的任務分配。我們還討論了提供在TAMPI中實現(xiàn)的這種互操作性的建議。在里面這個博客的第二部分我們研究了如何將所提出的方法應用于自適應網(wǎng)格細化應用。由此產(chǎn)生的代碼使用任務跨MPI和開放MP與重要的加速高達12288核心。

審核編輯黃昊宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴