?
目前,大多數高端嵌入式SoC都屬于異質芯片在單純地提高時鐘速度的方法退出主流之后,保持這種單線程的編程抽象,迫使通用的單處理器設計工程師采用雙處理器或四處理器的一致性系統(coherent system)。具有豐富軟件的高性能嵌入式系統也是如此,只是情況稍有不同。
這些SoC中的處理器通過非一致性(noncoherent)共享內存,以某種形式的消息傳遞進行通訊。在第三代蜂窩電話中,通過雙端口SRAM和中斷進行通訊的經典RISC/DSP組合,就是這些簡單機制的一個很好例子。 未來的高性能SoC將是處理器的分層和異質系統,即在層次結構中嵌入由同質多處理器組成的一致性處理器集群。這種轉變已經出現在一個特定的高性能嵌入式市場中,即以一致性網絡多處理器實現的聯網市場。
目前,對于未來嵌入式芯片多處理器(CMP)的準確特性仍存在爭議。CMP是屬于異質型,還是用同質處理器以分層方式實現的異質型還不明確。但對于許多CMP而言,使共享內存保持一致性至關重要。
定義和基本概念
對于一個帶有緩存的多內核共享內存系統而言,如果由任何處理器發布的任何“載入”操作所返回的值總是在該內存位置最新“存儲”的值,則認為該系統是緩存一致的。為了明確術語“最新存儲 (latest Store) ”的定義,我們需要探討一下內存模型。
借助于順序一致性(SC)模型這個常用的內存模型進行闡述。在SC系統中,可以根據一個并行程序的任何一次執行的結果,對在一個位置完成的所有操作(主要是“載入”和“存儲”)建立全局串行順序。因此,“一致性”意味著:(1)每個處理器發出的“載入”和“存儲”操作順序,以同樣的方式出現在該系統的全局串行順序中,該處理器按照全局串行順序把這些操作傳給內存系統;(2)在該系統中,處理器每次所讀取的操作所返回的值,就是在全局串行順序中上次寫入到該位置的值。
因此,術語“全局串行順序”是由系統實現的內存一致性模型(簡稱內存模型)的結果,在非正式場合中以“強”和“弱”來定義。內存模型與單處理器的指令集架構(ISA)有關,ISA定義了編譯器和硬件之間的操作約定。
ISA為多處理器系統(一般稱為多線程系統)定義了程序員和內存系統之間的操作約定。因此,Java等多線程語言也明確給出了內存模型。在本文,大多數的“多處理”都可以用“多線程”代替。
順序一致性(SC)、總體存儲順序(TSO)和處理器一致性(PC)是一些常用的機器級內存模型(從強到弱)。模型更強,意味著在并行內存系統的實現器中加入了更多約束,從而簡化了由并行中間件或系統庫寫入器執行的任務。
但從單處理器的角度來看,SC卻是內存一致性最弱的方式,因為它只提供合理的內存系統所必需的約束,而不再對內存操作進行限制。簡言之,強的內存模型確保并行內存系統在“讀出最新存儲操作返回的值”的約束基礎上,還提供其它約束,從而更有利于程序員編程。這些附加的約束通常可用于在線程或處理器之間形成高效的同步機制。
為實現一致性,系統必須具備幾個基本特點。首先,在系統中的某一點處,向某個特定的內存位置寫入信息的操作必須是串行化的。請注意,串行化是一個邏輯概念。對于一些探索性的高性能實現,串行化只是對于在提交(commit)階段應如何返回事務給出了一個指導性方針,它類似于“無序”處理器,這種處理器保持一個臨時狀態和一個由提交點(commit point)分隔的“架構狀態”。
一致性系統的另一個特點是“寫入”傳播,它表示“寫入”操作需要最終傳播到需要這個新值的所有代理程序(agent)。第三個重要特點是“寫入”原子性,它是內存模型而不是一致性的結果,它表示在所有處理器被串行化后,需要將寫入操作全部傳播至系統中的所有處理器。
這里將只討論一致性協議的常見分類方法。這種分類方式基于系統中緩存的穩定狀態,常見的狀態被稱為“MOESI”,即修改、自有、互斥且干凈、共享且干凈,以及無效。這些術語的意義是自我解釋的,詳細解釋很容易在教科書中找到。
基于狀態的協議分類主要區分協議是基于“更新”還是基于“無效(invalidate)”。在基于“無效”的一致性協議中,系統中的一條緩存線僅有一個所有者,而在基于更新的系統中,所有緩存線的副本都是根據“寫入”操作來更新的。
串行化
許多較老的對稱式多處理(SMP或非CMP)系統,以總線廣播方式將事務廣播給系統中所有的代理程序。因此,這些代理程序可以“窺探”它們的狀態,然后采取適當的動作使數據項副本無效并對其進行更新。這種方式在一個事務的不同階段之間的重疊是最小的,并被限制為有序串行化(管道化)。
由于受到帶寬可擴展性、速度和總線可擴展性的限制,這些嚴格的監聽總線機制逐漸演變成一些新的一致性機制。高端系統(仍與嵌入式CMP有關,盡管原因并不相同)常采用基于目錄的機制。當已經存在低級別的多處理時,通常優先采納監聽“虛擬總線”機制。
監聽虛擬總線串行化使用樹型開關或層次環等專用的更高性能互連架構,特別是在事務的請求階段。在這些系統中,互連負責建立全局串行順序,同時從受限的、基于物理總線的互連轉換到更高性能(如串行)的點到點信令鏈路。
另一方面,基于目錄的機制在一個稱為目錄的新結構上完成串行化。這個目錄通常駐留在內存模塊中,用來存儲系統中各種緩存行的狀態。一般而言,這些系統與監聽總線機制(虛擬或其它形式)相比,其在串行化和有序化方面對網絡的依賴程度大大降低。由于目錄機制不廣播消息的數目,所以它們可用在非常大的系統中。
影響片上嵌入式多處理器一致性的另一個趨勢是,為降低復雜性,帶有多個處理器的下一代SoC將把通訊與計算分開。這種趨勢已經促使了基于網絡級芯片(NoC)的設計方法學的誕生,以及從電路交換NoC向分組交換NoC的轉移。任何一種片上嵌入式多處理器的一致性機制都需要關注深亞微米SoC中的這個重要變化,并在分組交換網絡底層上對一致性協議進行分層。
嵌入式SoC帶來了成本、功耗、實時操作、知識產權(IP)所有權以及異質處理器等一系列問題,因此,選擇嵌入式SoC的一致性機制與通用SoC有所不同。系統功耗低,系統成本就低,而系統成本是SoC的一個敏感因素。此外,如果SoC用于移動應用,低功耗要求的確是必需的。
正像緩存進入DSP領域需要一個過程一樣(周期準確的處理器和系統仿真器是加快這個轉變過程的關鍵工具),一致性設計也是如此。為將軟件移植到實時系統中,一致性/SoC設計工程師必須確保有周期足夠準確且快速的仿真器可用于應用程序/中間件端口。這個問題在高性能嵌入式SoC中更加嚴重,因為與通用多處理器相比,程序員需要更多地接觸硬件。對于通用多處理器,僅是有限的“系統”(中間件、庫和操作系統)程序員需要接觸到這個接口。
IP所有權是嵌入式SoC的一個特點。大多數通用CMP供應商的設計,在內存級(與一致性相關的級別)未采用任何外部IP。但對嵌入式SoC的積分器來說,外部IP的使用非常普遍。甚至連許多高性能嵌入式SoC中的互連(如OCP-IP),也是外部IP供應商提供的一個IP模塊。此外,高性能嵌入式SoC有時也會受益于以一致性方式共享相同內存的異質ISA內核,例如一個RISC內核和一個DSP。
從這些趨勢來看,監聽虛擬總線一致性機制與CMP的相關性是顯而易見的:有限的可擴展性、大量的片上帶寬、點到點信令、更低開銷和更低延遲。但有趣的是,通常認為僅適用于大型服務器級機器的目錄機制,經過適當修改后也適用于嵌入式SoC,這是因為目錄機制可以與無序互連、異質ISA、低功率單播事務等協同工作。
第一代嵌入式CMP或許只能采用監聽虛擬總線機制,但預計混合型監聽目錄機制可能成為實現嵌入式一致性的新趨勢,這是因為設計工程師將開始意識到目錄機制的模塊化所帶來的好處。
死鎖/活鎖
除了選擇串行化方法和一致性協議的類型之外,在給定的有限資源/緩存情況下,緩存一致性協議設計工程師必須保證該協議是無死鎖和無活鎖的。對于基于互連的分組交換型一致性協議,這點尤其重要。
這里存在兩類死鎖,即互連死鎖和協議死鎖。這兩種死鎖通常都是由于分組交換互連中的緩沖區限制引起的。在設計一致性協議時,應該仔細考慮協議死鎖(圖3a)。防止死鎖的常用機制包括:將事務的請求路徑與回復/響應路徑分開(圖3b);保證在任何狀態下緩存或內存代理程序都對請求給出響應。
如圖3b所示,設計工程師通常使用虛擬通道來完成上述第一個機制。在任何虛擬通道中流動的事務都遵循先進先出(FIFO)順序,而且信息流中的阻塞事件可引起一個能一直追溯到阻塞根源的背壓(backpressure)流控。因此,只要(事務)接收器(sink)在向前移動(forward progress),系統就不會阻塞。
如果在向前移動的過程中出現停頓,分布式系統將出現活鎖現象。在處理器上,這將在沒有向前發展的“載入/存儲”的程序計數器中得到反映。當多個緩存試圖獲得緩存線的所有權失敗時,這種情況常常發生。如果在該系統中適當地建立一個全局串行順序,則每個代理程序就可以按照這個順序來處理請求。必須按照公平方式來建立全局串行順序,并且公平地將各種資源(端口、總線、緩沖器)分配給多線程/多處理器。
另一個與防止活鎖有關的問題是流量控制。系統的流量控制將限制資源的分配。以ad-hoc方式實現的流量控制可能導致活鎖,而常見的一種情況就是在響應請求的同時,過度地使用重試或否定應答(NACK)。
其它設計考慮
除了死鎖和活鎖之外,設計工程師還應該考慮以下的問題:
緩存層次和DMA:當事務穿過緩存層次時將產生死鎖問題。通常,我們可以采納在更廣泛的協議中使用的相同機制,以便在單獨的(虛擬或真實)通道/FIFO中保留請求和回復。
另一個問題是確定增強一致性的緩存級別(L1緩存、L2緩存或L3緩存),以及I/O應在哪個位置上從一致性域進入和提取緩存線。通常情況下,包含(inclusion)問題的相關解決機在很大程度上依賴于具體的應用或系統。通過在一致性系統的事務集合包含線索(hint),可一致性系統中使用線索來進行預取和數據放置。一個顯而易見的例子就是路由。在路由系統中,需要把外來IP包的頭文件與一個表進行匹配,以該IP包的目標緩沖器/接口。通過利用線索對事務進行分類(如讀出/寫入、命中/不命中策略),可以將這些頭文件放在靠近較低緩存級別的位置。
同步和屏障(barrier)操作:許多ISA提供各種必須映射到一致性系統的原子語義(atomic primitive)。較弱的內存系統要求一種被稱為屏障的安全網落,它可以在發送敏感代碼序列期間,強迫發生某種行為(通常在處理器或線程發出的“存儲”和“載入”操作之間)。這種屏障一般通過插入ISA支持的專用屏障指令來實現。一致性系統可能需要通過動態地停滯某些事務來對這些操作作出響應,以支持這些行為。
評論
查看更多