想象一下,在AI訓練、高性能計算、分布式存儲的“心臟”——數據中心網絡里,RoCEv2(RDMA over Converged Ethernet v2)正以驚人的速度傳輸著海量數據。它繞過了操作系統內核,讓應用直通網卡,速度飆升!但高速也伴隨著風險:網絡一旦擁塞,數據包丟失,整個高性能應用就可能“翻車”。這時,一個低調卻至關重要的守護者站了出來: PFC(Priority-based Flow Control,基于優先級的流量控制) 。它就像網絡流量的“精密剎車系統”,確保關鍵數據永不丟失。今天,就讓我們一起揭開PFC的神秘面紗!
什么是PFC?
PFC是一種以Ethernet為基礎的流控機制,它允許以優先級(Priority)為單位,控制特定優先級類別的網絡流量。簡單來說,當某個優先級的流量出現擁堵或包溢出時,PFC可以暫停對應優先級的流量,避免數據丟失,確保關鍵數據的穩定傳輸。
PFC如何工作?一場精妙的“反壓”對話
PFC的交互本質是接收方(Rx)向發送方(Tx)發送“暫停(Pause)” 或“恢復(Resume)” 指令。讓我們分解這個過程:
- 接收端檢測到擁塞的優先級隊列。
- 立即構造一個 PFC Pause Frame。
- 在報文中明確指定需要暫停的優先級(如優先級3) 以及需要暫停的時間長度(Pause Time)。
- 將這個Pause Frame發送給直接相連的上游設備(發送端交換機或服務器網卡)。
- 執行剎車(Hold):
- 上游設備(Tx)收到PFC Pause Frame。
- 解析報文,得知需要暫停哪個優先級(如優先級3)的流量發送。
- 立即停止發送該優先級的數據幀。
- 暫停的持續時間由報文中的Pause Time字段指定(單位是512 bit time,可換算成時間)。
- 緩解與恢復(Resume):
- 接收端緩沖區被排空,擁塞解除。
- 接收端可以發送一個新的PFC Pause Frame,將對應優先級的Pause Time設置為0。這就是“恢復(Resume)”信號。
- 上游設備(Tx)收到Pause Time = 0的報文后,立即恢復發送該優先級的數據幀。
PFC Pause Frame報文長啥樣?
理解了交互,我們再來看看這個關鍵的“剎車指令”——PFC Pause Frame的報文結構(基于IEEE 802.1Qbb標準):
關鍵字段解析:
- Priority Enable Vector (2字節): 這是控制開關。例如,它的值是 0x04 (二進制 0000 0100),表示只對 優先級2 (因為Bit2=1) 進行流量控制。其他優先級不受影響。
- Pause Time (每個優先級2字節): 這是剎車時長。對于Priority Enable Vector中啟用的優先級,其對應的Time字段值表示請求發送方暫停該優先級流量的時長。Time = 0 表示“立即恢復”發送該優先級流量。 Time > 0 表示暫停的時長(單位是512 bit time,在10Gbps鏈路上,1個512 bit time = 51.2 ns)。
- Opcode (01-01): 明確這是PFC幀,而不是普通的PAUSE幀(Opcode為00-01)
它的應用場景如何呢
PFC在實際數據中心環境中的應用場景極為廣泛,主要包括:
- AI/ML訓練集群: 保障GPU間高速RDMA通信不丟包、低延遲。
- 超融合基礎架構/HCI: 保證虛擬化存儲(vSAN, Ceph等)后端網絡穩定高效。
- 高性能分布式存儲: 確保存儲節點間數據同步的可靠性。
- 金融交易系統: 滿足微秒級交易延遲要求。
PFC實戰測試:如何驗證你的“剎車系統”可靠?
為了確保PFC功能的正確性和有效性,測試是非常重要的一環。以下使用信而泰測試儀表X5-400G設備對PFC功能進行測試:
測試拓撲和主要配置如下所示:
如上圖所示,測試儀模擬兩端口向一個端口發流的擁塞場景,從而來驗證DUT的PFC功能,被測設備使用華三的s9825-8C-G;
- 占用3個端口,port1和port2用于發送QP流量,port3用于接收,使用RoCEv2向導,使能PFC,以Priority 5 為例:
- 配置RoCEv2 Server:配置DSCP值:40,配置ipv4地址與DUT對應,阻塞端口port3的QP Block數量設置為2:(需要保證源QP Block數量與目標QP Block數量一致)
- 選擇流端點:勾選上server1和server2打向server3的QP block,點擊完成即可:
- 在流模板處查看,使用向導完成配后后默認是生成雙向流量,去使能port3發送的流量即可:
- 先將Port 1和Port2打往Port3的線速流量運行起來,此時可以觀察到port1和port2的發送速率為100%,然后將DUT使能PFC功能后,可以觀察到兩端口流量的發送速率降速至50%:
- 測試儀PFC報文統計查看,可統計到DUT發送的第5優先級的PFC報文:
- Port 1和Port2上啟動捕獲,其中pause time包含0和65535的PFC報文:
DarYu-X/E系列網絡測試儀
信而泰公司已推出X2-100G-12QSFP28、X5-400G高密度以及E2-100G-4QSFP28-Q測試模塊,均支持測試RoCEv2協議,支持100G/200G/400G的多速率以太網測試,信而泰的RoCEv2深度測試,為網絡設備商、云服務商及企業用戶提供了不可或缺的工具,有效識別瓶頸、優化配置,極大提升RoCEv2部署信心,是推動高性能無損網絡從架構設計走向大規模、高效率實際應用的關鍵環節。
審核編輯 黃宇
-
網絡安全
+關注
關注
11文章
3339瀏覽量
61440 -
PFC
+關注
關注
47文章
1020瀏覽量
108174 -
數據中心
+關注
關注
16文章
5222瀏覽量
73487
發布評論請先 登錄
易燃易爆環境的氣象“守護者”:防爆自動氣象監測設備揭秘
通信設備“隱形守護者”:高頻濾波器的加工難點與突破
高精度激光測距傳感器:工業精密測量的“隱形守護者”
光耦合器:隱形守護者,拓展無限應用
電力設備局放監測傳感器:電網安全的“隱形守護者”

精密儀器儀表背后的“隱形守護者”:交流單相濾波器
拉線式編碼器原理:工業精密測量的“隱形守護者”
BNC 射頻連接器:信號傳輸的隱形守護者,深度解析其工作原理

解鎖工業網關通訊測試:工業運轉的隱形守護者

評論