第36屆 SIGCOMM 于2022年8月22日-8月26日在荷蘭阿姆斯特丹召開。本次會議共收到279篇投稿,接收55篇論文,錄取率為19.71%。 ? 廈門大學(xué)SNG的同學(xué)們按照會議日程對論文內(nèi)容進行了分期評述,本期介紹session6的論文。 ? Session?6:?Machine Learning
Genet: Automatic Curriculum Generation for Learning Adaptation in Networking
Zhengxu Xia (University of Chicago), Yajie Zhou (Boston University), Francis Y. Yan (Microsoft Research), Junchen Jiang (University of Chicago)
背景
這篇文章來自芝加哥大學(xué),波士頓大學(xué)和微軟的研究者。它提出了一個針對增強學(xué)習(xí)的新框架Genet,利用課程學(xué)習(xí)(curriculum learning)自動搜索會給訓(xùn)練帶來實質(zhì)性改善的環(huán)境,逐步提供相對困難的環(huán)境以提高學(xué)習(xí)和訓(xùn)練效果。 ? 目前,增強學(xué)習(xí)在網(wǎng)絡(luò)領(lǐng)域的應(yīng)用已經(jīng)成為了熱點,但在實際應(yīng)用中仍存在一些限制條件,例如,(1)傳統(tǒng)RL訓(xùn)練中通常會從給定的訓(xùn)練范圍內(nèi)均勻地抽取網(wǎng)絡(luò)環(huán)境樣本,這使得在狹窄分布上進行訓(xùn)練時泛化性較差(poor generalizability);(2)在訓(xùn)練分布較廣的情況下也會出現(xiàn)不容易收斂的情況(poor converged)。因此,需要考慮如何改善RL訓(xùn)練,使學(xué)習(xí)到的適應(yīng)策略在廣泛的目標網(wǎng)絡(luò)環(huán)境中取得良好的性能。
?
設(shè)計
為了解決上述問題,本文提出使用課程學(xué)習(xí)(curriculum learning)來改變RL訓(xùn)練環(huán)境的分布,引入新環(huán)境為模型提供越來越多的學(xué)習(xí)機會。逐漸增加了訓(xùn)練環(huán)境的難度,因此在訓(xùn)練中會看到更多更有可能改進的環(huán)境,我們稱之為獎勵環(huán)境(reward environment)。在許多RL的應(yīng)用中,先前的工作已經(jīng)顯示了課程學(xué)習(xí)的前景,包括更快的收斂、更高的漸進性能和更好的泛化。 ? 那么,隨之需要解決的問題是:我們?nèi)绾未_定哪些環(huán)境是對訓(xùn)練更有益的,也就是說如何按順序排列網(wǎng)絡(luò)環(huán)境,使得優(yōu)先考慮當(dāng)前RL策略的回報率高的環(huán)境。本文的工作提出這一觀點:如果當(dāng)前的RL模型與基線有很大的差距(gap-to-baseline),即RL策略的性能在環(huán)境中落后于傳統(tǒng)的基于規(guī)則的基線,則認為環(huán)境是有價值的。 ? 基于這個觀點,設(shè)計出Genet這一學(xué)習(xí)框架。如圖所示,通過迭代識別當(dāng)前RL模型與基線有較大差距的獎勵環(huán)境,然后將其加入RL訓(xùn)練,從而生成RL訓(xùn)練課程。
對于每個RL用例,Genet對網(wǎng)絡(luò)環(huán)境空間進行了參數(shù)化,使我們能夠在綜合實例化的環(huán)境和跟蹤驅(qū)動的環(huán)境中搜索到有價值的環(huán)境。Genet還使用貝葉斯優(yōu)化(BO)來促進大空間中的搜索。 ?
評估
本文使用跟蹤驅(qū)動的模擬和真實世界的測試相結(jié)合,跨越三個用例(ABR、CC、LB),結(jié)果表明Genet與傳統(tǒng)的RL訓(xùn)練方法相比,ABR的漸進性能提高了8-25%,CC提高了14-24%,LB提高了15%。
個人觀點
在增強學(xué)習(xí)逐步成為解決網(wǎng)絡(luò)領(lǐng)域重要問題的有效手段的背景下,本文工作者研究如果有效提升增強學(xué)習(xí)訓(xùn)練的效果,重點關(guān)注了訓(xùn)練環(huán)境對訓(xùn)練效果產(chǎn)生的影響,是一個具有實際意見的研究點,創(chuàng)新點在于利用課程學(xué)習(xí)的方法為訓(xùn)練不斷更新合適的環(huán)境。但如同在本文討論部分中提到的問題:gap-to-baseline值高或者低的環(huán)境是否總是意味著RL模型在對其進行訓(xùn)練時有小或者大的改進?本文在這一問題上所進行的論證或者實驗不是非常充分。 ?
LiteFlow: Towards High-performance Adaptive Neural Networks for Kernel Datapath
Junxue Zhang, Chaoliang Zeng (Hong Kong University of Science and Technology), Hong Zhang (UC Berkeley), Shuihai Hu, Kai Chen (Hong Kong University of Science and Technology)
背景
自適應(yīng)神經(jīng)網(wǎng)絡(luò)在變化的環(huán)境中可以實現(xiàn)超高性能,所以在操作系統(tǒng)kernel數(shù)據(jù)路徑中部署這些網(wǎng)絡(luò)表現(xiàn)出流行趨勢。然而,現(xiàn)有的部署方法存在局限性。一種部署的方法是部署在user-space,然而,這樣的方法導(dǎo)致很高的cross-space 通信開銷和低響應(yīng),極大影響了函數(shù)性能;另一種方法是部署到純kernel-space,但這種方法會導(dǎo)致很大的性能下降,因為典型的模型微調(diào)的算法的計算邏輯十分復(fù)雜,干擾了正常的datapath的執(zhí)行性能。模型推理要求快速執(zhí)行,適合kernel-space,模型微調(diào)要求高精度和大量的計算,適合部署在user-space。 ?
設(shè)計
基于以上的觀察,一種符合直覺的方法是解耦自適應(yīng)神經(jīng)網(wǎng)絡(luò)的控制路徑:模型推理放到kenel-space,模型微調(diào)放到user-space。 ? 然而,實現(xiàn)這個思路有3個挑戰(zhàn):1. 這樣的設(shè)計要求兩個目標:既兼容kenel-space,又兼容user-space,要求大量的開發(fā)和debug;2.kernel-space的神經(jīng)網(wǎng)絡(luò)不能及時體現(xiàn)神經(jīng)網(wǎng)絡(luò)微調(diào)的結(jié)果;3.在user-space訓(xùn)練要求從kernel-space的數(shù)據(jù)傳輸,導(dǎo)致性能下降。 ? 為了解決這些挑戰(zhàn),作者提出LiteFlow。LiteFlow將自適應(yīng)神經(jīng)網(wǎng)絡(luò)的控制路徑解耦為:為高效模型推理的kernel space快速路徑,為有效模型微調(diào)的user space慢速路徑。設(shè)計框架上,Lite Flow是一個混合框架,它包括user-space的組件和kernel-space的組件。給定一個user-space的神經(jīng)網(wǎng)絡(luò),LiteFlow首先生成神經(jīng)網(wǎng)絡(luò)快照,該快照將被部署到kernel-space以實現(xiàn)快速推理。同時,LiteFlow也收集該快照的輸入和輸出數(shù)據(jù)來進一步微調(diào)user-space的神經(jīng)網(wǎng)絡(luò)。在訓(xùn)練幾批數(shù)據(jù)后,LiteFlow將評估是否需要更新快照。
評估
作者在congestion control(Aurora和MOCC模型),flow scheduling(FFNN模型)和path selection(MLP模型)任務(wù)中評估了LiteFlow的效果。在congestion control中,神經(jīng)網(wǎng)絡(luò)的輸入是RTT,ECN等這些擁塞信號,輸出是流的發(fā)送速率。Aurora使用強化學(xué)習(xí)算法,利用2層全連接層;MOCC使用多目標強化學(xué)習(xí),用2層全連接層,提升了Aurora的設(shè)計。對比方法選擇的是純user-space發(fā)布,傳統(tǒng)在kernel-space發(fā)布。實驗結(jié)果顯示,LiteFlow可以實現(xiàn)更高的有效吞吐量,分別超出44.4%和26.6%,此外,吞吐量的標準差也更小,說明LiteFlow緩解了cross-space通信。為了測試在線自適應(yīng)能力,作者禁用LiteFlow的神經(jīng)網(wǎng)絡(luò)自適應(yīng)功能,實驗結(jié)果表明goodput顯著下降。 ? 在開銷方面,使用LiteFlow部署的性能和kernel-space的相近,超出user-space的性能,表明緩解cross-space的開銷是重要的。為了理解批數(shù)據(jù)不同傳輸間隔的影響,作者也進行相關(guān)實驗,結(jié)果表明所花費的時間不超過14.1%。 ? 此外,LiteFlow在高吞吐量時性能下降不超過5%。 ? 在flow scheduling場景中,作者對比了FFNN在user-space和LiteFlow的FFNN,預(yù)測延遲和flow completion time的實驗結(jié)果表明,LiteFlow的延遲更低,在flow completion time上表現(xiàn)更優(yōu)。 ? 在load balancing上,作者使用的神經(jīng)網(wǎng)絡(luò)是MLP,對比的方法是user-space方式和禁止更新的LiteFlow,結(jié)果表明LiteFlow在短流和長流上都超出對比方法。 ?
總結(jié)
LiteFlow通過將kernel-space、user-spcae與inference、training分別對齊,實現(xiàn)了自適應(yīng)神經(jīng)網(wǎng)絡(luò)的高性能推理、基于反饋更新。實驗結(jié)果證明了方法有效。 ?
個人觀點
神經(jīng)網(wǎng)絡(luò)的推理引擎已經(jīng)有很多,比如mnn等。然而,考慮到在線學(xué)習(xí)維度,當(dāng)前的推理引擎和訓(xùn)練引擎都不能很好滿足。這篇論文分析了神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理的特點、user-sapce和kernel-sapce的特點,然后設(shè)計LiteFlow將之對齊,彌補了之前的研究空白。 ?
Multi-Resource Interleaving for Deep Learning Training
Yihao Zhao, Yuanqiang Liu (Peking University), Yanghua Peng, Yibo Zhu (ByteDance Inc.), Xuanzhe Liu, Xin Jin (Peking University)
背景
訓(xùn)練深度學(xué)習(xí)模型正在成為計算集群的重要負載之一。該訓(xùn)練過程需要多種資源,包括CPU,GPU,存儲IO,網(wǎng)絡(luò)IO。在典型的多任務(wù)場景下,如何為不同作業(yè)分配合適的資源是一個經(jīng)典調(diào)度問題。然而,現(xiàn)有的深度學(xué)習(xí)調(diào)度器聚焦在GPU分配上,忽視了其他類型資源的調(diào)度。 ?
設(shè)計
為了實現(xiàn)多種資源的高效調(diào)度,作者提出了深度學(xué)習(xí)訓(xùn)練作業(yè)的key observations:訓(xùn)練深度學(xué)習(xí)模型表現(xiàn)出明顯的階段性,這樣的階段迭代進行。這個現(xiàn)象為時間上細粒度的多資源交替使用創(chuàng)造了條件。比如,深度學(xué)習(xí)訓(xùn)練的每個階段包括數(shù)據(jù)加載、預(yù)處理、前向和反向傳播、梯度同步操作。每個子階段都高度使用一種資源,這使不同作業(yè)的不同階段在資源集合上交替執(zhí)行成為可能。 ? 作者提出Muri。Muri的核心思想是調(diào)度多個作業(yè)對資源的交替使用來最大化資源利用率或作業(yè)完成時間。Muri把交替作業(yè)調(diào)度問題建模為k維最大帶權(quán)匹配問題,采用Blossom算法為單個GPU作業(yè)在兩種資源類型之間找到最佳組合計劃,并且使用多輪方法來處理超過兩種資源的情況。 ? 在架構(gòu)上,Muri包括3個組件:resource profiler,job scheduler、worker monitor。 ? resource profiler負責(zé)測量每個job對每種資源的利用情況,并估計不同作業(yè)交替時的效率;job scheduler維護一個job queue,當(dāng)job到達或job完成時,基于不同job group的交替效率和resource profiler的信息,job scheduler使用多輪job 聚類算法來決定哪些job組成群體來共享資源,從而實現(xiàn)資源利用最大化;worker monitor負責(zé)收集每臺機器的資源信息并跟蹤每個job的訓(xùn)練進度。最后,基于job scheduler生成的策略,每臺機器上會配備Muri executor,它負責(zé)將策略具體執(zhí)行。
評估
作者建立了Muri原型,并集成到PyTorch中。實驗評估選擇在一個8臺機器,每臺機器配備8個GPU、2個Xeon Platinum、256GB內(nèi)存、1個Mellanox CX-5單口網(wǎng)卡的集群上進行。作者使用了Microsoft的trace。在作業(yè)時間已知時,選擇SRSF和2D-LAS作為對比方法;在作業(yè)時間未知時,選擇Tiresias,AntMan和Themis作為對比方法。實驗結(jié)果表明,和現(xiàn)有的深度學(xué)習(xí)調(diào)度器相比,Muri在JCT方面提升3倍,在makespan上提升1.6倍。 ?
總結(jié)
作者觀察到深度學(xué)習(xí)作業(yè)存在階段迭代特征,聯(lián)系到這些作業(yè)的訓(xùn)練會使用多種類型資源,因此提出使用多資源交替來提升集群和作業(yè)效率。作者首先把調(diào)度問題建模為k維最大帶權(quán)匹配問題,然后使用Blossom算法求解最佳組合計劃。實驗效果驗證了該方法可以提升資源效率和作業(yè)完成時間。 ?
個人觀點
盡管作者在文中做了大量努力來區(qū)分Muri與pipeline,但本人覺得Muri可以看作是pipeline擴到到multi-job時的調(diào)度問題,因此研究問題的價值有限。會議上,有人問到的2個問題:一是關(guān)于multi-job的交替執(zhí)行安全性問題,二是關(guān)于profiler準確性問題。和提問者一樣,個人對這2點也持保留意見,作者在會議上的答復(fù)并不令人信服。 ?
DeepQueueNet: Towards Scalable and Generalized Network Performance Estimation with Packet-level Visibility
Qing-Qing Yang, Xi Peng (Huawei Theory Lab), Li Chen (Zhongguancun Laboratory), Libin Liu (Shandong Computer Science Center), Jingze Zhang, Hong Xu (Chinese University of Hong Kong), Baochun Li (University of Toronto), Gong Zhang (Huawei Theory Lab)
這篇工作來自華為理論實驗室,中關(guān)村實驗室,香港中文大學(xué),山東省計算機科學(xué)中心和多倫多大學(xué)的多位研究者。通過將基于可擴展DNN的連續(xù)仿真與離散事件仿真相結(jié)合,提出了一種可擴展的、可推廣的、具有包級可見性的網(wǎng)絡(luò)性能估計器DeepQueueNet。 ?
背景
網(wǎng)絡(luò)模擬器是網(wǎng)絡(luò)操作人員理解實際應(yīng)用任務(wù)網(wǎng)絡(luò)的重要工具,可以幫助完成容量規(guī)劃、拓撲設(shè)計和參數(shù)調(diào)優(yōu)等任務(wù)。目前,主流的模擬器都是基于離散事件模擬的,它們的性能無法適應(yīng)現(xiàn)代網(wǎng)絡(luò)的規(guī)模。同時,隨著基于深度學(xué)習(xí)的技術(shù)被引入來解決可擴展性問題,本文工作者通過實驗表明它們的模擬結(jié)果的可見性很差,并且不能推廣到不同的場景。因此,我們需要一個具有更好的通用性,更高的可擴展性,并且在數(shù)據(jù)包級別具有可見性的網(wǎng)絡(luò)模擬器。 ?
設(shè)計
本文結(jié)合了離散事件模擬 (DES) 和連續(xù)模擬,提出了一個高層次的設(shè)計方法:首先建立一個理論基礎(chǔ)來盡可能多地表達我們對網(wǎng)絡(luò)的先驗知識,然后識別數(shù)學(xué)上難以處理或計算量大的部分,最后將這些部分替換為可以使用真實數(shù)據(jù)跟蹤訓(xùn)練的 DNN。按照這一思路,本文縮小 DNN 在端到端性能評估器 (EPE) 中的應(yīng)用范圍——從網(wǎng)絡(luò)/集群規(guī)模到設(shè)備規(guī)模,僅使用 DNN 來對設(shè)備本地交通管理 (TM) 機制進行建模。本文使用兩個子模型組成設(shè)備模型:數(shù)據(jù)包級轉(zhuǎn)發(fā)模型(PFM)和數(shù)據(jù)包級 TM 模型(PTM)。PFM 指定轉(zhuǎn)發(fā)行為,可以使用給定路由表的張量乘法來明確描述。PTM 預(yù)測每個數(shù)據(jù)包經(jīng)歷多少延遲。 ? 如圖所示為DeepQueueNet的架構(gòu),由五個核心組件組成:(1)設(shè)備模型實用程序 (DUtil) 生成經(jīng)過訓(xùn)練的設(shè)備模型;(2)設(shè)備模型庫 (DLib) 存儲和索引經(jīng)過訓(xùn)練的設(shè)備模型,包括交換機、路由器和鏈路;(3)流量生成實用程序 (TGUtil) 根據(jù)用戶規(guī)范創(chuàng)建流量生成器 (TGen);(4)模擬設(shè)置模塊 (SInit) 解析用戶輸入并設(shè)置模擬;(5)模擬執(zhí)行模塊 (SRun) 運行模擬。與現(xiàn)有 DES 實現(xiàn)的工作流程相同類似,DeepQueueNet 通過以下步驟完成任務(wù):準備模擬設(shè)置(拓撲、設(shè)備配置和流量生成器)、運行模擬、收集數(shù)據(jù)包跟蹤以及通過將任意度量應(yīng)用于結(jié)果進行分析。
評估
1)準確性:與最先進的基于 DNN 的 EPE相比,DeepQueueNet 在所有場景中的平均和第 99 個百分位往返時間 (RTT) 均實現(xiàn)了卓越的準確性。 ? 2)泛化性:通過大量實驗表明,DeepQueueNet 關(guān)于歸一化 wasserstein distance的估計精度在拓撲、TM配置和流量生成模型的變化中仍然很高,無需重新訓(xùn)練模型。 ? 3)可擴展性:展示了DeepQueueNet可以使用多個GPU 并行加速。本文在4-GPU集群上部署DeepQueueNet,它展示了隨著 GPU 數(shù)量的近線性加速。 ?
個人觀點
這篇論文的工作量十分扎實,提出的DeepQueueNet系統(tǒng)框架的建模也較為復(fù)雜。創(chuàng)新地將主流的網(wǎng)絡(luò)模擬器從離散事件拓展到基于DNN的連續(xù)模擬與離散事件模擬相結(jié)合,基于先驗知識縮小DNN的應(yīng)用范圍。這些方法較為新穎,但是由于個人水平有限,對于整個系統(tǒng)的設(shè)計細節(jié)還未有更深入的理解,期待看到這個工作在更多評估實驗和實際應(yīng)用中的性能測試。 ?
Practical GAN-based Synthetic IP Header Trace Generation using NetShar
Yucheng Yin, Zinan Lin, Minhao Jin, Giulia Fanti, Vyas Sekar (Carnegie Mellon University)
本文來自卡內(nèi)基·梅隆大學(xué)的研究者,它探索了使用生成對抗網(wǎng)絡(luò) (GAN) 自動學(xué)習(xí)生成模型以生成用于網(wǎng)絡(luò)任務(wù)(例如遙測、異常檢測、配置)的數(shù)據(jù)包和流級別的標頭跟蹤(Packet- and flow-level header traces)的可行性,并開發(fā)出一個端到端框架NetShare ?
背景
數(shù)據(jù)包和流級別的標頭跟蹤對于許多網(wǎng)絡(luò)管理工作流至關(guān)重要。它們用于指導(dǎo)網(wǎng)絡(luò)監(jiān)控算法的設(shè)計和開發(fā),開發(fā)新型異常檢測和指紋識別以及用于基準測試去檢驗新的硬件和軟件功能。由于隱私性等問題,我們無法直接訪問此類痕跡。往往通過合成痕跡(synthetic traces)來實現(xiàn)。目前,存在通過模擬驅(qū)動方法(simulation-driven)、模型驅(qū)動方法(model-driven)和機器學(xué)習(xí)模型(machine learning models)的方法生成合成痕跡的工作,但這些方法都各自存在問題:比如說基于模擬和模型驅(qū)動的方法需要大量的領(lǐng)域知識和人力來確定關(guān)鍵的工作負載特性和配置生成參數(shù),同時不能很好地跨應(yīng)用程序進行泛化。基于機器學(xué)習(xí)的方法容易泛化,但無法捕獲特定領(lǐng)域的屬性。 ? 因此在這項工作中,研究者探索了使用生成式對抗網(wǎng)絡(luò)生成基于ML的合成包頭和流頭跟蹤的可行性,并設(shè)計出NetShare用來產(chǎn)生合成痕跡從而解決上述問題。 ?
設(shè)計
1)本文將標頭跟蹤生成(header trace generation)重新表述為一個時間序列生成問題,即生成整個跟蹤的流量記錄,而不是每個epoch的表格方法。 ?
2)本文使用領(lǐng)域知識和機器學(xué)習(xí)的細致組合來告知標頭字段的表示,以平衡保真度-隱私-可擴展性的權(quán)衡。 ? 本文不是在原始數(shù)據(jù)表示上訓(xùn)練GAN,而是使用領(lǐng)域知識將某些領(lǐng)域轉(zhuǎn)換為更易于 GAN 處理的格式。對于具有數(shù)字語義的字段,例如每個流的數(shù)據(jù)包/字節(jié)數(shù),我們使用對數(shù)轉(zhuǎn)換。對于 IP 地址/端口號/協(xié)議等分類字段,使用 IP 地址的按位編碼,使用 IP2Vec 對端口號和協(xié)議進行編碼。表格顯示了針對 IP/端口的不同嵌入選擇在保真度、可擴展性和隱私性方面的定性分析。
3)本文可以通過微調(diào)和并行訓(xùn)練來提高可擴展性和保真度的權(quán)衡。 ? 首先,本文工作者從 ML文獻中借用微調(diào)的想法,即:使用預(yù)訓(xùn)練模型作為“熱啟動”來為未來模型進行種子訓(xùn)練。具體來說,使用第一個塊作為“種子”塊來進行熱啟動,隨后的塊使用從第一個塊訓(xùn)練的模型進行微調(diào),這允許跨塊進行并行訓(xùn)練。同時本文們將“flowtags”附加到每個flowheader以捕獲塊間的相關(guān)性,用0-1標志注釋每個流標頭,表示它是否從“this”塊開始,還在標志之后附加一個0-1向量,其長度等于塊的總數(shù),每個位指示流標頭是否出現(xiàn)在該特定塊中。
? 4)本文可以通過謹慎使用公共數(shù)據(jù)集來改善隱私-保真度的權(quán)衡。在 NetShare 中,研究者利用以下觀察結(jié)果:通過在相關(guān)公共數(shù)據(jù)集上預(yù)訓(xùn)練 NetShare,可以減少達到固定保真度水平所需的 DP-SGD 輪數(shù);然后,再從公共數(shù)據(jù)集中獲取學(xué)習(xí)參數(shù),并使用 DP-SGD 3 這些在私有數(shù)據(jù)集上進行微調(diào)。這樣做可以減少了所需的 DP-SGD 迭代次數(shù)。
評估
我們在六個不同的數(shù)據(jù)包頭跟蹤上評估 NetShare,結(jié)果表明 : ? 1) 在所有的分布指標和跟蹤中,NetShare比使用不同生成式建模技術(shù)的基線方法的準確率高出46%。 2) NetShare滿足了用戶對下游任務(wù)的要求,保持了算法的準確性和有序性。 3) NetShare實現(xiàn)了比基線更好的可擴展性-保真度權(quán)衡。 4) 與基線方法相比,NetShare可以產(chǎn)生更高質(zhì)量的差異化的私有痕跡。 ?
個人觀點
這也是一篇應(yīng)用深度學(xué)習(xí)領(lǐng)域技術(shù)解決網(wǎng)絡(luò)問題的工作,創(chuàng)新點在于提出使用GAN來生成數(shù)據(jù)包和流級別的標頭跟蹤,是一個值得深入研究的方向。在本文中,針對生成的標頭跟蹤在實際網(wǎng)絡(luò)任務(wù)中的實驗結(jié)果不是很多,并且對于提出的端到端框架NetShare的可拓展性缺乏說明。 ? ?
評論