作者簡介:何金池是 IBM 科技事業部負責客戶工程的架構師,著有《Kubeflow:云計算和機器學習的橋梁》和《大數據處理之道》等書,是 Kubeflow、Tekton 多個開源社區的 Maintainer,親自參與了 IBM Spectrum LSF、IBM Cloud Pak for Data 等產品的研發,是分布式計算、大數據處理和云原生等相關技術和產品的專家。
引言
當前,我們正處在一個“數據智能”的時代,數據呈指數級增長,數字化、智能化轉型已是企業創新和高質量發展的基石。在數據為王的時代,如何讓數據產生價值,讓數據說話,讓數據輔助決策呢?數據變寶任重而道遠,只有借助于高性能計算 (HPC) 和人工智能 (AI),數據才能淋漓盡致的綻放其價值。而在分布式的 HPC 集群的工作負載運行中,調度是 “大腦中樞”,無調度不成超算。
IBM Spectrum LSF (Load Sharing Facility,下文稱 LSF) 給分布式高性能計算系統注入靈魂,強有力地把分布在不同地方的算力組織起來,猶如萬劍歸一,凝心聚力,以實時的算力監控和優越的調度性能,在最短的時間內完成工作負載的調度和執行。
LSF 橫空出世并一往直前
站在今天看過去,分布式高性能計算一直是 IT 行業的熱門話題。就是算力強悍的今天,大型機 (比如 IBM Z 系列) 已經承載了一些核心的業務,但一些其他的應用和作業,無福享受到強悍的大型機的伺候,更何況把目光往前推 20多年,單個主機很難滿足應用作業的需求,那怎么辦呢?最直接的方式就是把一群機器組織起來,并行干活。如果有一把絕世寶劍,來統一號令集群協同工作,只要調度得當,完全有可能實現“機心齊,泰山移”。
在這種背景下,LSF 于 1992年橫空出世。到今天,LSF 已經走過了 29個年頭。在這 29年的發展中,新的技術層出不窮,用戶的需求也在不斷變化,經過 LSF 研發團隊的精益求精和不懈努力,LSF 已經發展成為 HPC 分布式集群的“瑞士軍刀”,擁有高性能的大規模分布式集群管理和調度能力。近日在中國,LSF 被 IBM 中國團隊創業成長計劃“12星座”冠以“白羊座”黑科技產品,算是名至所歸。29歲,LSF 正當壯年!
那么 LSF 到底是什么呢?LSF 是一個強大的分布式工作負載管理平臺,基于智能的、策略驅動的調度特性,充分利用計算基礎設施資源,實現最佳的應用程序性能。一言以蔽之,LSF 在正確的時間內,將正確的資源分配給正確的用戶作業。LSF 旨在降低企業運營成本的同時,提高生產效率。
經過二十多年的發展,相對于最初的 LSF 1.0 版本,最新的 LSF 10.1,不管是功能上,還是性能上,都得到了質的飛躍。LSF 從最初簡單的調度器,發展到今天豐富多彩的調度“航母”,不僅后向兼容,而且不斷創新,支持層出不群的新技術和新平臺,比如支持 GPU 和 Kubernetes 等,也支持機器學習的平臺和作業,AI 賦能,發展出了很多周邊產品,一往無前的創新和完善的功能,讓 29歲的 LSF 成為了妥妥的“黑科技”。
在分布式管理和調度方面,LSF 的功能可謂應有盡有,僅僅調度策略,就有數十種,比如先來先服務 (FCFS)、搶占 (Preemption)、資源需求 (Resource Requirement)、公開共享 (Fair share Scheduling)、服務水平的資源保障 (Guarantee SLA)、資源預訂 (Resource Reservations)、回填調度 (Backfill Scheduling)、親和調度 (Affinity Scheduling) 等。
LSF 不光支持 CPU 等常見算力,而且也支持 GPU 調度。同時支持多集群調度,塊調度、作業動態調度、許可證(License)調度,基于事件的調度、計算單元和作業包裝、作業開始時間預測等功能。
LSF 也支持容器化的應用的調度,LSF 可作為 Kubernetes 集群的熱插拔調度器,根據策略將 Pod 綁定到特定節點,由 Kubelet 在目標節點上執行和管理 Pod 生命周期,HPC 作業可以在不影響 Kubernetes Pods 的情況下提交和執行。
同時,LSF 支持混合云策略,LSF 有一個非常受歡迎的功能:Resource Connector。如果在作業激增的情況下,等待作業較多,本地資源不足的情況下,Resource Connector 可以迅速的向公有云或者私有云申請資源,然后基于智能化的策略,把作業調度到云端資源上執行。如果業務量下降了,根據預設的門限,即刻釋放云端資源。這種可伸縮性,有效的提高計算效率的同時,為客戶節省了費用,真是魚和熊掌二者兼得也!
在 HPC 集群中,性能非常重要,在 LSF 10 版本中,實現了無與倫比的大規模高性能,并且包含了很多創新性功能,提高了易用性和可訪問性。LSF 10 支持數以千計的并發用戶數,同時管理數以萬計的節點資源,同時調度數以百萬計的作業。通過 IO 模式優化、將數據移到更靠近作業的地方、處理器間通信的優化等方法,來提高作業的吞吐量性能。在 LSF 10 的 Benchmark 測試中,LSF 可以在每小時調度分發 9百萬的作業(超短作業)。在另外一組測試環境中,在 100,000個 Slots 的 LSF 集群,縱向對比了 LSF 的性能提升,從圖中我們可以看是 LSF 10 的性能得到了大幅提升。
LSF 的小伙伴們
俗話說,一個好漢三個幫。LSF 的核心的功能是根據集群的資源情況對作業進行調度和分發,到今天,LSF 已經發展出了一個大的家族,LSF 更像是一個家長,以“帶頭大哥”的身份帶領其家族的小伙伴們,為客戶降低運營成本,提高生產率。具體看,LSF 家族的核心價值有:
通過有效的調度和共享策略提高資產利用率
通過易用性、易訪問性和簡化來提高用戶的工作效率
通過洞察如何使用 HPC 環境來提高操作效率
下面有請 LSF 家族中幾位主要的小伙伴們亮相:
01
LSF AC (Application Center)
LSF AC 是 LSF 的 Web Portal。作為是 LSF 家族中“大師兄”,為集群用戶和管理員提供了靈活、易用的界面,使用戶能夠直觀的和 LSF 集群進行交互。有了 LSF AC,媽媽再也不用擔心程序員小明記不住復雜的 LSF 后臺命令了!用戶可以通過 Web 瀏覽器輕松愉快的完成作業的基本操作,如停止、暫停、恢復或重新排隊作業,也可以在 Web 界面監控作業的運行情況。同時,LSF AC 有很多應用程序的模板和腳本指南,這些模板和指南,很好的簡化了作業提交,很大程度上降低用戶的操作錯誤概率。
LSF AC 不光有電腦客戶端,也支持手機客戶端,用戶隨時隨地的掌握作業的運行狀態和資源情況。
02
LSF PM (Process Manager)
在一些 LSF 的應用場景中,很多作業之間有依賴關系,特別是近幾年來的容器化,微服務化,并行化作業愈發盛行,面對錯綜復雜的作業依賴關系,如果沒有一套流水線的管理工具,那對于這些用戶來說,簡直就是災難。LSF PM 就是肩負著這個使命而誕生的,使用這個流水線工具,LSF 用戶可以在提交作業前,圖形化的勾勒出作業的先后順序和驅動事件,然后再提交執行。使用直觀的圖形界面記錄和查看工作流步驟和執行情況,允許用戶自動執行容易出現人為錯誤的、或者冗長重復任務。
同時,用戶可以通過 LSF PM 設置一些驅動事件,比如文件事件(比如文件產生或者消失的時候,觸發某些作業),時間事件(可以在特定的時間或者周期性的觸發作業的運行)等。LSF PM 擁有 CS 模式的客戶端,同時也已經集成到了 LSF AC 的 Web 界面中了。
03
LSF RTM (Report, Track, Monitor)
LSF RTM 是 LSF 集群管理員的福音,LSF 集群管理員可以通過 LSF RTM 的 Web 儀表盤來全面的、實時的監視、報告和管理集群和工作負載,極大程度上提高了集群資源利用率和用戶生產率,以及控制或降低了用戶的成本。同時LSF RTM 支持監控應用程序許可證服務器和集群中的用戶和用戶組。通過 LSF RTM 直觀的 Dashboard,可以輕松有效的監控多個 LSF 集群,完成管理員日常的集群維護工作。
04
LSF Explorer
LSF Explorer 是針對 LSF 環境的輕量級報告解決方案,支持各種業務和用戶快速創建和查看報告和 Dashboard。如果沒有 LSF Explorer,想要滿足不同用戶的需求,這些報告需要從多個產品中的不同報告中獲得,而且這些數據可能需要通過電子表格的方式,手動創建報告,耗時且費力。LSF Explorer 使用 Elasticsearch 數據庫來存儲、索引和查詢數據,LSF 的用戶、IT 管理人員或者項目負責人,都可以輕松的、定制化的獲取,定期查看計算環境的執行報告,和所在項目或業務線正在消耗什么樣的資源。
05
LSF License Scheduler
商業化的應用程序許可證 (License) 往往是一種昂貴的資源,用戶可以使用 LSF License Scheduler,根據已建立的分發策略分配 License,從而管理和優化計算節點和項目之間的應用程序 License 使用。License 可以在集群之間共享,也可以在集群內的項目之間共享。LSF License Scheduler 可以簡化 License 共享,幫助提高生產力和增加對 License 資源的整體訪問,支持 FlexNet 和 Reprise 許可證管理器 (RLM) 等。
06
LSF Data Manager
作業的執行,往往需要一些數據作為輸入,或者會輸入大量的數據,如果沒有合理的數據管理,勢必對作業的執行速度造成影響。使用 LSF Data Manager,用戶可以有效地管理在 HPC 環境中的大量數據,借助已經具備的底層文件傳輸基礎設施(如 IBM Aspera),自動化 LSF 集群內和集群間的數據傳輸,以及本地與云之間的數據傳輸。LSF Data Manager 還提供了一個智能托管緩存,允許復用數據,并避免重復的傳輸,從而消除浪費的磁盤空間和數據傳輸的等待時間。簡單的說,LSF Data Manager 根據作業調度情況,決定移動哪些數據,和什么時候移動,然后可以借助文件傳輸技術(如 IBM Aspera)實現超高速傳輸。
LSF 應用場景和用戶分析
LSF 主要的應用場景為分布式計算領域和一些計算密集型的場景。LSF 已經成功的應用到了眾多行業,包括電子自動化,航空航天等制造業、教育培訓、能源、金融、生命科學,大型超算中心、氣象分析、環境監測、仿真系統、數據挖掘、人工智能、動漫渲染等。簡而言之,如果后臺需要大量的計算,LSF 定能助一臂之力。
目前,全球前 12大汽車領域的公司,有 10家在使用 LSF。前 25家電子自動化企業,有 23家在使用 LSF 計算機輔助作業調度。全球前 3大生命科學中心均在使用 LSF 做后臺的集群調度。一些成功的超算中心,也在使用 LSF 做調度和監控。很多高等學府和研究院,使用 LSF 做超前的研究工作。我們每天看的精準的天氣預報,也有 LSF 默默無聞的貢獻。LSF 的成功案例數不勝數,可以說,雖然我們摸不到,看不到,但 LSF 已然和我們的生活息息相關。
結語
因篇幅有限,不能對浩瀚的 LSF 做詳盡闡述,LSF 依舊在持續的發展中。二十多年來,LSF 工作負載/資源管理解決方案贏得了多個行業客戶的青睞,借助于 LSF,客戶的作業運行效率得到了極大的提高,降低了成本。今日的成功只是明日的起跑線,風華正茂的 LSF 和它的小伙伴們,在以后的日子里,不改初心,會不斷完善自己,持續為客戶創造更大的價值。
END
往期回顧
→ 寶藏 IBM 的黑科技之“十二星座”干貨粗略說說
→ IBM 專家觀點: Data Fabric 將會是下一個 IT 的風口嗎?
點擊“閱讀原文”,了解更多
原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”
文章出處:【微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
IBM
+關注
關注
3文章
1768瀏覽量
74870 -
cpu
+關注
關注
68文章
10908瀏覽量
213085 -
大數據
+關注
關注
64文章
8909瀏覽量
137822
原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”
文章出處:【微信號:IBMGCG,微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論