在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文了解IBM Spectrum LSF分布式工作負載管理平臺

IBM中國 ? 來源:IBM中國 ? 作者:IBM中國 ? 2021-12-22 11:03 ? 次閱讀

作者簡介:何金池是 IBM 科技事業部負責客戶工程的架構師,著有《Kubeflow:云計算機器學習的橋梁》和《大數據處理之道》等書,是 Kubeflow、Tekton 多個開源社區的 Maintainer,親自參與了 IBM Spectrum LSF、IBM Cloud Pak for Data 等產品的研發,是分布式計算、大數據處理和云原生等相關技術和產品的專家。

引言

當前,我們正處在一個“數據智能”的時代,數據呈指數級增長,數字化、智能化轉型已是企業創新和高質量發展的基石。在數據為王的時代,如何讓數據產生價值,讓數據說話,讓數據輔助決策呢?數據變寶任重而道遠,只有借助于高性能計算 (HPC) 和人工智能 (AI),數據才能淋漓盡致的綻放其價值。而在分布式的 HPC 集群的工作負載運行中,調度是 “大腦中樞”,無調度不成超算。

IBM Spectrum LSF (Load Sharing Facility,下文稱 LSF) 給分布式高性能計算系統注入靈魂,強有力地把分布在不同地方的算力組織起來,猶如萬劍歸一,凝心聚力,以實時的算力監控和優越的調度性能,在最短的時間內完成工作負載的調度和執行。

LSF 橫空出世并一往直前

站在今天看過去,分布式高性能計算一直是 IT 行業的熱門話題。就是算力強悍的今天,大型機 (比如 IBM Z 系列) 已經承載了一些核心的業務,但一些其他的應用和作業,無福享受到強悍的大型機的伺候,更何況把目光往前推 20多年,單個主機很難滿足應用作業的需求,那怎么辦呢?最直接的方式就是把一群機器組織起來,并行干活。如果有一把絕世寶劍,來統一號令集群協同工作,只要調度得當,完全有可能實現“機心齊,泰山移”。

在這種背景下,LSF 于 1992年橫空出世。到今天,LSF 已經走過了 29個年頭。在這 29年的發展中,新的技術層出不窮,用戶的需求也在不斷變化,經過 LSF 研發團隊的精益求精和不懈努力,LSF 已經發展成為 HPC 分布式集群的“瑞士軍刀”,擁有高性能的大規模分布式集群管理和調度能力。近日在中國,LSF 被 IBM 中國團隊創業成長計劃“12星座”冠以“白羊座”黑科技產品,算是名至所歸。29歲,LSF 正當壯年!

那么 LSF 到底是什么呢?LSF 是一個強大的分布式工作負載管理平臺,基于智能的、策略驅動的調度特性,充分利用計算基礎設施資源,實現最佳的應用程序性能。一言以蔽之,LSF 在正確的時間內,將正確的資源分配給正確的用戶作業。LSF 旨在降低企業運營成本的同時,提高生產效率。

經過二十多年的發展,相對于最初的 LSF 1.0 版本,最新的 LSF 10.1,不管是功能上,還是性能上,都得到了質的飛躍。LSF 從最初簡單的調度器,發展到今天豐富多彩的調度“航母”,不僅后向兼容,而且不斷創新,支持層出不群的新技術和新平臺,比如支持 GPU 和 Kubernetes 等,也支持機器學習的平臺和作業,AI 賦能,發展出了很多周邊產品,一往無前的創新和完善的功能,讓 29歲的 LSF 成為了妥妥的“黑科技”。

在分布式管理和調度方面,LSF 的功能可謂應有盡有,僅僅調度策略,就有數十種,比如先來先服務 (FCFS)、搶占 (Preemption)、資源需求 (Resource Requirement)、公開共享 (Fair share Scheduling)、服務水平的資源保障 (Guarantee SLA)、資源預訂 (Resource Reservations)、回填調度 (Backfill Scheduling)、親和調度 (Affinity Scheduling) 等。

LSF 不光支持 CPU 等常見算力,而且也支持 GPU 調度。同時支持多集群調度,塊調度、作業動態調度、許可證(License)調度,基于事件的調度、計算單元和作業包裝、作業開始時間預測等功能。

LSF 也支持容器化的應用的調度,LSF 可作為 Kubernetes 集群的熱插拔調度器,根據策略將 Pod 綁定到特定節點,由 Kubelet 在目標節點上執行和管理 Pod 生命周期,HPC 作業可以在不影響 Kubernetes Pods 的情況下提交和執行。

同時,LSF 支持混合云策略,LSF 有一個非常受歡迎的功能:Resource Connector。如果在作業激增的情況下,等待作業較多,本地資源不足的情況下,Resource Connector 可以迅速的向公有云或者私有云申請資源,然后基于智能化的策略,把作業調度到云端資源上執行。如果業務量下降了,根據預設的門限,即刻釋放云端資源。這種可伸縮性,有效的提高計算效率的同時,為客戶節省了費用,真是魚和熊掌二者兼得也!

在 HPC 集群中,性能非常重要,在 LSF 10 版本中,實現了無與倫比的大規模高性能,并且包含了很多創新性功能,提高了易用性和可訪問性。LSF 10 支持數以千計的并發用戶數,同時管理數以萬計的節點資源,同時調度數以百萬計的作業。通過 IO 模式優化、將數據移到更靠近作業的地方、處理器通信的優化等方法,來提高作業的吞吐量性能。在 LSF 10 的 Benchmark 測試中,LSF 可以在每小時調度分發 9百萬的作業(超短作業)。在另外一組測試環境中,在 100,000個 Slots 的 LSF 集群,縱向對比了 LSF 的性能提升,從圖中我們可以看是 LSF 10 的性能得到了大幅提升。

LSF 的小伙伴們

俗話說,一個好漢三個幫。LSF 的核心的功能是根據集群的資源情況對作業進行調度和分發,到今天,LSF 已經發展出了一個大的家族,LSF 更像是一個家長,以“帶頭大哥”的身份帶領其家族的小伙伴們,為客戶降低運營成本,提高生產率。具體看,LSF 家族的核心價值有:

通過有效的調度和共享策略提高資產利用率

通過易用性、易訪問性和簡化來提高用戶的工作效率

通過洞察如何使用 HPC 環境來提高操作效率

下面有請 LSF 家族中幾位主要的小伙伴們亮相:

01

LSF AC (Application Center)

LSF AC 是 LSF 的 Web Portal。作為是 LSF 家族中“大師兄”,為集群用戶和管理員提供了靈活、易用的界面,使用戶能夠直觀的和 LSF 集群進行交互。有了 LSF AC,媽媽再也不用擔心程序員小明記不住復雜的 LSF 后臺命令了!用戶可以通過 Web 瀏覽器輕松愉快的完成作業的基本操作,如停止、暫停、恢復或重新排隊作業,也可以在 Web 界面監控作業的運行情況。同時,LSF AC 有很多應用程序的模板和腳本指南,這些模板和指南,很好的簡化了作業提交,很大程度上降低用戶的操作錯誤概率。

LSF AC 不光有電腦客戶端,也支持手機客戶端,用戶隨時隨地的掌握作業的運行狀態和資源情況。

02

LSF PM (Process Manager)

在一些 LSF 的應用場景中,很多作業之間有依賴關系,特別是近幾年來的容器化,微服務化,并行化作業愈發盛行,面對錯綜復雜的作業依賴關系,如果沒有一套流水線的管理工具,那對于這些用戶來說,簡直就是災難。LSF PM 就是肩負著這個使命而誕生的,使用這個流水線工具,LSF 用戶可以在提交作業前,圖形化的勾勒出作業的先后順序和驅動事件,然后再提交執行。使用直觀的圖形界面記錄和查看工作流步驟和執行情況,允許用戶自動執行容易出現人為錯誤的、或者冗長重復任務。

同時,用戶可以通過 LSF PM 設置一些驅動事件,比如文件事件(比如文件產生或者消失的時候,觸發某些作業),時間事件(可以在特定的時間或者周期性的觸發作業的運行)等。LSF PM 擁有 CS 模式的客戶端,同時也已經集成到了 LSF AC 的 Web 界面中了。

03

LSF RTM (Report, Track, Monitor)

LSF RTM 是 LSF 集群管理員的福音,LSF 集群管理員可以通過 LSF RTM 的 Web 儀表盤來全面的、實時的監視、報告和管理集群和工作負載,極大程度上提高了集群資源利用率和用戶生產率,以及控制或降低了用戶的成本。同時LSF RTM 支持監控應用程序許可證服務器和集群中的用戶和用戶組。通過 LSF RTM 直觀的 Dashboard,可以輕松有效的監控多個 LSF 集群,完成管理員日常的集群維護工作。

04

LSF Explorer

LSF Explorer 是針對 LSF 環境的輕量級報告解決方案,支持各種業務和用戶快速創建和查看報告和 Dashboard。如果沒有 LSF Explorer,想要滿足不同用戶的需求,這些報告需要從多個產品中的不同報告中獲得,而且這些數據可能需要通過電子表格的方式,手動創建報告,耗時且費力。LSF Explorer 使用 Elasticsearch 數據庫來存儲、索引和查詢數據,LSF 的用戶、IT 管理人員或者項目負責人,都可以輕松的、定制化的獲取,定期查看計算環境的執行報告,和所在項目或業務線正在消耗什么樣的資源。

05

LSF License Scheduler

商業化的應用程序許可證 (License) 往往是一種昂貴的資源,用戶可以使用 LSF License Scheduler,根據已建立的分發策略分配 License,從而管理和優化計算節點和項目之間的應用程序 License 使用。License 可以在集群之間共享,也可以在集群內的項目之間共享。LSF License Scheduler 可以簡化 License 共享,幫助提高生產力和增加對 License 資源的整體訪問,支持 FlexNet 和 Reprise 許可證管理器 (RLM) 等。

06

LSF Data Manager

作業的執行,往往需要一些數據作為輸入,或者會輸入大量的數據,如果沒有合理的數據管理,勢必對作業的執行速度造成影響。使用 LSF Data Manager,用戶可以有效地管理在 HPC 環境中的大量數據,借助已經具備的底層文件傳輸基礎設施(如 IBM Aspera),自動化 LSF 集群內和集群間的數據傳輸,以及本地與云之間的數據傳輸。LSF Data Manager 還提供了一個智能托管緩存,允許復用數據,并避免重復的傳輸,從而消除浪費的磁盤空間和數據傳輸的等待時間。簡單的說,LSF Data Manager 根據作業調度情況,決定移動哪些數據,和什么時候移動,然后可以借助文件傳輸技術(如 IBM Aspera)實現超高速傳輸。

LSF 應用場景和用戶分析

LSF 主要的應用場景為分布式計算領域和一些計算密集型的場景。LSF 已經成功的應用到了眾多行業,包括電子自動化,航空航天等制造業、教育培訓、能源、金融、生命科學,大型超算中心、氣象分析、環境監測仿真系統、數據挖掘、人工智能、動漫渲染等。簡而言之,如果后臺需要大量的計算,LSF 定能助一臂之力。

目前,全球前 12大汽車領域的公司,有 10家在使用 LSF。前 25家電子自動化企業,有 23家在使用 LSF 計算機輔助作業調度。全球前 3大生命科學中心均在使用 LSF 做后臺的集群調度。一些成功的超算中心,也在使用 LSF 做調度和監控。很多高等學府和研究院,使用 LSF 做超前的研究工作。我們每天看的精準的天氣預報,也有 LSF 默默無聞的貢獻。LSF 的成功案例數不勝數,可以說,雖然我們摸不到,看不到,但 LSF 已然和我們的生活息息相關。

結語

因篇幅有限,不能對浩瀚的 LSF 做詳盡闡述,LSF 依舊在持續的發展中。二十多年來,LSF 工作負載/資源管理解決方案贏得了多個行業客戶的青睞,借助于 LSF,客戶的作業運行效率得到了極大的提高,降低了成本。今日的成功只是明日的起跑線,風華正茂的 LSF 和它的小伙伴們,在以后的日子里,不改初心,會不斷完善自己,持續為客戶創造更大的價值。

END

往期回顧

→ 寶藏 IBM 的黑科技之“十二星座”干貨粗略說說

→ IBM 專家觀點: Data Fabric 將會是下一個 IT 的風口嗎?

點擊“閱讀原文”,了解更多

原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”

文章出處:【微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • IBM
    IBM
    +關注

    關注

    3

    文章

    1809

    瀏覽量

    75485
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11040

    瀏覽量

    216042
  • 大數據
    +關注

    關注

    64

    文章

    8952

    瀏覽量

    139525

原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”

文章出處:【微信號:IBMGCG,微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    IBM Spectrum LSF如何助力半導體企業應對AI時代的高性能芯片需求

    上萬個作業,可能會瞬間擠爆計算資源。那如何把成千上萬個作業有序的調度到大規模的集群中呢?這時候,就得請出 HPC(高性能計算)調度界的“大宗師”—— IBM Spectrum LSF
    的頭像 發表于 05-27 15:18 ?310次閱讀

    多通道電源管理芯片在分布式能源系統中的優化策略

    摘要: 隨著分布式能源系統的廣泛應用,對電源管理芯片的性能要求日益提升。本文深入探討了多通道電源管理芯片在分布式能源系統中的優化策略,以國科安芯的ASP4644芯片為例,從電氣特性、
    的頭像 發表于 05-16 15:22 ?137次閱讀

    如何在基于Arm Neoverse平臺的CPU上構建分布式Kubernetes集群

    在本文中,我們將以 X(原 Twitter)為例,演示如何在基于 Arm Neoverse 平臺的 CPU 上構建分布式 Kubernetes 集群,以根據推實時監控情緒變化。如此
    的頭像 發表于 03-25 15:58 ?281次閱讀
    如何在基于Arm Neoverse<b class='flag-5'>平臺</b>的CPU上構建<b class='flag-5'>分布式</b>Kubernetes集群

    分布式云化數據庫有哪些類型

    分布式云化數據庫有哪些類型?分布式云化數據庫主要類型包括:關系型分布式數據庫、非關系型分布式數據庫、新SQL分布式數據庫、以列方式存儲數據、
    的頭像 發表于 01-15 09:43 ?405次閱讀

    大型工商業分布式光伏如何配置防逆流方案?

    國家能源局綜合司發布的《分布式光伏發電開發建設管理辦法(征求意見稿)》對分布式光伏發電項目的開發建設提供了更清晰的規范指導,該管理辦法中規定“大型工商業
    的頭像 發表于 12-19 18:04 ?837次閱讀
    大型工商業<b class='flag-5'>分布式</b>光伏如何配置防逆流方案?

    分布式光伏運維云平臺助力光伏電站運營

    分布式光伏運維云平臺能夠實現對光伏電站的實時監測、數據分析、故障診斷和運維管理等功能,提高發電效率、降低運維成本并延長電站使用壽命。隨著技術的不斷進步和應用場景的拓展,分布式光伏運維云
    的頭像 發表于 12-09 16:22 ?711次閱讀
    <b class='flag-5'>分布式</b>光伏運維云<b class='flag-5'>平臺</b>助力光伏電站運營

    增強分布式光伏電站管理,遠程管理 提高管理便捷性

    優勢:18721098782 ?w王盼盼 、實時監測,確保高效運行 分布式光伏監控系統能夠對光伏電站進行實時監測,包括太陽能電池板的輸出功率、電壓、電流等關鍵參數。通過這些數據的實時反饋,用戶可以隨時了解光伏系統的
    的頭像 發表于 11-26 14:06 ?387次閱讀

    分布式通信的原理和實現高效分布式通信背后的技術NVLink的演進

    大型模型的大小已經超出了單個 GPU 的范圍。所以就需要實現跨多個 GPU 的模型訓練,這種訓練方式就涉及到了分布式通信和 NVLink。 當談及分布式通信和 NVLink 時,我們進入了個引人入勝且不斷演進的技術領域,下面我
    的頭像 發表于 11-18 09:39 ?1153次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實現高效<b class='flag-5'>分布式</b>通信背后的技術NVLink的演進

    分布式光纖測溫是什么?應用領域是?

    分布式光纖測溫是種先進的溫度測量技術,它利用光纖的拉曼散射原理進行溫度監測。以下是對分布式光纖測溫的詳細介紹: 、基本原理 分布式光纖測
    的頭像 發表于 10-24 15:30 ?1106次閱讀
    <b class='flag-5'>分布式</b>光纖測溫是什么?應用領域是?

    分布式光纖聲波傳感技術的工作原理

    分布式光纖聲波傳感技術(Distributed Acoustic Sensing,DAS)是種利用光纖作為傳感元件,實現對沿光纖路徑上的環境參數進行連續分布式測量的技術。
    的頭像 發表于 10-18 14:50 ?2602次閱讀
    <b class='flag-5'>分布式</b>光纖聲波傳感技術的<b class='flag-5'>工作</b>原理

    講清什么是分布式云化數據庫!

    分布式云化數據庫是種先進的數據管理系統,它將傳統的數據庫技術與分布式計算、云計算和大數據處理技術相融合。這種數據庫架構旨在提供高可用性、高擴展性和高性能的數據存儲解決方案。
    的頭像 發表于 10-14 10:06 ?437次閱讀

    分布式工業物聯網平臺:引領智能制造的新篇章

    隨著全球化和信息化進程的加速,分布式工業物聯網平臺作為智能制造的重要基石,正逐步展現出其強大的潛力和廣泛的應用前景。這平臺通過整合不同地區的人力物力資源,實現產品生產的最低消耗,并借
    的頭像 發表于 09-27 17:09 ?463次閱讀

    遠程訪問物聯網平臺如何實現分布式設備高效管理

    個安全可靠且廣泛兼容的遠程訪問平臺,使得企業能夠隨時隨地訪問到管理系統并進行交互控制。 為了實現這些需求,數之能提供廣泛設備接入的遠程訪問物聯網平臺,能夠打通
    的頭像 發表于 08-29 10:33 ?393次閱讀

    基于分布式對象存儲WDS的信托非結構化數據整合平臺

    基于分布式對象存儲WDS的信托非結構化數據整合平臺
    的頭像 發表于 08-28 09:56 ?595次閱讀
    基于<b class='flag-5'>分布式</b>對象存儲WDS的信托非結構化數據整合<b class='flag-5'>平臺</b>

    EasyGo使用筆記丨分布式光伏集群并網控制硬件在環仿真應用

    : 與常規仿真方式進行對比,Easygo硬件在環仿真仿真秒所需時間與實際時間保持致。本次實驗達到了理論驗證的預期,驗證了EasyGo分布式光伏集群并網控制硬件在環仿真平臺的可行性與
    發表于 07-12 17:20
    主站蜘蛛池模板: a久久久久一级毛片护士免费 | 好大好硬好深好爽想要免费视频 | 人人舔 | 一道精品一区二区三区 | 国内自拍2021| 亚洲婷婷国产精品电影人久久 | 波多野结衣在线视频观看 | va国产| 日韩欧美在线中文字幕 | 深夜大尺度视频在线观看 | 色欲麻豆国产福利精品 | 操你啦在线视频 | 一级做受毛片免费大片 | 国产网红主播chinese | 欧美一级视频高清片 | 久久黄色一级片 | 32pao强力打造免费高速高清 | 中国美女乱淫免费看视频 | 一夜七次郎久久综合伊人 | 狠狠干在线观看 | 黄a视频| 特级一级全黄毛片免费 | 国产在线视频资源 | 深夜网站免费 | 真实一级一级一片免费视频 | 国产在线观看网址你懂得 | 国产精品成人四虎免费视频 | 91日本在线观看亚洲精品 | 亚洲人的天堂男人爽爽爽 | 日本亚洲在线 | 天天操天天干天天 | 久草福利在线播放 | 国产资源在线观看 | 色狠狠一区二区 | 日本69xxxxxxxx69 | 欧美一级看片a免费观看 | 国产亚洲第一伦理第一区 | 色多多入口 | 免费的很黄很色的床小视频 | 大片免费看 | 人人九九精 |