在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文了解IBM Spectrum LSF分布式工作負載管理平臺

IBM中國 ? 來源:IBM中國 ? 作者:IBM中國 ? 2021-12-22 11:03 ? 次閱讀

作者簡介:何金池是 IBM 科技事業部負責客戶工程的架構師,著有《Kubeflow:云計算機器學習的橋梁》和《大數據處理之道》等書,是 Kubeflow、Tekton 多個開源社區的 Maintainer,親自參與了 IBM Spectrum LSF、IBM Cloud Pak for Data 等產品的研發,是分布式計算、大數據處理和云原生等相關技術和產品的專家。

引言

當前,我們正處在一個“數據智能”的時代,數據呈指數級增長,數字化、智能化轉型已是企業創新和高質量發展的基石。在數據為王的時代,如何讓數據產生價值,讓數據說話,讓數據輔助決策呢?數據變寶任重而道遠,只有借助于高性能計算 (HPC) 和人工智能 (AI),數據才能淋漓盡致的綻放其價值。而在分布式的 HPC 集群的工作負載運行中,調度是 “大腦中樞”,無調度不成超算。

IBM Spectrum LSF (Load Sharing Facility,下文稱 LSF) 給分布式高性能計算系統注入靈魂,強有力地把分布在不同地方的算力組織起來,猶如萬劍歸一,凝心聚力,以實時的算力監控和優越的調度性能,在最短的時間內完成工作負載的調度和執行。

LSF 橫空出世并一往直前

站在今天看過去,分布式高性能計算一直是 IT 行業的熱門話題。就是算力強悍的今天,大型機 (比如 IBM Z 系列) 已經承載了一些核心的業務,但一些其他的應用和作業,無福享受到強悍的大型機的伺候,更何況把目光往前推 20多年,單個主機很難滿足應用作業的需求,那怎么辦呢?最直接的方式就是把一群機器組織起來,并行干活。如果有一把絕世寶劍,來統一號令集群協同工作,只要調度得當,完全有可能實現“機心齊,泰山移”。

在這種背景下,LSF 于 1992年橫空出世。到今天,LSF 已經走過了 29個年頭。在這 29年的發展中,新的技術層出不窮,用戶的需求也在不斷變化,經過 LSF 研發團隊的精益求精和不懈努力,LSF 已經發展成為 HPC 分布式集群的“瑞士軍刀”,擁有高性能的大規模分布式集群管理和調度能力。近日在中國,LSF 被 IBM 中國團隊創業成長計劃“12星座”冠以“白羊座”黑科技產品,算是名至所歸。29歲,LSF 正當壯年!

那么 LSF 到底是什么呢?LSF 是一個強大的分布式工作負載管理平臺,基于智能的、策略驅動的調度特性,充分利用計算基礎設施資源,實現最佳的應用程序性能。一言以蔽之,LSF 在正確的時間內,將正確的資源分配給正確的用戶作業。LSF 旨在降低企業運營成本的同時,提高生產效率。

經過二十多年的發展,相對于最初的 LSF 1.0 版本,最新的 LSF 10.1,不管是功能上,還是性能上,都得到了質的飛躍。LSF 從最初簡單的調度器,發展到今天豐富多彩的調度“航母”,不僅后向兼容,而且不斷創新,支持層出不群的新技術和新平臺,比如支持 GPU 和 Kubernetes 等,也支持機器學習的平臺和作業,AI 賦能,發展出了很多周邊產品,一往無前的創新和完善的功能,讓 29歲的 LSF 成為了妥妥的“黑科技”。

在分布式管理和調度方面,LSF 的功能可謂應有盡有,僅僅調度策略,就有數十種,比如先來先服務 (FCFS)、搶占 (Preemption)、資源需求 (Resource Requirement)、公開共享 (Fair share Scheduling)、服務水平的資源保障 (Guarantee SLA)、資源預訂 (Resource Reservations)、回填調度 (Backfill Scheduling)、親和調度 (Affinity Scheduling) 等。

LSF 不光支持 CPU 等常見算力,而且也支持 GPU 調度。同時支持多集群調度,塊調度、作業動態調度、許可證(License)調度,基于事件的調度、計算單元和作業包裝、作業開始時間預測等功能。

LSF 也支持容器化的應用的調度,LSF 可作為 Kubernetes 集群的熱插拔調度器,根據策略將 Pod 綁定到特定節點,由 Kubelet 在目標節點上執行和管理 Pod 生命周期,HPC 作業可以在不影響 Kubernetes Pods 的情況下提交和執行。

同時,LSF 支持混合云策略,LSF 有一個非常受歡迎的功能:Resource Connector。如果在作業激增的情況下,等待作業較多,本地資源不足的情況下,Resource Connector 可以迅速的向公有云或者私有云申請資源,然后基于智能化的策略,把作業調度到云端資源上執行。如果業務量下降了,根據預設的門限,即刻釋放云端資源。這種可伸縮性,有效的提高計算效率的同時,為客戶節省了費用,真是魚和熊掌二者兼得也!

在 HPC 集群中,性能非常重要,在 LSF 10 版本中,實現了無與倫比的大規模高性能,并且包含了很多創新性功能,提高了易用性和可訪問性。LSF 10 支持數以千計的并發用戶數,同時管理數以萬計的節點資源,同時調度數以百萬計的作業。通過 IO 模式優化、將數據移到更靠近作業的地方、處理器通信的優化等方法,來提高作業的吞吐量性能。在 LSF 10 的 Benchmark 測試中,LSF 可以在每小時調度分發 9百萬的作業(超短作業)。在另外一組測試環境中,在 100,000個 Slots 的 LSF 集群,縱向對比了 LSF 的性能提升,從圖中我們可以看是 LSF 10 的性能得到了大幅提升。

LSF 的小伙伴們

俗話說,一個好漢三個幫。LSF 的核心的功能是根據集群的資源情況對作業進行調度和分發,到今天,LSF 已經發展出了一個大的家族,LSF 更像是一個家長,以“帶頭大哥”的身份帶領其家族的小伙伴們,為客戶降低運營成本,提高生產率。具體看,LSF 家族的核心價值有:

通過有效的調度和共享策略提高資產利用率

通過易用性、易訪問性和簡化來提高用戶的工作效率

通過洞察如何使用 HPC 環境來提高操作效率

下面有請 LSF 家族中幾位主要的小伙伴們亮相:

01

LSF AC (Application Center)

LSF AC 是 LSF 的 Web Portal。作為是 LSF 家族中“大師兄”,為集群用戶和管理員提供了靈活、易用的界面,使用戶能夠直觀的和 LSF 集群進行交互。有了 LSF AC,媽媽再也不用擔心程序員小明記不住復雜的 LSF 后臺命令了!用戶可以通過 Web 瀏覽器輕松愉快的完成作業的基本操作,如停止、暫停、恢復或重新排隊作業,也可以在 Web 界面監控作業的運行情況。同時,LSF AC 有很多應用程序的模板和腳本指南,這些模板和指南,很好的簡化了作業提交,很大程度上降低用戶的操作錯誤概率。

LSF AC 不光有電腦客戶端,也支持手機客戶端,用戶隨時隨地的掌握作業的運行狀態和資源情況。

02

LSF PM (Process Manager)

在一些 LSF 的應用場景中,很多作業之間有依賴關系,特別是近幾年來的容器化,微服務化,并行化作業愈發盛行,面對錯綜復雜的作業依賴關系,如果沒有一套流水線的管理工具,那對于這些用戶來說,簡直就是災難。LSF PM 就是肩負著這個使命而誕生的,使用這個流水線工具,LSF 用戶可以在提交作業前,圖形化的勾勒出作業的先后順序和驅動事件,然后再提交執行。使用直觀的圖形界面記錄和查看工作流步驟和執行情況,允許用戶自動執行容易出現人為錯誤的、或者冗長重復任務。

同時,用戶可以通過 LSF PM 設置一些驅動事件,比如文件事件(比如文件產生或者消失的時候,觸發某些作業),時間事件(可以在特定的時間或者周期性的觸發作業的運行)等。LSF PM 擁有 CS 模式的客戶端,同時也已經集成到了 LSF AC 的 Web 界面中了。

03

LSF RTM (Report, Track, Monitor)

LSF RTM 是 LSF 集群管理員的福音,LSF 集群管理員可以通過 LSF RTM 的 Web 儀表盤來全面的、實時的監視、報告和管理集群和工作負載,極大程度上提高了集群資源利用率和用戶生產率,以及控制或降低了用戶的成本。同時LSF RTM 支持監控應用程序許可證服務器和集群中的用戶和用戶組。通過 LSF RTM 直觀的 Dashboard,可以輕松有效的監控多個 LSF 集群,完成管理員日常的集群維護工作。

04

LSF Explorer

LSF Explorer 是針對 LSF 環境的輕量級報告解決方案,支持各種業務和用戶快速創建和查看報告和 Dashboard。如果沒有 LSF Explorer,想要滿足不同用戶的需求,這些報告需要從多個產品中的不同報告中獲得,而且這些數據可能需要通過電子表格的方式,手動創建報告,耗時且費力。LSF Explorer 使用 Elasticsearch 數據庫來存儲、索引和查詢數據,LSF 的用戶、IT 管理人員或者項目負責人,都可以輕松的、定制化的獲取,定期查看計算環境的執行報告,和所在項目或業務線正在消耗什么樣的資源。

05

LSF License Scheduler

商業化的應用程序許可證 (License) 往往是一種昂貴的資源,用戶可以使用 LSF License Scheduler,根據已建立的分發策略分配 License,從而管理和優化計算節點和項目之間的應用程序 License 使用。License 可以在集群之間共享,也可以在集群內的項目之間共享。LSF License Scheduler 可以簡化 License 共享,幫助提高生產力和增加對 License 資源的整體訪問,支持 FlexNet 和 Reprise 許可證管理器 (RLM) 等。

06

LSF Data Manager

作業的執行,往往需要一些數據作為輸入,或者會輸入大量的數據,如果沒有合理的數據管理,勢必對作業的執行速度造成影響。使用 LSF Data Manager,用戶可以有效地管理在 HPC 環境中的大量數據,借助已經具備的底層文件傳輸基礎設施(如 IBM Aspera),自動化 LSF 集群內和集群間的數據傳輸,以及本地與云之間的數據傳輸。LSF Data Manager 還提供了一個智能托管緩存,允許復用數據,并避免重復的傳輸,從而消除浪費的磁盤空間和數據傳輸的等待時間。簡單的說,LSF Data Manager 根據作業調度情況,決定移動哪些數據,和什么時候移動,然后可以借助文件傳輸技術(如 IBM Aspera)實現超高速傳輸。

LSF 應用場景和用戶分析

LSF 主要的應用場景為分布式計算領域和一些計算密集型的場景。LSF 已經成功的應用到了眾多行業,包括電子自動化,航空航天等制造業、教育培訓、能源、金融、生命科學,大型超算中心、氣象分析、環境監測仿真系統、數據挖掘、人工智能、動漫渲染等。簡而言之,如果后臺需要大量的計算,LSF 定能助一臂之力。

目前,全球前 12大汽車領域的公司,有 10家在使用 LSF。前 25家電子自動化企業,有 23家在使用 LSF 計算機輔助作業調度。全球前 3大生命科學中心均在使用 LSF 做后臺的集群調度。一些成功的超算中心,也在使用 LSF 做調度和監控。很多高等學府和研究院,使用 LSF 做超前的研究工作。我們每天看的精準的天氣預報,也有 LSF 默默無聞的貢獻。LSF 的成功案例數不勝數,可以說,雖然我們摸不到,看不到,但 LSF 已然和我們的生活息息相關。

結語

因篇幅有限,不能對浩瀚的 LSF 做詳盡闡述,LSF 依舊在持續的發展中。二十多年來,LSF 工作負載/資源管理解決方案贏得了多個行業客戶的青睞,借助于 LSF,客戶的作業運行效率得到了極大的提高,降低了成本。今日的成功只是明日的起跑線,風華正茂的 LSF 和它的小伙伴們,在以后的日子里,不改初心,會不斷完善自己,持續為客戶創造更大的價值。

END

往期回顧

→ 寶藏 IBM 的黑科技之“十二星座”干貨粗略說說

→ IBM 專家觀點: Data Fabric 將會是下一個 IT 的風口嗎?

點擊“閱讀原文”,了解更多

原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”

文章出處:【微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • IBM
    IBM
    +關注

    關注

    3

    文章

    1768

    瀏覽量

    74870
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10908

    瀏覽量

    213085
  • 大數據
    +關注

    關注

    64

    文章

    8909

    瀏覽量

    137822

原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”

文章出處:【微信號:IBMGCG,微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    增強分布式光伏電站管理,遠程管理 提高管理便捷性

    優勢:18721098782 ?w王盼盼 、實時監測,確保高效運行 分布式光伏監控系統能夠對光伏電站進行實時監測,包括太陽能電池板的輸出功率、電壓、電流等關鍵參數。通過這些數據的實時反饋,用戶可以隨時了解光伏系統的
    的頭像 發表于 11-26 14:06 ?178次閱讀

    鴻蒙開發接口數據管理:【@ohos.data.distributedData (分布式數據管理)】

    分布式數據管理為應用程序提供不同設備間數據庫的分布式協同能力。通過調用分布式數據各個接口,應用程序可將數據保存到分布式數據庫中,并可對
    的頭像 發表于 06-07 09:30 ?1083次閱讀
    鴻蒙開發接口數據<b class='flag-5'>管理</b>:【@ohos.data.distributedData (<b class='flag-5'>分布式</b>數據<b class='flag-5'>管理</b>)】

    分布式光伏電站的運維管理/分布式光伏監控系統

    條“陽光扶貧”的扶貧道路。在這背景下,結合電網企業在實際光伏扶貧工作中的經驗,對分布式光伏電站的服務與運維管理進行了詳細的闡述與探討,
    的頭像 發表于 04-15 15:30 ?871次閱讀
    <b class='flag-5'>分布式</b>光伏電站的運維<b class='flag-5'>管理</b>/<b class='flag-5'>分布式</b>光伏監控系統

    分布式運維管理平臺助力大型電商系統穩定運行的案例分析

    、引言 隨著電子商務的快速發展,大型電商系統面臨著前所未有的挑戰。如何確保系統的穩定運行、提高用戶體驗、降低運維成本,成為電商企業亟待解決的問題。分布式運維管理平臺作為
    的頭像 發表于 03-26 16:32 ?553次閱讀

    基于分布式運維管理平臺的智能電網運維案例

    、引言 隨著智能電網的快速發展,電網系統的復雜性和運維難度也在不斷增加。傳統的運維方式已難以滿足智能電網的需求,因此,分布式運維管理平臺在智能電網運維中的應用顯得尤為重要。本文將結合
    的頭像 發表于 03-26 16:24 ?655次閱讀

    分布式運維管理平臺助力醫療行業數字化轉型案例分享

    決定引入分布式運維管理平臺,以推動數字化轉型進程。 二、平臺應用與優勢 數據整合與共享 分布式運維管理
    的頭像 發表于 03-26 16:16 ?435次閱讀

    分布式運維管理平臺在云計算環境中的實施案例分析

    引入分布式運維管理平臺,以實現對云計算環境的全面管理和優化。 二、平臺實施與優勢 資源統調度與
    的頭像 發表于 03-26 16:16 ?623次閱讀

    基于分布式運維管理平臺的智慧城市運維實踐

    基于分布式運維管理平臺的智慧城市運維實踐是個涉及多個層面和維度的復雜過程。下面將從幾個關鍵方面對其實踐進行概述: 首先,智慧城市運維的核心在于實現對城市各個系統和服務的全面感知、智能
    的頭像 發表于 03-26 16:12 ?579次閱讀

    分布式運維管理平臺在跨地域企業中的部署與運維案例

    問題,某跨地域企業決定引入分布式運維管理平臺,以提升其運維效率和管理水平。 二、平臺部署與優勢 統
    的頭像 發表于 03-26 16:11 ?528次閱讀

    分布式綜合管理平臺:智慧城市建設的得力助手

    在智慧城市建設的大潮中,訊維分布式綜合管理平臺以其卓越的性能和強大的功能,成為推動城市智能化發展的得力助手。該平臺通過高效整合城市各類資源、優化管理
    的頭像 發表于 03-18 16:14 ?497次閱讀

    分布式綜合管理平臺在公共安全領域的成功實踐

    公共安全是社會和諧穩定的重要保障,而高效、精準的應急響應和協同管理是確保公共安全的關鍵。近年來,隨著信息技術的飛速發展,訊維分布式綜合管理平臺以其卓越的性能和強大的功能,在公共安全領域
    的頭像 發表于 03-18 16:13 ?390次閱讀

    分布式綜合管理平臺助力醫療信息化建設:案例剖析

    。下面,我們將通過個具體的案例來剖析訊維分布式綜合管理平臺在醫療信息化建設中的應用和價值。 某大型三甲醫院作為國內醫療領域的佼佼者,直致
    的頭像 發表于 03-18 16:11 ?404次閱讀

    工業智能化新篇章:訊維分布式管理平臺工程案例展示

    工業智能化是當今制造業轉型升級的重要方向,而訊維分布式管理平臺則以其高效、靈活的特性,在這領域展現出了巨大的應用潛力。以下是個關于訊維
    的頭像 發表于 03-18 16:11 ?385次閱讀

    分布式綜合管理平臺在金融行業的應用與案例

    功能,在金融行業中得到了廣泛的應用。 、應用概述 訊維分布式綜合管理平臺通過整合金融機構的各類信息系統和業務數據,實現了資源的統一管理和高
    的頭像 發表于 03-18 16:07 ?470次閱讀

    智慧社區新模式:分布式綜合管理平臺工程實踐分享

    隨著信息化和智能化技術的飛速發展,智慧社區作為新型城市管理模式,日益受到社會的廣泛關注。在這背景下,訊維分布式綜合管理平臺以其高效、穩定、
    的頭像 發表于 03-18 16:05 ?394次閱讀
    主站蜘蛛池模板: 日本亚洲高清乱码中文在线观看 | 五月激情久久 | 天天摸天天操天天干 | 欧洲乱码专区一区二区三区四区 | 男人视频在线观看 | 午夜免费成人 | 欧美成人福利 | 女a男0攻巨肉高h | 免费看黄色一级毛片 | 国内精品久久久久久影院老狼 | 亚州国产精品精华液 | 国产色啪午夜免费视频 | 同性同男小说肉黄 | 泰国一级毛片aaa下面毛多 | 天天爽夜夜爽夜夜爽精品视频 | 九色中文| 色系视频在线观看免费观看 | 欧美一级爱操视频 | 毛片一区 | 黄篇网站在线观看 | 四虎最新永久免费网址 | 久久婷婷国产综合精品 | 涩涩涩综合在线亚洲第一 | 国模极品一区二区三区 | 韩国三级中文字幕hd | 男人边吃奶边做视频免费网站 | 乱肉情欲杂乱小说 | 亚洲操综合| 三级视频在线播放线观看 | 免费国产h视频在线观看 | 国产主播在线观看 | 亚洲欧美一区二区三区麻豆 | 激情天堂 | 国产精品igao在线观看樱花日本 | 五月婷婷狠狠 | 婷婷丁香色 | 五夜婷婷| 夜夜澡人人爽人人喊_欧美 夜夜综合网 | 欧美色爱综合 | 一区在线免费观看 | 午夜视频在线观看一区二区 |