在歐洲高性能計算領域頂級大會Teratec上,NVIDIA創始人兼首席執行官黃仁勛發表演講,暢談他對產業及行業高性能計算的看法,以下為演講全文。
很高興今天能與大家一起討論高性能計算,我非常關注這個主題。
高性能計算是科學領域的必備工具,幫助科學家更好地了解我們的世界和宇宙。
盡管多個行業已經從高性能計算中受益頗多,然而這還僅是特例,我們堅信,得益于一系列進步,我們正處于一個重要的轉折點和行業高性能計算革命的開端。
在我們聽到數字生物學革命,或未來工廠革命、數字孿生革命時,他們都有同樣的內因在發揮作用。
我的演講將重點介紹推動計算領域以超指數級、超摩爾定律速度進步的動力,這使高性能計算最終成為對各個行業都有用的工具。
隨后,我將介紹如何擴展高性能計算系統,以服務各行各業的應用。
先跟大家聊一下我們的行業,以及高性能計算是如何給這個行業帶來翻天覆地的變化。
NVIDIA 的成功一部分是源自我們構建的內容,但更多的是與構建方式有關。
NVIDIA 很早就制定了完全在硅晶片中構建我們芯片的理念,并且只將我們認為完美的設計送到晶圓廠去生產。
NVIDIA 要模擬一切,并不惜一切代價實現這一目標,為了模擬我們的芯片和系統,我們已經在芯片設計基礎設施、硬件和軟件方面投資了數十億。
計算機模擬仿真的方法讓我們在項目成本最低的階段發現問題,最終將高質量的產品更快地投放市場。
不僅如此,這樣做還有更深遠的意義。
模擬文化會自然地促進軟硬件協同設計,并使內部團隊自然地保持一致。
計算機模擬文化貫穿整個過程并有著深遠的影響:產品開發的各個方面都整合在一起,故障和結果可重現,進而獲得持續改進,過去學到的所有知識都記錄在工具和流程中。
隨著時間的推移,使我們獲得了快速擴展和前進的整合優勢。
1997 年,RIVA128 有 400 萬個晶體管,它由50 名工程師打造。23年后,A100 的規模擴大了15000 倍,需要5000 名工程師參與。
如果沒有計算機模擬,電影行業不可能讓我們身臨其境非常非常遙遠的星系。在電影《星球大戰9: 天行者崛起》中,ILM(工業光魔公司) 在數萬臺服務器上模擬出了數百萬加侖的水。
CGI (計算機成像技術)使得ILM 打造出令人難以置信的鏡頭–要召喚出他們模擬的壯觀海浪顯然是不可能的。
但是,CGI 開辟了更多新天地–能夠從任何角度進行拍攝,反復拍攝直到獲得完美鏡頭,每當鏡頭中有海洋時重用之前的算法–創作自由度令人震撼。
導演能想到的,CGI都能實現。
計算機模擬也改變了電子商務、媒體和互聯網領域。
互聯網上有數萬億物品,數十億人通過4 英寸的屏幕在這里“網上沖浪”。
預測用戶意圖和偏好,對于建立用戶和物品之間的聯系至關重要。
通過學習每款產品的幾十到幾百個屬性,以及每位用戶也有數十個到數百個屬性,互聯網服務提供商使用在超大規模數據中心運行的推薦系統來預測你的隱性偏好。
推薦系統可以有效模擬你的偏好,并預測你喜歡購買、閱讀或觀看的內容。
數據來自你與其服務進行的每一次互動。
推薦系統也是大規模的商用高性能計算系統之一,并且它們會不間斷運行。
每年,超大規模數據中心和云數據中心部署的服務器數量能達到3000 萬臺,其中大量服務器用于學習預測特征和用戶偏好。
這些行業都因高性能計算而發生變革。
但是,基于物理和生物科學的產品制造業會遇到因問題過于龐大且復雜,以至于難以在模擬中正確求解。
為幫助打造實際產品–無論是破解和理解生物分子、研發新藥、尋找更可持續的食物和燃料來源,還是安全操作自主機器以制造并交付產品–只有在企業能夠通過模擬設計整個產品和完成相關壓力測試后,工業高性能計算才能被廣泛采用。
這需要達到一定的規模。
到目前為止,高性能計算能夠模擬的規模太小,以至于在工業領域無法發揮作用。
有句話說的好:“梯子再高也上不了月球。”
得需要火箭才行。
計算機科學領域的兩項突破大大提高了高性能計算的模擬規模。
第一個是 CUDA GPU 加速。
我們來看看科學家們使用NAMD 對模擬規模檢驗的進度。
NAMD 是一種分子動力學求解器,用于模擬化學物質與蛋白質的相互作用來進行虛擬藥物篩選,或模擬蛋白質折疊以預測其3D 結構。
2006 年,UIUC利用NVIDIA GPU 加速 NAMD,對 100 萬個原子 20納秒的活動機制進行了建模,達到2000 萬原子x納秒。
如今,通過GPU 加速,研究人員正在對10 億個原子 500納秒的活動機制建模,達到5000 億原子x納秒。
原子模擬的性能在15 年內提高了100 萬倍。
但按照摩爾定律,只會提高1000 倍。
事實上,最龐大的Top 500 超級計算機在這一時期僅增加了400 倍。
GPU 加速計算推動著超指數級的增長。
實現這一目標需要 CUDA GPU、多 GPU 系統、網絡性能提升和全棧優化,這種完全集成的計算方法就是我們所說的 GPU 加速計算。
盡管如此,我們目前只接近了微秒級的時間尺度,我們需要進行毫秒級的模擬來觀察重要的細胞過程,例如新冠肺炎刺突蛋白的作用機制。
以及在秒級的時間尺度上觀察蛋白質折疊過程。
這又增大了 3 到6 個數量級,即使使用GPU 加速計算,也可能需要10 年才能實現。
此時,深度學習應運而生。
深度學習模型是通用函數學習工具。
其有效性以及 NVIDIA GPU 的通用性吸引了全球科學家加入深度學習研究,我們經常從中看到重大突破。
AI 模型的規模在短短4 年內增加了 4 個數量級,現已超過一萬億個參數!
我們預計幾年內會有100 萬億以上參數的模型,因為從規模上來說,人腦大約有150 萬億個突觸。
美國能源部國家實驗室的研究人員結合深度學習與NAMD 對新型冠狀病毒的3.05 億個原子模擬超過了1ms ,以觀察其刺突蛋白的作用機制。
在過去 15 年里,我們實現了從 2000 萬原子 x 納秒到 305 萬億原子 x 納秒的模擬,增長了 1000 萬倍。
GPU 和深度學習使高性能計算速度實現超指數級增長。
自從采用深度學習以來,行業高性能計算應用明顯增加,尤其是在數字生物學、藥物研發、金融服務、制造和運輸領域。
領軍者們看到了即將到來的轉折點,正躍躍欲試,期待著高性能計算超指數級的進步。
索邦大學的研究人員與 GENCI、CRNS 和 NVIDIA 合作,用 GPU 加速一個大規模分子動力學模擬軟件Tinker-HP。
他們模擬了新冠病毒刺突蛋白 38 微秒的活動機制,研究員 Jean Philippe 表示說“以前需要幾年努力或者使用幾百萬個 CPU 核心”才能實現這個結果。
六家領先的制藥公司開始使用 Tinker-HP 進行藥物研發。
Transformer是一個可以學習序列模式的突破性 AI 模型,已經取得了驚人的自然語言理解成果。
Google 的 BERT、OpenAI 的 GPT-3、NVIDIA 的 BioMegatron 就是典型的例子。
語言理解技術將實現計算的大眾化,讓所有人都能使用,可能會對社會產生深遠影響。
GENCI 和 BigScience 的開放大型語言模型協作項目匯集了來自 45 個國家和地區的 500 名研究人員,共同為行業和科學界開發開源語言模型。
Transformer 不僅在語言理解方面具有革命性意義。
這些模型還可以學習 SMILES 的語法規則,SMILES 是描述化學結構的語言 – 化學語言。
NVIDIA 和阿斯利康合作開發了一種 AI 模型,可以預測藥物靶向反應并生成新型分子藥物化合物。
該模型使用由十億種商用藥物分子組成的 ZINC 化學化合物數據庫進行訓練。
流體模擬被用于設計高效的渦輪機和風機,甚至是現代數據中心。
幾何感知、多物理場 CFD 模擬可能需要數天才能完成,這限制了可探索的設計規模。
NVIDIA 研究人員開發了 SimNet,一種基于物理信息的神經網絡。
SimNet 是一種基于深度學習的多物理場 CFD 模擬框架 – 一種遵守物理定律的 AI 模型。
GPU 加速計算與深度學習的融合正在推動許多領域的超指數級增長。
超指數級規模將開啟高性能計算的行業應用,同時行業高性能計算的各種用例又會推動架構的進步,不僅僅是規模增長。
行業高性能計算不會處于超級計算中心的限制之中。行業高性能計算將是分布式的,跨越多個站點,延伸至邊緣,連接到遠程傳感器,有時還會運行批量模擬,以及越來越多的連續數字孿生模擬。行業高性能計算即是云原生和混合云計算。
中央超級計算機的性能將是難以置信的,它在第一性原理物理模擬方面表現卓著,大多數行業將使用數據分析、AI 模型訓練和物理-AI 融合的模擬方法。
在交通運輸行業,高性能計算將根據來自數百萬輛汽車的傳感器數據流構建并不斷更新高清地圖。
針對 AI 優化的高性能計算將用于開發自動駕駛 AI 模型,同時針對可視化優化的高性能計算將模擬行駛在虛擬城市中的整個汽車堆棧。
在制造行業,針對可視化優化的高性能計算將創建虛擬環境,讓機器人使用深度強化學習來學習技能。
高性能計算將實現在視覺和物理方面均非常準確的數字孿生模擬。
一些超級計算機將完全專用于監控和處理來自全球數十億個傳感器的連續遙測數據流;包括環境、氣象、大氣、海洋、衛星成像以及人類和農業污染。
歷史數據可通過多種模式進行可視化,這些數據將推動 AI 模型預測未來幾個小時的天氣或未來數年的氣候變化。
DestinE 就是一臺這樣的計算機,它將成為地球的數字孿生體,加速計算和 AI 將貫穿其始終。
然而,應用的多樣性和系統瓶頸將推動系統架構的多樣性。這就是 Arm 的魅力所在。
Arm 的魅力在于其開放的許可模式,允許任何人創建專用芯片和系統。
Amazon Graviton 非常適用于超大規模。
Ampere Computing 為超大規模、云和高并發用戶應用打造了出色的 CPU。
印度的 C-DAC 和韓國的 ETRI 也在構建超級計算 CPU。
富士通打造了一款具有強大向量處理能力和高內存帶寬的超級計算 CPU。
Marvell 在存儲服務器和 5G 基站方面表現優異。
在歐洲,SiPearl 正在為歐洲 E 級 (每秒百億億次) 超級計算構建 CPU。
NVIDIA 正在構建針對諸如 AI 等大型數據問題的 GPU 加速計算而優化的 CPU。
在為研究人員創建實用的計算平臺的漫長旅程中,構建 CPU 是第一步。
構建一個實用的計算平臺,支持不同科學領域和行業的各種應用、系統配置和用例,需要付出巨大的努力。
除了極少數例外,計算機并非獨立或孤立的設備。
Arm 系統需要集成到當今的基礎設施、軟件堆棧和工作流程中。
Arm 需要第三方配套芯片、各種系統、特定領域的求解器和應用、中間件、存儲和文件系統、網絡、成熟的開發堆棧、支持熱門編程模型和語言的 SDK 以及數據中心管理軟件的支持。
Arm 目前僅占全球數據中心的 1%,因此激勵生態系統全面支持 Arm 將是一個漫長的過程。
我們相信,Arm 模式在高性能計算領域的時代已經到來。
盡管長路漫漫,但 NVIDIA 非常熟悉這個過程。NVIDIA 可以快速啟動 Arm 高性能計算生態系統。
在過去 20 年里,我們為 NVIDIA 加速計算創建了強大的生態系統。
我們的平臺可加速所有關鍵高性能計算和 AI 生態系統。
我們為 250 萬開發者提供了 150 個 SDK。
我們與世界各地的服務器制造商和云供應商合作,提供我們的平臺給客戶。
高性能計算社區希望實現多元化,并渴望 NVIDIA 為 x86 和 Arm 提供加速計算和 AI 計算。
考慮到社區的關注點,我們將為從云到超級計算中心到邊緣的指令集架構提供支持。
還有一件事值得一提。
量子計算雖然仍處于早期研究階段,但我們有望模擬這種類別的、隨規模呈指數級增長的復雜問題,例如量子化學和密碼學。
盡管距離廣泛商用還有幾十年的時間,但目前仍有重要的研究要做,NVIDIA 可以通過多種方式做出貢獻:
模擬量子電路以驗證研究量子計算機的結果,為優化量子算法的研究人員提供平臺,構建混合量子-經典系統,以及加速已用于藥物研發或材料科學的許多量子求解器。
NVIDIA cuQuantum 是一種張量處理 SDK,可極大加速量子電路模擬。
在法國和世界各地都有一個充滿活力的大型社區。
我們的計算機科學家隨時準備幫助你加速量子研究。
行業高性能計算的時代已經到來。
科學界利用高性能計算來測試新理論的極限。
各個行業需要高性能計算來測試新產品的極限。
到目前為止,基于物理和生物科學的產品會存在因問題過于龐大且復雜,以至于難以在模擬中正確求解。
GPU 加速和 AI 改變了這一點。
GPU 加速和 AI 在 15 年內將計算機模擬的規模提升了 1000 萬倍,這是一種超指數級增長。
在行業領域,高性能計算不再是試圖登月的長梯,它現在是一艘火箭。
對于行業來說,問題已經不再是計算機能做些什么。而是誰將率先使用計算機來為行業掀起革命性變革。
行業高性能計算的時代已經到來。
編輯:jq
-
計算機
+關注
關注
19文章
7565瀏覽量
88873
原文標題:洞見 | 黃仁勛演講全文:行業高性能計算時代已經到來
文章出處:【微信號:sekorm_info,微信公眾號:世強SEKORM】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
新思科技如何應對量子計算機的威脅
大模型或對汽車行業帶來革命性變革
工業計算機變革制造業的 5 種方式

DNA計算機研究取得突破性進展:PB級數據存儲與高效處理
計算機視覺有哪些優缺點
計算機視覺的工作原理和應用
玩出夢想科技推出革命性安卓系統空間計算機MR
微軟發布AI專用計算機,引領計算新紀元
工業計算機是什么?如何在不同行業中使用?

【量子計算機重構未來 | 閱讀體驗】 跟我一起漫步量子計算
量子計算機應用——量子計算沉浸式體驗系統

評論