cuBLAS 庫可提供基本線性代數(shù)子程序(BLAS)的 GPU 加速實現(xiàn)。cuBLAS 利用針對 NVIDIA GPU 高度優(yōu)化的插入式行業(yè)標(biāo)準(zhǔn) BLAS API,加速 AI 和 HPC 應(yīng)用。cuBLAS 庫包含用于批量運算、跨多個 GPU 的執(zhí)行以及混合精度和低精度執(zhí)行的擴展程序。通過使用 cuBLAS,應(yīng)用將能自動從定期性能提升及新的 GPU 體系架構(gòu)中受益。cuBLAS 庫包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
cuBLAS 多 GPU 擴展
cuBLASMg 提供了先進的多 GPU 矩陣間乘法,您可在多臺設(shè)備間以 2D 塊循環(huán)方式分發(fā)每個矩陣。cuBLASMg 目前已加入 CUDA 數(shù)學(xué)庫搶先體驗計劃。
cuBLAS 性能
cuBLAS 庫針對 NVIDIAGPU 上的性能進行了高度優(yōu)化,并利用 Tensor Core 對低精度和混合精度矩陣乘法進行加速。
cuBLAS 的主要特性
全面支持 152 個標(biāo)準(zhǔn) BLAS 例程
支持半精度和整數(shù)矩陣乘法
GEMM 和 GEMM 擴展程序針對 Volta 及 Turing Tensor Core 進行了優(yōu)化
針對各種深度學(xué)習(xí)模型中使用的規(guī)模調(diào)整 GEMM 性能
支持用于并發(fā)操作的 CUDA 流
您將能夠使用最基本的 CUDA 工具和技術(shù),加速和優(yōu)化僅適用于 CPU 的 C/C++ 應(yīng)用程序。您將了解 CUDA 開發(fā)的迭代風(fēng)格,這將幫助您快速發(fā)布加速應(yīng)用程序。
加速計算基礎(chǔ)——CUDA Python
您將了解使用 CUDA 和 Numba 編譯器在大規(guī)模并行 GPU 上加速運行 Python 應(yīng)用程序的基本工具和技能。
通過 CUDA C++ 在多個 GPU 之間擴展工作負(fù)載
您將學(xué)習(xí)如何在單個節(jié)點上使用多個 GPU,構(gòu)建強大高效的 CUDA C++ 應(yīng)用程序。
通過并發(fā)流加速 CUDA C++ 應(yīng)用程序
您將在 CUDA C++ 應(yīng)用程序中,學(xué)習(xí)利用 CUDA Streams 進行復(fù)制/計算重疊。
審核編輯:劉清
-
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131259 -
矩陣
+關(guān)注
關(guān)注
1文章
434瀏覽量
35249 -
HPC
+關(guān)注
關(guān)注
0文章
333瀏覽量
24339
原文標(biāo)題:DevZone | NVIDIA cuBLAS庫
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展
英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

利用NVIDIA DPF引領(lǐng)DPU加速云計算的未來

借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計算效率
《CST Studio Suite 2024 GPU加速計算指南》
NVIDIA發(fā)布cuPyNumeric加速計算庫
NVIDIA加速計算如何推動醫(yī)療健康
AMD與NVIDIA GPU優(yōu)缺點
GPU加速計算平臺是什么
NVIDIA CorrDiff生成式AI模型能夠精準(zhǔn)預(yù)測臺風(fēng)

評論