在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LLM推理任務中GPU的選擇策略

新機器視覺 ? 來源:知乎 ? 2024-04-07 15:32 ? 次閱讀

去年十月,美商務部禁令的出現,使中國客戶無法使用NVIDIA H100/H200旗艦芯片。一時間,各種NV存貨、中國限定卡型、其他廠商NPU紛至沓來。在大模型推理場景中,如何客觀比較不同硬件的能力,成為一大難題,比如:

Q1:輸入輸出都很長,應該選H20還是A800?

Q2:高并發情況下,用L20還是RTX 4090?

最直接的解決方法是,使用SOTA推理服務框架,對不同硬件X不同負載做全面的評估。但是,大模型任務推理的負載變化范圍很大,導致全面評估耗時耗力。主要來源以下幾個方面:

輸入參數batch size、input sequence length、output sequence length變化多樣。

大模型種類很多,從7B到170B,不同尺寸模型都有。

硬件種類很多。參考許欣然的文章,備選的NVIDIA GPU就有15種,而且還有其他廠商的硬件。

e9017e7e-f35c-11ee-a297-92fbcf53809c.jpg

如何在繁重的benchmark任務前,對不同硬件在不同推理任務上的表現有一個直觀的認識?為此,我做了一個簡單的性能評估工具LLMRoofline,它使用Roofline模型,不需要運行程序,來簡單比較不同硬件。

Roofline模型

Roofline模型是一種非常簡化的性能模型,但可以清晰地展示出應用程序的硬件性能極限。

在Roofline模型可以直觀展示一張曲線圖,其中x軸表示AI(Arithmetic Intensity),即每個內存操作對應的浮點運算次數;y軸表示性能,通常以每秒浮點運算次數(Tflops)表示。圖中的“屋頂”(Roofline)由兩部分組成:一部分是峰值內存帶寬(Memory Bandwidth)限制的斜線,另一部分是峰值計算性能(Peak Performance)限制的水平線。這兩部分相交的點是應用程序從內存帶寬受限轉變為計算性能受限的轉折點。

下圖繪制了多個不同GPU(包括NVIDIA的A100、H20、A800、L40S、L20和4090)的Roofline模型。如果一個硬件的屋頂Roof越高,那么它在處理計算密集型任務時的性能更好;如果屋頂的Line斜率越高,表示它的HBM帶寬越高,處理訪存密集型任務時,性能越好。

e90f530a-f35c-11ee-a297-92fbcf53809c.jpg

圖1,不同GPU的Roofline模型

LLM推理性能模型

方法一:全局Roofline模型

基于Roofline模型,可以計算出不同LLM模型推理任務的AI。我們用Decode階段的AI來代表整體推理階段的AI,因為Prefill階段,是計算密集的,且在一次推理任務中只算一次,時間占比很小。因為LLM的Transformers layer數比較大,所以只考慮Transformers的計算和訪存,忽略包括Embedding在內的前后處理開銷。

AI = 總計算量FLOPS/(總參數大小+總KVCache大小)

為了簡化,沒考慮中間activation的內存讀取,因為它的占比通常很小,而且可以被FlashAttention之類的Kernel Fusion方法優化掉。

總計算量和參數量可以參考如下文章,文章中的數據還是針對GPT2的,這里在LLAMA2模型下進行一些修改,主要包括取消intermediate_size=4*hidden_size限制,并考慮GQA和MoE等模型結構的優化。

這里約定,bs(batch size),in_len(輸入序列長度,Decoder階段一直是1),kv_len(KVCache長度),h(hidden_size),i(intermediate_size)。

總計算量

e91eef0e-f35c-11ee-a297-92fbcf53809c.png

總參數量

e92da9c2-f35c-11ee-a297-92fbcf53809c.png

KVCache參數量

e93f2094-f35c-11ee-a297-92fbcf53809c.png

如果使用MoE結構,我們計算參數時對ffn 乘以 #Expert,計算量對ffn乘以topk。

有了任務的AI,可以在圖1中,min(peak_flops, ai * bandwidth)查找對應位置的Tflops性能,從而比較兩個硬件上該任務的性能優劣。

使用多卡Tensor Parallel并行,分子分母都近似除以GPU數目,因此AI幾乎不變。使用FP8會增加Roof高度,但是Line的斜率不變。

方法二:算子Roofline模型

上述方法還是將整個Transformers看成整體算出AI,還可以對Decoder中每一個算子算出它的AI,然后使用Roofline模型計算該算子的延遲。計算算子的AI可以考慮Activation的讀寫開銷,相比方法一訪存計算會更加精確。

我找到了一個現成的項目LLM-Viewer做了上述計算,該項目也是剛發布不久。

https://github.com/hahnyuan/LLM-Viewergithub.com/hahnyuan/LLM-Viewer

值得注意的是,目前無論方法一還是方法二都無法精確估計運行的延遲。比如,我們用LLM-Viewer估計A100的延遲,并和TensorRT-LLM的數據對比,可見最后兩列差距還是比較大的。因為Roofline模型只能估計性能上限,并不是實際的性能。

Model Batch Size Input Length Output Length TRT-LLM
Throughput (token/sec)
LLM-Viewer
Throughput
(token/sec)
LLaMA 7B 256 128 128 5,353 8,934
LLaMA 7B 32 128 2048 1,518 2,796
LLaMA 7B 32 2048 128 547 788
LLaMA 7B 16 2048 2048 613 1,169

但是,應該可以基于LLM-Viewer的數據進行一些擬合來精確估計不同GPU的性能,不過據我了解還沒有對LLM做精確Performance Model的工作。

效果

LLMRoofline可以使用上述兩種方式比較不同硬件的性能。它會畫出一個Mesh,橫軸時序列長度(可以看成生成任務的平均KVCache length),縱軸時Batch Size。

比如,我們比較NVIDIA H20 rumors和A100在推理任務上的差異。這兩款芯片一個帶寬很高4TBps vs 2 TBps,一個峰值性能高 312 Tflops vs 148 Flops。

使用LLAMA2 13B時,左圖是方法二、右圖是方法一的A100/H20的比較結果,大于1表示有優勢。兩張圖有差異,但是分布近似。A100比H20的優勢區域在網格的左上角。當序列長度越短、Batch Size越大,A100相比H20越有優勢。這是因為,此時任務更偏計算密集型的,A100的峰值性能相比H20更具優勢。

借助性能模型,我們可以澄清一些誤解。例如,有人可能會認為在H20上增大Batch Size會使任務變得更加計算密集,且由于H20的計算能力非常低,因此增大Batch Size是無效的。這里忽略了序列長度對AI的影響,對于處理長序列的任務來說,任務一直是訪存密集的,增大Batch Size仍然是一種有效的優化策略。

e94d397c-f35c-11ee-a297-92fbcf53809c.jpg

當使用LLAMA2 70B時,A100相比H20優勢區域擴大。這是因為LLAMA2 13B沒有用GQA,但LLAMA2 70B用了GQA,這讓推理任務更偏計算密集,對A100更有利。

e95ab11a-f35c-11ee-a297-92fbcf53809c.jpg

當使用Mistral 7B時,LLM-Viewer目前還沒有登記模型信息,我們只有方法一的結果,A100相比H20的優勢區域相比13B縮小。這說明hidden size越大,越偏計算密集。

e9677288-f35c-11ee-a297-92fbcf53809c.jpg

Mixtral 8X7B時,可見A100相比H20一致保持劣勢,說明MoE把推理任務推向訪存密集的深淵,H20的帶寬優勢發揮明顯作用。

e97304ae-f35c-11ee-a297-92fbcf53809c.jpg

通過使用 LLMRoofline,我們能夠制作出許多兩個硬件比較的 Mesh,從而清晰地觀察到一些類似上述的簡單結論。

總結

大模型推理任務的復雜性和多變性使得對不同型號GPU的適用范圍的理解變得尤為重要。為了幫助大家直觀地感知這些差異,本文介紹了一款名為LLMRoofline的性能分析工具。該工具采用Roofline模型,能夠直觀地對比不同硬件的性能和適用范圍。具體而言,影響硬件選擇的因素包括任務的序列長度、批處理大小(Batch Size),以及是否使用了MoE/GQA等優化技巧,它們相互作用可以在LLMRoofline中得到體現。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5076

    瀏覽量

    103737
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4779

    瀏覽量

    129367
  • LLM
    LLM
    +關注

    關注

    0

    文章

    299

    瀏覽量

    402

原文標題:如何為LLM推理任務選擇正確的GPU

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    對比解碼在LLM上的應用

    為了改進LLM推理能力,University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務LLM方法。實驗表明,所
    發表于 09-21 11:37 ?667次閱讀
    對比解碼在<b class='flag-5'>LLM</b>上的應用

    【飛凌嵌入式OK3576-C開發板體驗】rkllm板端推理

    交叉編譯 在完成模型的量化構建后,就能夠在目標硬件平臺OK3576上實現模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄,該
    發表于 08-31 22:45

    充分利用Arm NN進行GPU推理

    Tuner之前(上圖)和啟用OpenCL Tuner之后(下圖)的流線型捕獲。關注GPU使用率部分的非碎片隊列活動(橙色曲線),突出顯示的間隔顯示GPU上ML推理過程的開始和結束。
    發表于 04-11 17:33

    如何利用LLM做多模態任務

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放多模態輸入接口并且不會透露任何模型上技術細節。因此,現階段,如何利用
    的頭像 發表于 05-11 17:09 ?958次閱讀
    如何利用<b class='flag-5'>LLM</b>做多模態<b class='flag-5'>任務</b>?

    LLM在各種情感分析任務的表現如何

    地址 :https://arxiv.org/pdf/2305.15005.pdf 代碼 :https://github.com/DAMO-NLP-SG/LLM-Sentiment 這篇工作調查了LLM時代情感分析的研究現狀,旨在幫助SA研究者們解決以下困惑:
    的頭像 發表于 05-29 17:24 ?2444次閱讀
    <b class='flag-5'>LLM</b>在各種情感分析<b class='flag-5'>任務</b><b class='flag-5'>中</b>的表現如何

    基準數據集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

    )的純因果推理能力。其中CORR2CAUSE對LLM來說是一項具有挑戰性的任務,有助于指導未來關于提高LLM純粹推理能力和可推廣性的研究。
    的頭像 發表于 06-20 15:39 ?1909次閱讀
    基準數據集(CORR2CAUSE)如何測試大語言模型(<b class='flag-5'>LLM</b>)的純因果<b class='flag-5'>推理</b>能力

    適用于各種NLP任務的開源LLM的finetune教程~

    ChatGLM2-6b是清華開源的小尺寸LLM,只需要一塊普通的顯卡(32G較穩妥)即可推理和微調,是目前社區非常活躍的一個開源LLM
    的頭像 發表于 07-24 09:04 ?1771次閱讀
    適用于各種NLP<b class='flag-5'>任務</b>的開源<b class='flag-5'>LLM</b>的finetune教程~

    人工智能的處理器如何選擇

    為長期運行的計算密集型 AI 訓練和大規模 AI 推理選擇合適的 CPU 或 GPU,本質上是要為您的應用選擇適宜的計算解決方案。相比傳統 x86 處理器成本高、能耗大,最新的 Amp
    的頭像 發表于 09-05 10:58 ?1376次閱讀
    人工智能<b class='flag-5'>中</b>的處理器如何<b class='flag-5'>選擇</b>

    mlc-llm對大模型推理的流程及優化方案

    比如RWKV和給定的device信息一起編譯為TVM的runtime.Module(在linux上編譯的產物就是.so文件)提供mlc-llm的c++推理接口調用 。
    發表于 09-26 12:25 ?995次閱讀
    mlc-<b class='flag-5'>llm</b>對大模型<b class='flag-5'>推理</b>的流程及優化方案

    Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

    ?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs,比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將部署12B
    的頭像 發表于 11-01 17:48 ?1003次閱讀
    Hugging Face <b class='flag-5'>LLM</b>部署大語言模型到亞馬遜云科技Amazon SageMaker<b class='flag-5'>推理</b>示例

    怎樣使用Accelerate庫在多GPU上進行LLM推理呢?

    大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長,推理的計算需求也顯著增加。
    的頭像 發表于 12-01 10:24 ?1673次閱讀
    怎樣使用Accelerate庫在多<b class='flag-5'>GPU</b>上進行<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>呢?

    如何利用OpenVINO加速LangChainLLM任務

    (RAG)任務,LangChain 可以根據問題從已有的知識庫中進行檢索,并將原始的檢索結果和問題一并包裝為Prompt提示送入 LLM ,以此獲得更加貼近問題需求的答案。
    的頭像 發表于 12-05 09:58 ?854次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理
    的頭像 發表于 07-24 11:38 ?1020次閱讀

    基于Arm平臺的服務器CPU在LLM推理方面的能力

    部署任務的默認首選平臺。但在推理領域,除了 GPU 和加速器之外,還有其他可行的選擇。長期以來,CPU 一直被用于傳統的 AI 和機器學習 (ML) 用例,由于 CPU 能夠處理廣泛多
    的頭像 發表于 09-02 10:39 ?569次閱讀
    基于Arm平臺的服務器CPU在<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>方面的能力

    新品| LLM630 Compute Kit,AI 大語言模型推理開發平臺

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強大的AI推理能力,能夠高效執行復雜的視覺(CV)及大語言模型(LLM)任務,滿足各類智能應用場景的需求
    的頭像 發表于 01-17 18:48 ?152次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語言模型<b class='flag-5'>推理</b>開發平臺
    主站蜘蛛池模板: 国产综合视频在线 | 九九热精品视频在线播放 | 午夜欧美精品久久久久久久 | 日本不卡免费新一区二区三区 | 天天成人综合网 | 手机看片国产福利 | 久久久99精品免费观看精品 | 久久香蕉国产线看观看精品yw | 生活片一级性 | 亚洲福利一区福利三区 | 欧美三级视频网站 | 加勒比啪啪 | 一本大道一卡二卡 | 日本免费一级视频 | 亚洲一区二区在线视频 | 在线天堂中文新版有限公司 | 丁香在线视频 | 免费一级欧美在线观看视频片 | 又粗又爽又色男女乱淫播放男女 | 国产播放啪视频免费视频 | 美国一级大黄香蕉片 | 亚洲韩国日本欧美一区二区三区 | 欧美成人性色xxxxx视频大 | 嫩草影院永久入口在线观看 | 日韩一级欧美一级一级国产 | 色多多视频在线观看免费大全 | 五月婷婷色网 | 亚洲无线码一区在线观看 | 国产在线观看福利 | 免费在线一区二区三区 | 国产精品污视频 | 天堂网在线新版www 天堂网在线资源 | 在线观看高清免费播放 | 天天都色| 亚洲综合色就色手机在线观看 | 免费看你懂的 | 老色批软件 | 精品一区二区国语对白 | 欧美三级小视频 | 国产色婷婷精品综合在线 | 四虎看片 |