自ChatGPT問世以來,大模型遍地開花,承載大模型應用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領先的智能計算服務提供商,在2023年11月25日發布了針對大語言模型的高性能推理框架,并受到廣泛關注。在歷經數月的迭代開發后,澎峰科技重磅發布升級版本,推出全新的高性能大模型推理引擎:PerfXLM。
PerfXLM采用了云端一體架構,支持云端推理和本地推理兩種模式。在硬件支持上,PerfXLM適配了包含多種國產處理器在內的不同硬件,并針對硬件體系結構特征進行了深入性能優化,大幅提升了大模型推理性能。
一、PerfXLM整體架構
圖1.PerfXLM整體架構
如圖1所示,PerfXLM整體架構分為三層:
1.模型轉換層。將Torch或者Huggingface格式的大模型轉化為統一的內部模型結構,并最終統一表達為ONNX圖。
2.推理引擎層。實現了ONNX圖解析、算子調度、統一內存管理等功能,大幅提升硬件資源利用率;同時,也提供了針對云端推理的專用Serving模塊,以獲得更高的硬件利用率和QPS響應。
3.性能層。提供了針對大模型推理的高性能算子庫,并針對各種主流硬件進行了適配和優化。
PerfXLM具有的三大特點:
1.云端一體,同時支持云側和端側大模型推理,能夠讓大模型適用于各種應用場景之中。
2.支持多異構平臺,支持了包括NVIDIA GPU、海光DCU、高通Adreno GPU、Intel iGPU、某國產GPU在內的多種硬件設備
3.高性能定制優化算子,實現了結合體系結構特征和大模型推理應用特征的定制優化。
二、大模型推理中的MxN問題
PerfXLM向上對接各種模型網絡,向下適配各種硬件架構。這就存在著一個組合問題:假設需要支持M個模型和N種硬件,那么一共有MxN種組合方式。PerfXLM需要實現對主流模型的支持,目前主流模型大概有幾十種,國內甚至一度“千模大戰”。同時,PerfXLM也需要實現對主流硬件的支持,包括NVIDIA GPU、AMD GPU、海光DCU、沐曦GPU等通用GPU架構;X86、ARM、RISC-V等通用CPU架構;高通Adreno GPU、ARM MALI GPU等移動GPU架構;華為昇騰、寒武紀MLU、燧原等專用處理器架構等。考慮到模型和硬件的迅猛發展,這個組合數大概有上千種,這就對大模型推理框架提出了很高的兼容性要求。
面對這樣的一個復雜問題,PerfXLM提出了一套解決方案:通過統一的模型表達,實現了對不同大模型的快速支持;通過統一算子API的定義,實現了對大模型圖的快速算子構建;通過融合體系結構特征和應用特征的算子庫的構建,實現了對不同硬件的快速適配。
同時,為了便于用戶使用,PerfXLM上層采用了與vllm一致的頂層API接口。用戶只需要在導入python模塊時,簡單地將vllm修改成perfxlm就能夠將原有的代碼運行起來并且獲得更高的性能表現。具體的使用示例如下圖。
圖2. PerfXLM API接口
通過這樣的一套架構體系,PerfXLM可以快速地支持新的模型和新的硬件。以近日Meta開源的LLaMA3為例,假設算子完備的情況下,只需幾個小時的時間,就能夠將該最新模型運行在各種主流硬件設備上。
三、PerfXLM性能
云側和端側的應用場景不同:云上側重于多用戶服務,關注的是整體吞吐;端側側重于單用戶的使用體驗,關注的是在低算力硬件上的響應速度和延遲。下面講描述PerfXLM在單Batch和多Batch下的性能。
1)PerXLM在NVIDIA GPU上的性能
圖3. PerfXLM與vllm在A40上FP16的llama2性能對比
圖4. PerfXLM與vllm在4090上FP16的llama2性能對比
圖5.PerfXLM與vllm在A40上FP16的llama3性能對比
圖6.PerfXLM與vllm在4090上FP16的llama3性能對比
2)PerfXLM在海光DCU上的性能
圖7 PerfXLM與vllm在DCU Z100SM上的llama2性能對比
圖8 PerfXLM與vllm在DCU Z100SM上的llama3性能對比
3)PerfXLM在國產某GPU上的性能
圖9 PerfXLM在某國產GPU上的性能
4)PerfXLM在高通Adreno GPU上的性能
圖10 PerfXLM在高通Adreno的性能(單batch)
5)PerfXLM在Intel iGPU上的性能
圖11 PerfXLM在Intel iGPU上的性能(單batch)
未來,PerfXLM將繼續支持"更多的硬件 x更多的模型"。
-
澎峰科技
+關注
關注
0文章
70瀏覽量
3345 -
大模型
+關注
關注
2文章
3026瀏覽量
3825
原文標題:爆款·大模型推理引擎PerfXLM發布
文章出處:【微信號:perfxlab,微信公眾號:perfxlab】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
2023RISC-V中國峰會,澎峰科技成果發布搶先看!
HarmonyOS:使用MindSpore Lite引擎進行模型推理
澎峰科技受聘為“主權級大模型”創新聯合體學術委員會委員
澎峰科技受邀參加全球AI芯片峰會,探討大模型推理引擎PerfXLM面向RISC-V的移植和優化

第一屆“澎峰云?大模型AI校園應用創新賽完美結束
澎峰科技PerfXCloud平臺獲海光DCU生態兼容性認證
澎峰科技攜手湖南第一師范,開啟大模型AI學習新模式

澎峰科技DeepSeek智算一體機助力中小企業AI轉型

評論