耳根,豆豆小说阅读网,盗墓笔记txt全集下载

自ChatGPT問世以來，大模型遍地開花，承載大模型應用的高性能推理框架也不斷推出，大有百家爭鳴之勢。在這種情況下，澎峰科技作為全球領先的智能計算服務提供商，在2023年11月25日發布了針對大語言模型的高性能推理框架，并受到廣泛關注。在歷經數月的迭代開發后，澎峰科技重磅發布升級版本，推出全新的高性能大模型推理引擎：PerfXLM。

PerfXLM采用了云端一體架構，支持云端推理和本地推理兩種模式。在硬件支持上，PerfXLM適配了包含多種國產處理器在內的不同硬件，并針對硬件體系結構特征進行了深入性能優化，大幅提升了大模型推理性能。

一、PerfXLM整體架構

圖1.PerfXLM整體架構

如圖1所示，PerfXLM整體架構分為三層：

1.模型轉換層。將Torch或者Huggingface格式的大模型轉化為統一的內部模型結構，并最終統一表達為ONNX圖。

2.推理引擎層。實現了ONNX圖解析、算子調度、統一內存管理等功能，大幅提升硬件資源利用率；同時，也提供了針對云端推理的專用Serving模塊，以獲得更高的硬件利用率和QPS響應。

3.性能層。提供了針對大模型推理的高性能算子庫，并針對各種主流硬件進行了適配和優化。

PerfXLM具有的三大特點：

1.云端一體，同時支持云側和端側大模型推理，能夠讓大模型適用于各種應用場景之中。

2.支持多異構平臺，支持了包括NVIDIA GPU、海光DCU、高通 Adreno GPU、Intel iGPU、某國產GPU在內的多種硬件設備

3.高性能定制優化算子，實現了結合體系結構特征和大模型推理應用特征的定制優化。

二、大模型推理中的MxN問題

PerfXLM向上對接各種模型網絡，向下適配各種硬件架構。這就存在著一個組合問題：假設需要支持M個模型和N種硬件，那么一共有MxN種組合方式。PerfXLM需要實現對主流模型的支持，目前主流模型大概有幾十種，國內甚至一度“千模大戰”。同時，PerfXLM也需要實現對主流硬件的支持，包括NVIDIA GPU、AMD GPU、海光DCU、沐曦GPU等通用GPU架構；X86、ARM、RISC-V等通用CPU架構；高通Adreno GPU、ARM MALI GPU等移動GPU架構；華為昇騰、寒武紀MLU、燧原等專用處理器架構等。考慮到模型和硬件的迅猛發展，這個組合數大概有上千種，這就對大模型推理框架提出了很高的兼容性要求。

面對這樣的一個復雜問題，PerfXLM提出了一套解決方案：通過統一的模型表達，實現了對不同大模型的快速支持；通過統一算子API的定義，實現了對大模型圖的快速算子構建；通過融合體系結構特征和應用特征的算子庫的構建，實現了對不同硬件的快速適配。

同時，為了便于用戶使用，PerfXLM上層采用了與vllm一致的頂層API接口。用戶只需要在導入python模塊時，簡單地將vllm修改成perfxlm就能夠將原有的代碼運行起來并且獲得更高的性能表現。具體的使用示例如下圖。