在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

借助ExecuTorch和KleidiAI提高大語言模型推理性能

Arm社區 ? 來源:Arm社區 ? 2025-02-14 14:17 ? 次閱讀

作者:Arm 工程部首席軟件工程師 Gian Marco Iodice 及 Meta 公司 Digant Desai

全球有 2,000 多萬開發者基于 Arm 架構進行開發,而 Arm 也持續致力于賦能全球開發者先進的人工智能 (AI) 計算能力。而要實現這一目標,就需要在龐大的軟硬件合作伙伴生態系統中開展關鍵的軟件協作。

去年,Arm 推出了包含一系列開發者支持技術和資源的 Arm Kleidi,旨在推動整個機器學習軟件棧的技術協作和創新。其中包括提供優化軟件例程的 Arm KleidiAI 軟件庫,當將 KleidiAI 集成到如 XNNPACK 等關鍵框架中時,能夠幫助基于 Arm Cortex-A CPU 的開發者自動實現 AI 加速。而通過 XNNPACK 將 KleidiAI 集成到 ExecuTorch 中,可提升 Arm CPU 在移動端的 AI 工作負載性能。

得益于 Arm 和 Meta 工程團隊的協作,AI 開發者可在具有 i8mm ISA 擴展的基于 Armv9 架構的 Arm Cortex-A CPU 上部署 Llama 量化模型,運行速度至高可提升 20%。與此同時,ExecuTorch 團隊也已正式上線了測試 (Beta) 版本。

這標志著雙方合作中的一個重要里程碑。在本文中,我們將分享更多細節,包括 ExecuTorch 功能、Meta Llama 3.2 模型、按塊 (per-block) 的 4 位整數量化,以及在 Arm CPU 上展現出的出色性能。我們在三星 S24+ 設備上運行 Llama 3.2 1B 量化模型,在預填充階段實現了每秒超過 350 個詞元 (token) 的速度,如以下圖所示。

c08176a0-ea89-11ef-9310-92fbcf53809c.png

接下來,一起深入了解實現上圖所示演示所需的關鍵組件。

Meta Llama 3.2

Meta 發布的首款輕量級 Llama 量化模型能夠在主流的移動設備上運行。Meta 對 Llama 3.2 1B 和 3B 模型采用了兩種量化技術:帶有 LoRA 適配器的量化感知訓練 (QAT) QLoRA 和先進的訓練后量化方法 SpinQuant。這些量化模型在使用 PyTorch 的 ExecuTorch 框架作為推理引擎,并使用 Arm CPU 作為后端的情況下進行評估。這些經過指令調整的模型保留了原始 1B 和 3B 模型的質量和安全性,同時與原始 BF16 格式相比,實現了二至四倍的加速,模型大小平均減少了 56%,內存占用平均減少了 41%。

ExecuTorch

ExecuTorch 是一種用于在端側部署 AI 模型的 PyTorch 原生框架,旨在增強隱私性并減少延遲。它支持部署前沿的開源 AI 模型,包括 Llama 模型系列及視覺和語音模型(如 Segment Anything 和 Seamless)。

這為廣泛的邊緣側設備開辟了新的可能性,例如手機、智能眼鏡、VR 頭顯和智能家居攝像頭等。傳統上,在資源有限的邊緣側設備上部署 PyTorch 訓練的 AI 模型是一項具有挑戰性且耗時的工作,通常需要轉換為其他格式,過程中可能會出現錯誤和性能不理想的情況。此外,硬件和邊緣側生態系統中的不同工具鏈也影響了開發者體驗,使開發通用解決方案變得不切實際。

為解決這些問題,ExecuTorch 提供了多個可組合的組件,包括核心運行時、算子庫和代理 (delegation) 接口,支持可移植性和可擴展性。模型可以使用 torch.export() 導出,生成與 ExecuTorch 運行時原生兼容的圖表,能夠在大多數搭載 CPU 的邊緣側設備上運行,并可擴展到 GPU 和 NPU 等專用硬件以增強性能。

通過與 Arm 合作,ExecuTorch 現可利用 KleidiAI 庫中經過優化的低比特矩陣乘法內核,通過 XNNPACK 提高端側大語言模型 (LLM) 的推理性能。

為 AI 工作負載提升架構

深度學習浪潮興起以來,Arm 一直致力于投資開源項目并推進新的處理器技術,專注于提高 AI 工作負載的性能和能效。

例如,Arm 從 Armv8.2-A 架構開始引入 SDOT 指令,以加速 8 位整數向量之間的點積運算。目前移動設備上已廣泛具備此特性,顯著加快了 8 位量化模型的計算速度。繼 SDOT 指令之后,Arm 引入了 BF16 數據類型和 MMLA 指令,進一步提升 CPU 的浮點和整數矩陣乘法性能,后來又宣布推出了可伸縮矩陣擴展 (SME),標志著機器學習能力的重大飛躍。

下圖展示了過去十年中 Arm CPU 在 AI 領域持續創新的部分示例:

c0a41a34-ea89-11ef-9310-92fbcf53809c.png

鑒于 Arm CPU 的廣泛應用,AI 框架需要在關鍵算子中充分利用這些技術,以大幅提高性能。認識到這一點后,我們需要一個開源庫來共享這些經過優化的軟件例程。然而,我們也注意到將新庫集成到 AI 框架中存在挑戰,例如對庫的大小、依賴項和文檔的擔憂,而且需要避免給開發者增加額外的負擔。因此,我們努力收集合作伙伴的反饋意見,并確保集成過程順利進行,并且不需要 AI 開發者使用額外的依賴項。這項工作促成了 KleidiAI 的誕生,這是一個開源庫,為針對 Arm CPU 量身定制的 AI 工作負載提供了經過優化的性能關鍵例程。

Arm 與 Meta 的 ExecuTorch 團隊合作,為創新的 4 位按塊量化方案提供了軟件優化,用于加速 Llama 3.2 量化模型的 Transformer 層的 torch.nn.linear 算子中的矩陣乘法內核。ExecuTorch 靈活的 4 位量化方案在針對端側 LLM 的模型準確性和低比特矩陣乘法性能之間取得了平衡。

按塊的 4 位整數量化

在 KleidiAI 中,我們引入了針對這種新的 4 位整數量化方案進行優化的微內核

(matmul_clamp_f32_qai8dxp_qsi4c32p

如下圖所示,對權重參數(RHS 矩陣)采用這種 4 位按塊量化策略,并對激活參數(LHS 矩陣)采用 8 位按行量化:

c0bc5de2-ea89-11ef-9310-92fbcf53809c.png

如上圖所示,權重矩陣中的每個輸出特征圖 (OFM) 被劃分為大小相等的塊(組大?。?,每個塊都有一個以 BF16 格式存儲的比例因子。BF16 的優勢在于它以一半的比特數維持了 32 位浮點 (FP32) 格式的動態范圍,并且可以使用簡單的移位運算輕松地與 FP32 進行轉換。因而,BF16 非常適合用于節省模型空間、保持準確性,以及確保向后兼容缺少 BF16 硬件加速的設備。

為保證完整性,這個 4 位量化方案和我們在 KleidiAI 中的實現允許用戶配置線性權重 (RHS) 的組大??;如果模型由用戶進行量化,則允許用戶在模型大小、模型準確性和模型性能之間進行權衡。

至此,我們已準備好來展示使用 ExecuTorch 在 Arm CPU 上運行 Llama 3.2 1B 和 Llama 3.2 3B。下面,先來介紹一下用于評估 LLM 推理性能的幾個指標。

LLM 推理指標

通常,用于評估 LLM 推理性能的指標包括:

首詞元延遲 (TTFT):該指標測量的是用戶提供提示詞后生成第一個輸出詞元所花費的時間。這方面的延遲或響應時間對于良好的用戶體驗至關重要,尤其是在手機上。TTFT 也是提示詞或提示詞詞元長度的函數。為了使該指標不受提示詞長度的影響,我們在此使用“每秒預填充詞元數”作為替代指標。它們之間呈反比關系:TTFT 越低,每秒預填充詞元數就越高。

解碼性能:該指標是指每秒生成的平均輸出詞元數,因此以“詞元/秒”為單位進行報告。它與生成的詞元總數無關。對于端側推理,重要的是使該指標高于用戶的平均閱讀速度。

峰值運行時內存:該指標反映了運行模型時要達到預期性能(使用上述指標來衡量)所需的 RAM 大小。這是端側 LLM 部署的關鍵指標之一,決定了可在設備上部署的模型類型。

結 果

Llama 3.2 1B 量化模型(SpinQuant 和 QLoRA)專為在各種 RAM 有限的手機上高效運行而設計。

我們展示的測量數據基于運行原生態安卓系統的三星 S24+ 手機。我們使用 Llama 3.2 1B 參數模型進行實驗。雖然我們的演示僅使用了 1B 模型,但預計 3B 參數模型也會有類似的性能提升。實驗設置包括進行一次預熱運行,序列長度為 128,提示詞長度為 64,使用八個可用 CPU 中的六個,并通過 adb 測量結果。

我們使用來自 GitHub 的 ExecuTorch 主分支,首先用已發布的檢查點為每個模型生成 ExecuTorch PTE 二進制文件。然后,我們使用相同的代碼倉庫,為 Armv8 生成了 ExecuTorch 運行時二進制文件。我們將使用 KleidiAI 構建的二進制文件,比較不同的 1B 量化模型與 BF16 模型的性能。我們還將比較帶有 KleidiAI 的二進制文件和不帶有 KleidiAI 的二進制文件運行量化模型的性能提升幅度,以分析 KleidiAI 產生的影響。

我們的演示結果顯示,Llama 3.2 1B 量化模型在預填充階段每秒可生成超過 350 個詞元,在解碼階段每秒可生成超過 40 個詞元。這種級別的性能足以僅使用 Arm CPU,就可在端側實現文本摘要功能,并提供良好的用戶體驗。為便于理解,可以參考的是,平均 50 條未讀消息包含約 600 個詞元。憑借這樣的性能,響應時間(即生成的第一個單詞出現在屏幕上所需的時間)約為兩秒。

量化模型性能

與基線 BF16 模型相比,Llama 3.2 量化模型 SpinQuant 和 QLoRA 在提示詞預填充和文本生成(解碼)方面的性能顯著提升。我們觀察到,解碼性能提高了二倍以上,預填充性能提高了五倍以上。

c10d4838-ea89-11ef-9310-92fbcf53809c.png

此外,量化模型的大小(以字節為單位的 PTE 文件大小)不到 BF16 模型的一半,前者為 1.1 GiB,后者為 2.3 GiB。雖然 INT4 的大小是 BF16 的四分之一,但是模型中的某些層是用 INT8 量化的,使得 PTE 文件大小比例增大。我們觀察到,在最大序列長度為 2,048 時,在常駐內存集合大小 (RSS) 中測量,與 BF16 模型的 3.1 GiB 相比,SpinQuant 模型的運行時峰值內存占用減少近 40%,為 1.9 GiB。

通過全方位的提升,Llama 3.2 量化模型非常適合在 Arm CPU 上進行端側部署。

KleidiAI 的影響

ExecuTorch 借助 KleidiAI 庫,為具有先進 Armv8/Armv9 ISA 特性的新 Arm CPU 提供低比特高性能矩陣乘法內核。這些內核用于 ExecuTorch 中的端側 Llama 3.2 量化模型推理。

為了評估 Kleidi 產生的影響,我們生成了兩個針對 Cortex-A CPU 的 ExecuTorch 運行時二進制文件,并比較了它們的性能。第一個 ExecuTorch 運行時二進制文件通過 XNNPACK 庫使用 KleidiAI 庫構建。第二個二進制文件是在不使用 KleidiAI 庫的情況下構建的,使用的是 XNNPACK 庫中的原生內核。

如下圖所示,與非 KleidiAI 內核相比,ExecuTorch 在 S24+ 上使用 KleidiAI 后,預填充性能平均提升了 20% 以上,同時保持相同的準確度。這種性能優勢并不局限于特定的模型或設備,預計所有在 Arm CPU 上使用低比特量化矩陣乘法的 ExecuTorch 模型都將從中受益。

c124e470-ea89-11ef-9310-92fbcf53809c.png

快來動手嘗試吧!

準備好親身體驗性能改進了嗎?在你的項目中試用 ExecuTorch 和 KleidiAI 提供的優化!訪問Arm Learning Paths,了解如何通過 ExecuTorch 和 KleidiAI 開發使用 LLM 的應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9184

    瀏覽量

    369667
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10921

    瀏覽量

    213237
  • 模型
    +關注

    關注

    1

    文章

    3372

    瀏覽量

    49298
  • 工作負載
    +關注

    關注

    0

    文章

    10

    瀏覽量

    1971

原文標題:使用 ExecuTorch 和 KleidiAI 運行大語言模型推理,充分釋放移動端 AI 潛力

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

    Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規模部署的英特爾? FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI) 推理性能
    的頭像 發表于 05-16 17:25 ?6440次閱讀

    NVIDIA擴大AI推理性能領先優勢,首次在Arm服務器上取得佳績

    最新MLPerf基準測試表明,NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。
    發表于 09-23 14:18 ?2650次閱讀
    NVIDIA擴大AI<b class='flag-5'>推理性能</b>領先優勢,首次在Arm服務器上取得佳績

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優勢,實現了比CPU快237倍的AI推理性能,助力企業將AI研究轉化為生產力。
    發表于 10-22 14:07 ?833次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    ,它通過抽象思考和邏輯推理,協助我們應對復雜的決策。 相應地,我們設計了兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務,類似于人類的系統1,如情感分析和抽取式問答
    發表于 05-07 17:21

    求助,為什么將不同的權重應用于模型會影響推理性能?

    生成兩個 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運行 更多樣化的權重是否會影響 Myriad X 上的推理性能?
    發表于 08-15 07:00

    如何提高YOLOv4模型推理性能?

    使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。 將 權重轉換為 ONNX 文件,然后轉換為中間表示 (IR)。 無法確定如何獲得更好的推理性能
    發表于 08-15 06:58

    貝葉斯IP網絡擁塞鏈路推理

    針對CLINK算法在路由改變時擁塞鏈路推理性能下降的問題,建立一種變結構離散動態貝葉斯網模型,通過引入馬爾可夫性及時齊性假設簡化該模型,并基于簡化模型提出一種IP網絡擁塞鏈路
    發表于 01-16 18:46 ?0次下載

    英特爾FPGA為人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規模部署的英特爾 FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI) 推理性能。 “作為一家整體技術提供商,我們通過與 Microsoft 密切
    發表于 05-20 00:10 ?3097次閱讀

    最新MLPerf v3.1測試結果認證,Gaudi2在GPT-J模型推理性能驚人

    英特爾產品在全新MLCommons AI推理性能測試中盡顯優勢 今日,MLCommons公布針對 60 億參數大語言模型及計算機視覺與自然語言處理
    的頭像 發表于 09-12 17:54 ?495次閱讀
    最新MLPerf v3.1測試結果認證,Gaudi2在GPT-J<b class='flag-5'>模型</b>上<b class='flag-5'>推理性能</b>驚人

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件
    的頭像 發表于 10-23 16:10 ?734次閱讀

    用上這個工具包,大模型推理性能加速達40倍

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU上實現出色的LLM推理性能。 英特爾 ?Extension for Transformer 創新
    的頭像 發表于 12-01 20:40 ?1279次閱讀
    用上這個工具包,大<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b>加速達40倍

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型
    的頭像 發表于 08-23 15:48 ?546次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能
    的頭像 發表于 09-06 15:33 ?445次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    Arm成功將Arm KleidiAI軟件庫集成到騰訊自研的Angel 機器學習框架

    KleidiAI 技術融入騰訊混元自研的 Angel 機器學習框架。這一合作旨在提高移動端人工智能 (AI) 服務的推理性能和效率,為用戶提供卓越
    的頭像 發表于 11-24 15:33 ?792次閱讀

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?241次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺<b class='flag-5'>提高</b>AI<b class='flag-5'>推理性能</b>
    主站蜘蛛池模板: 欧美最猛黑人xxxx黑人猛交黄 | 久久xxx| 最近2018年中文字幕免费图片 | 激情六月婷婷开心丁香开心 | 亚洲三级小视频 | 88av视频在线 | 爱爱免费 | 韩国三级中文 | 亚洲经典一区二区三区 | 欧美一级在线观看视频 | 国产亚洲一区二区在线观看 | 男女午夜免费视频 | 国产精品爽爽影院在线 | 欧美疯狂爱爱xxxxbbbb | 亚洲国产成人久久一区久久 | 色一乱一伦一区一直爽 | 二级黄绝大片中国免费视频 | aa在线视频 | 亚洲一区二区三区网站 | 免费 视频 1级 | 在线播放真实国产乱子伦 | 亚洲国产成人久久 | 伊人精品成人久久综合欧美 | 丁香综合五月 | 毛片小视频 | 老色视频| 成年片色大黄全免费 | 国产又大又黄又粗又爽 | 999毛片| 免费观看黄视频网站 | 久久精品国产精品亚洲人人 | 黑人黄色片| 四虎亚洲国产成人久久精品 | 69国产成人综合久久精品 | 国产四虎 | 日韩精品一区二区三区毛片 | 2021最新国产成人精品视频 | 天堂网资源 | 香蕉视频黄色在线观看 | 免费一级特黄特色大片在线观看看 | 午夜免费伦费影视在线观看 |