在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm+AWS實現AI定義汽車 基于Arm KleidiAI優化并由AWS提供支持

Arm社區 ? 來源:Arm ? 2025-04-03 19:24 ? 次閱讀

作者:Arm 工程部首席軟件工程師 Gian Marco Iodice,以及亞馬遜科技 (AWS) Srini Raghavan 和Stefano Marzani

隨著人工智能 (AI) ,尤其是生成式 AI 的引入,汽車行業正迎來變革性轉變。麥肯錫最近對汽車和制造業高管開展的一項調查[1]表明,超過 40% 的受訪者對生成式 AI 研發的投資額高達 500 萬歐元,超過 10% 受訪者的投資額超過 2,000 萬歐元。

隨著行業向軟件定義汽車 (SDV) 不斷發展,到 2030 年,汽車中的代碼行數預計將從每輛車 1 億行增加至約 3 億行。面向汽車的生成式 AI 與 SDV 相結合,可共同實現性能和舒適性方面的車載用例,以幫助提升駕乘體驗。

本文將介紹一項由 Arm 與亞馬遜云科技 (AWS) 合作開發的車載生成式 AI 用例及其實現詳情。

用例介紹

隨著汽車愈發精密,車主已經能在交車后持續接收諸如停車輔助或車道保持等功能更新,伴隨而來的挑戰是,如何讓車主及時了解新增的更新和新功能?過往通過紙質或在線手冊等傳統方法的更新方式已證明存在不足,導致車主無法充分了解汽車的潛能。

為了應對這一挑戰,AWS 將生成式 AI、邊緣計算和物聯網 (IoT) 的強大功能相結合,開發了一項車載生成式 AI 的演示。這項演示所展現的解決方案是由小語言模型 (SLM) 所支持的車載應用,旨在使駕駛員能夠通過自然語音交互獲取最新的車輛信息。該演示應用能夠在部署后離線運行,確保駕駛員在沒有互聯網連接的情況下,也能訪問有關車輛的重要信息。

該解決方案集成了多項先進技術,為用戶打造出更無縫、更高效的產品體驗。這項演示的應用部署在車內本地的小語言模型,該模型利用經 Arm KleidiAI 優化的例程對性能進行提升。未經 KleidiAI 優化的系統的響應時間為 8 至 19 秒左右,相比之下,經 KleidiAI 優化的小語言模型的推理響應時間為 1 至 3 秒。通過使用 KleidiAI,應用開發時間縮短了 6 周,而且開發者在開發期間無需關注底層軟件的優化。

Arm 虛擬硬件 (Arm Virtual Hardware) 支持訪問許多 AWS 上的熱門物聯網開發套件。當物理設備不可用,或者全球各地的團隊無法訪問物理設備時,在 Arm 虛擬硬件上進行開發和測試可節省嵌入式應用的開發時間。AWS 在汽車虛擬平臺上成功測試了該演示應用,在演示中,Arm 虛擬硬件提供了樹莓派設備的虛擬實例。同樣的 KleidiAI 優化也可用于 Arm 虛擬硬件。

這個在邊緣側設備上運行的生成式 AI 應用所具備的關鍵特性之一是,它能夠接收 OTA 無線更新,其中部分更新使用 AWS IoT Greengrass Lite 接收,從而確保始終向駕駛員提供最新信息。AWS IoT Greengrass Lite 在邊緣側設備上僅占用 5 MB 的 RAM,因此具有很高的內存效率。此外,該解決方案包含自動質量監控和反饋循環,用于持續評估小語言模型響應的相關性和準確性。其中采用了一個比較系統,對超出預期質量閾值的響應進行標記,以進行審核。然后,通過 AWS 上的儀表板,以近乎實時的速度對收集到的反饋數據進行可視化,使整車廠的質保團隊能夠審核和確定需要改進的方面,并根據需要發起更新。

這個由生成式 AI 提供支持的解決方案,所具備的優勢不僅僅在于為駕駛員提供準確的信息。它還體現了 SDV 生命周期管理的范式轉變,實現了更持續的改進周期,整車廠可以根據用戶交互來添加新內容,而小語言模型可以使用通過無線網絡無縫部署的更新信息進行微調。這樣一來,通過保證最新的車輛信息,用戶體驗得以提升,此外整車廠也有機會向用戶介紹和指導新特性或可購買的附加功能。通過利用生成式 AI、物聯網和邊緣計算的強大功能,這個生成式 AI 應用可以起到汽車用戶向導的作用,其中展示的方法有助于在 SDV 時代實現更具連接性、信息化和適應性的駕駛體驗。

端到端的上層實現方案

下圖所示的解決方案架構用于對模型進行微調、在 Arm 虛擬硬件上測試模型,以及將小語言模型部署到邊緣側設備,并且其中包含反饋收集機制。

0b54bde8-1070-11f0-9310-92fbcf53809c.png

圖:基于生成式 AI 的汽車用戶向導的解決方案架構圖

上圖中的編號對應以下內容:

1.

模型微調:AWS 演示應用開發團隊選擇 TinyLlama-1.1B-Chat-v1.0 作為其基礎模型,該模型已針對會話任務進行了預訓練。為了優化駕駛員的汽車用戶向導聊天界面,團隊設計了言簡意賅、重點突出的回復,以便適應駕駛員在行車時僅可騰出有限注意力的情況。團隊創建了一個包含 1,000 組問答的自定義數據集,并使用 Amazon SageMaker Studio 進行了微調。

2.

存儲:經過調優的小語言模型存儲在 Amazon Simple Storage Service (Amazon S3) 中。

3.

初始部署:小語言模型最初部署到基于 Ubuntu 的 Amazon EC2 實例。

4.

開發和優化:團隊在 EC2 實例上開發并測試了生成式 AI 應用,使用 llama.cpp 進行小語言模型量化,并應用了 Q4_0 方案。KleidiAI 優化預先集成了 llama.cpp。與此同時,模型還實現了大幅壓縮,將文件大小從 3.8 GB 減少至 607 MB。

5.

虛擬測試:將應用和小語言模型傳輸到 Arm 虛擬硬件的虛擬樹莓派環境進行初始測試。

6.

虛擬驗證:在虛擬樹莓派設備中進行全面測試,以確保功能正常。

7.

邊緣側部署:通過使用 AWS IoT Greengrass Lite,將生成式 AI 應用和小語言模型部署到物理樹莓派設備,并利用 AWS IoT Core 作業進行部署管理。

8.

部署編排:AWS IoT Core 負責管理部署到邊緣側樹莓派設備的任務。

9.

安裝過程:AWS IoT Greengrass Lite 處理從 Amazon S3 下載的軟件包,并自動完成安裝。

10.

用戶界面:已部署的應用在邊緣側樹莓派設備上為最終用戶提供基于語音的交互功能。

11.

質量監控:生成式 AI 應用實現對用戶交互的質量監控。數據通過 AWS IoT Core 收集,并通過 Amazon Kinesis Data Streams 和 Amazon Data Firehose 處理,然后存儲到 Amazon S3。整車廠可通過 Amazon QuickSight 儀表板來監控和分析數據,及時發現并解決任何小語言模型質量問題。

接下來將深入探討 KleidiAI 及該演示采用的量化方案。

Arm KleidiAI

Arm KleidiAI 是專為 AI 框架開發者設計的開源庫。它為 Arm CPU 提供經過優化的性能關鍵例程。該開源庫最初于 2024 年 5 月推出,現在可為各種數據類型的矩陣乘法提供優化,包括 32 位浮點、Bfloat16 和 4 位定點等超低精度格式。這些優化支持多項 Arm CPU 技術,比如用于 8 位計算的 SDOT 和 i8mm,以及用于 32 位浮點運算的 MLA。

憑借四個 Arm Cortex-A76 核心,樹莓派 5 演示使用了 KleidiAI 的 SDOT 優化,SDOT 是最早為基于 Arm CPU 的 AI 工作負載設計的指令之一,它在 2016 年發布的 Armv8.2-A 中推出。

SDOT 指令也顯示了 Arm 持續致力于提高 CPU 上的 AI 性能。繼 SDOT 之后,Arm 針對 CPU 上運行 AI 逐步推出了新指令,比如用于更高效 8 位矩陣乘法的 i8mm 和 Bfloat16 支持,以期提高 32 位浮點性能,同時減半內存使用。

對于使用樹莓派 5 進行的演示,通過按塊量化方案,利用整數 4 位量化(也稱為 llama.cpp 中的 Q4_0)來加速矩陣乘法,KleidiAI 扮演關鍵作用。

llama.cpp 中的 Q4_0 量化格式

llama.cpp 中的 Q4_0 矩陣乘法包含以下組成部分:

左側 (LHS) 矩陣,以 32 位浮點值的形式存儲激活內容。

右側 (RHS) 矩陣,包含 4 位定點格式的權重。在該格式中,量化尺度應用于由 32 個連續整數 4 位值構成的數據塊,并使用 16 位浮點值進行編碼。

因此,當提到 4 位整數矩陣乘法時,它特指用于權重的格式,如下圖所示:

0b611660-1070-11f0-9310-92fbcf53809c.png

在這個階段,LHS 和 RHS 矩陣均不是 8 位格式,KleidiAI 如何利用專為 8 位整數點積設計的 SDOT 指令?這兩個輸入矩陣都必須轉換為 8 位整數值。

對于 LHS 矩陣,在矩陣乘法例程之前,還需要一個額外的步驟:動態量化為 8 位定點格式。該過程使用按塊量化方案將 LHS 矩陣動態量化為 8 位,其中,量化尺度應用于由 32 個連續 8 位整數值構成的數據塊,并以 16 位浮點值的形式存儲,這與 4 位量化方法類似。

動態量化可最大限度降低準確性下降的風險,因為量化尺度因子是在推理時根據每個數據塊中的最小值和最大值計算得出的。與該方法形成對比的是,靜態量化的尺度因子是預先確定的,保持不變。

對于 RHS 矩陣,在矩陣乘法例程之前,無需額外步驟。事實上,4 位量化充當壓縮格式,而實際計算是以 8 位進行的。因此,在將 4 位值傳遞給點積指令之前,首先將其轉換為 8 位。從 4 位轉換為 8 位的計算成本并不高,因為只需進行簡單的移位/掩碼運算即可。

既然轉換效率如此高,為什么不直接使用 8 位,省去轉換的麻煩?

使用 4 位量化有兩個關鍵優勢:

縮小模型尺寸:由于 4 位值所需的內存只有 8 位值的一半,因此這對可用 RAM 有限的平臺尤其有益。

提升文本生成性能:文本生成過程依賴于一系列矩陣向量運算,這些運算通常受內存限制。也就是說,性能受限于內存和處理器之間的數據傳輸速度,而不是處理器的計算能力。由于內存帶寬是一個限制因素,縮小數據大小可最大限度減少內存流量,從而顯著提高性能。

如何結合使用 KleidiAI 與 llama.cpp?

非常簡單,KleidiAI 已集成到 llama.cpp 中。因此,開發者不需要額外的依賴項就能充分發揮 Armv8.2 及更新架構版本的 Arm CPU 性能。

兩者的集成意味著,在移動設備、嵌入式計算平臺和基于 Arm 架構處理器的服務器上運行 llama.cpp 的開發者,現在可以體驗到更好的性能。

除了 llama.cpp,還有其他選擇嗎?

對于在 Arm CPU 上運行大語言模型,雖然 llama.cpp 是一個很好的選擇,但開發者也可以使用其他采用了 KleidiAI 優化的高性能生成式 AI 框架。例如(按首字母順序排列):ExecuTorch、MediaPipe、MNN和 PyTorch。只需選擇最新版本的框架即可。

因此,如果你正考慮在 Arm CPU 上部署生成式 AI 模型,探索以上框架有助于實現性能和效率的優化。

總結

SDV 和生成式 AI 的融合,正在共同開創一個新的汽車創新時代,使得未來的汽車變得更加智能化,更加以用戶為中心。文中介紹的車載生成式 AI 應用演示由 Arm KleidiAI 進行優化并由 AWS 所提供的服務進行支持,展示了新興技術如何幫助解決汽車行業的實際挑戰。該解決方案可實現 1 至 3 秒的響應時間并將開發時間縮短數周,證明更高效且離線可用的生成式 AI 應用不僅能夠實現,而且非常適合車載部署。

汽車技術的未來在于打造無縫融合邊緣計算、物聯網功能和 AI 的解決方案。隨著汽車不斷演變且軟件越來越復雜,潛在解決方案(比如本文介紹的解決方案)將成為彌合先進汽車功能與用戶理解間差距的關鍵。

* Arm 原創文章

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9242

    瀏覽量

    372191
  • AI
    AI
    +關注

    關注

    87

    文章

    33025

    瀏覽量

    272825
  • AWS
    AWS
    +關注

    關注

    0

    文章

    435

    瀏覽量

    24797

原文標題:Arm 攜手 AWS 助力實現 AI 定義汽車

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于Qualcomm QCA4020配置AWS服務(一)

    使用AWS IoT SDK構建亞馬遜網絡服務物聯網提供安全的雙向通信互聯網連接的東西(如傳感器,執行器,嵌入式設備或智能家電)和AWS云。與云的連接是通過安全TLS上的MQTT協議實現
    發表于 09-27 11:56

    如何安裝和升級了AWS CLI

    我在下面的項目WCM AWS IOT-SDK AthTPS://GITHUBCOM/MICHCHIPTIC/WCM-AWS IOT-SDK。基于和聲版本1-06的代碼,我根據指令成功地安裝和升級了
    發表于 04-29 07:57

    ARM Neoverse IP的AWS實例上etcd分布式鍵對值存儲性能提升

    1、基于ARM Neoverse IP的AWS實例上etcd性能提升etcd是一個分布式鍵值對存儲,設計用來可靠而快速的保存關鍵數據并提供給分布式系統訪問,尤其被當前最流行的容器編排
    發表于 07-06 17:37

    Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

    2.10 版開始),AWSArm、Linaro 和 Google 正在共同努力,通過為 Arm 提供 TensorFlow 包。x86 上的 TensorFlow 軟件堆棧對于 x
    發表于 08-31 15:03

    AWS云中使用Arm處理器設計Arm處理器

    1、在AWS云中使用Arm處理器設計Arm處理器  Amazon Web Services (AWS) 宣布推出基于 Arm 的全新
    發表于 09-02 15:55

    討論使用Terraform在AWS上部署Arm EC2實例

    。在我們的例子中,提供者設置為AWS。此塊中可以使用許多參數,但唯一需要的參數是 AWS region。在我們的配置文件中,我們將其設置為 us-east-2。資源塊第三塊描述資源。在這里,我們
    發表于 09-16 14:53

    亞馬遜AWS面向云服務開發全新ARM處理器 最多可達32核心

    多年來,ARM架構一直希望沖出移動領域,進入桌面乃至是服務器市場,也有不少廠商先后推出了各種設計。現在,亞馬遜AWS正在面向云服務開發全新的ARM處理器。
    發表于 12-04 13:49 ?1308次閱讀

    Arm將利用AWS為其云計算使用

    近日,AWS宣布,Arm將利用AWS為其云計算使用,包括絕大部分電子設計自動化(EDA)工作負載。Arm正在利用基于AWS Graviton
    的頭像 發表于 12-11 09:38 ?1897次閱讀

    AWS Arm 架構處理器首次落地中國區域:比同配置 X86 實例性價比提高 40%

    1 月 28 日消息,亞馬遜云服務(AWS)正式宣布,由 AWS Graviton2 處理器提供支持的 Amazon Elastic Compute Cloud (Amazon EC2
    的頭像 發表于 01-28 16:22 ?2593次閱讀

    專用處理能力驅動基于Arm架構的云計算時代并支持AWS Graviton不斷創新

    AWS也同時展示了基于Graviton3處理器的C7g云實例,現已開放預覽。C7g是由Arm? Neoverse?驅動、首個支持DDR5的云實例,可提供更多的內存帶寬,帶來更高的性能。
    發表于 12-06 16:25 ?1102次閱讀
    專用處理能力驅動基于<b class='flag-5'>Arm</b>架構的云計算時代并<b class='flag-5'>支持</b><b class='flag-5'>AWS</b> Graviton不斷創新

    AWS提供支持的餐廳等待計時器

    電子發燒友網站提供《由AWS提供支持的餐廳等待計時器.zip》資料免費下載
    發表于 10-20 14:20 ?0次下載
    由<b class='flag-5'>AWS</b><b class='flag-5'>提供</b><b class='flag-5'>支持</b>的餐廳等待計時器

    AWS的使命——劍指x86,扶Arm上位

    AWS是少數幾個敢于挑戰英特爾王座的廠商之一,并且帶來了強大的沖擊。2015年初,AWS收購了一家名為Annapurna Labs的半導體公司,投資約3.7億美元。這家以色列初創公司曾是Arm的授權廠商。
    的頭像 發表于 06-09 17:33 ?1062次閱讀
    <b class='flag-5'>AWS</b>的使命——劍指x86,扶<b class='flag-5'>Arm</b>上位

    西門子攜手ArmAWS提供PAVE360數字孿生解決方案

    西門子數字化工業軟件攜手ArmAWS,在AWS云服務中提供PAVE360數字孿生解決方案,利用云端汽車仿真幫助下一代軟件
    的頭像 發表于 11-28 11:09 ?1602次閱讀

    Arm成功將Arm KleidiAI軟件庫集成到騰訊自研的Angel 機器學習框架

    Arm 與騰訊攜手合作,成功將 Arm KleidiAI 軟件庫集成到騰訊自研的 Angel 機器學習框架。 ? 借助 KleidiAI 解鎖卓越性能、能效和可移植性,騰訊混元大模型能
    的頭像 發表于 11-24 15:33 ?962次閱讀

    ArmAWS合作深化,AWS Graviton4展現顯著進展

    :Invent 2024大會上,AWS進一步展示了其基于Arm架構的AWS Graviton4處理器的顯著進展。AWS Graviton4作為AWS
    的頭像 發表于 12-18 14:17 ?396次閱讀
    主站蜘蛛池模板: 亚洲五月激情 | 伊人91在线 | 视频在线观看高清免费看 | 色六月婷婷 | 免费午夜影片在线观看影院 | 亚洲欧美人成网站综合在线 | 日韩三| 奇米网狠狠干 | 开心色99xxxx开心色 | 亚洲 另类色区 欧美日韩 | 日本三级香港三级人妇 m | 伊人久久大香线蕉综合7 | 女人张腿让男桶免费视频观看 | 色噜噜狠狠成人中文小说 | 亚洲狠狠狠一区二区三区 | 精品欧美小视频在线观看 | 国产精品主播在线 | 亚洲福利一区二区 | 免费又爽又黄禁片视频在线播放 | 男人的午夜 | 久久人人爽爽爽人久久久 | free性欧美video | 日本一区二区高清免费不卡 | 久久久伊香蕉网站 | 一级毛片aaaaaa视频免费看 | 伊人久久大香线蕉综合亚洲 | 婷婷香蕉| 午夜免费一级片 | 免费你懂的 | 亚洲视频免费一区 | 五月婷婷六月综合 | 亚洲一区二区三区麻豆 | 亚洲伊人色一综合网 | 久久网站免费 | 欧美成人午夜不卡在线视频 | 日韩在线视频一区二区三区 | 久久久久琪琪免费影院 | 中国成人在线视频 | 午夜高清视频在线观看 | 亚洲综合香蕉 | 色综合天天|