在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在基于Arm Neoverse平臺(tái)的Google Axion處理器上構(gòu)建RAG應(yīng)用

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2025-04-28 14:34 ? 次閱讀

作者:Arm 基礎(chǔ)設(shè)施事業(yè)部 AI 解決方案架構(gòu)師 Na Li 等

你是否好奇如何防止人工智能 (AI) 聊天機(jī)器人給出過(guò)時(shí)或不準(zhǔn)確的答案?檢索增強(qiáng)生成 (Retrieval-Augmented Generation, RAG) 技術(shù)提供了一種強(qiáng)大的解決方案,能夠顯著提升答案的準(zhǔn)確性和相關(guān)性。

本文將探討 RAG 的性能優(yōu)勢(shì),并分享如何在基于 Arm Neoverse 平臺(tái)的 Google Axion 處理器上構(gòu)建 RAG 應(yīng)用,以優(yōu)化 AI 工作負(fù)載。在本文的測(cè)試中,Google Axion 處理器相較于 x86 架構(gòu)處理器,性能提升了 2.5 倍,并節(jié)省了 64% 的成本。Google Axion 處理器通過(guò)更好的 RAG 性能加速推理過(guò)程,從而實(shí)現(xiàn)更快的知識(shí)檢索、更低的響應(yīng)延遲和更高效的 AI 推理,這對(duì)于實(shí)時(shí)、動(dòng)態(tài) AI 應(yīng)用至關(guān)重要。

了解 RAG:高效的 AI 文本生成方法

RAG 是一款主流 AI 框架,能夠?qū)崟r(shí)檢索相關(guān)外部知識(shí),從而提升大語(yǔ)言模型 (LLM) 生成文本的質(zhì)量和相關(guān)性。與僅依賴靜態(tài)預(yù)訓(xùn)練數(shù)據(jù)集的方法不同,RAG 動(dòng)態(tài)集成了最新外部資源信息,能夠生成更精確且貼近上下文的輸出結(jié)果。這使得 RAG 在實(shí)際應(yīng)用場(chǎng)景中表現(xiàn)出色,例如客服聊天機(jī)器人、智能體工具和動(dòng)態(tài)內(nèi)容生成等場(chǎng)景。

何時(shí)選擇 RAG 而非微調(diào)或重新訓(xùn)練?

基礎(chǔ) LLM 通過(guò)類似人類的文本生成功能徹底改變了 AI 領(lǐng)域,但其有效性取決于模型是否擁有企業(yè)所需的最新信息。對(duì)經(jīng)過(guò)預(yù)訓(xùn)練的 LLM 模型進(jìn)行重新訓(xùn)練和微調(diào)是集成額外知識(shí)的兩種常用方法。重新訓(xùn)練 LLM 是一個(gè)資源密集型的復(fù)雜過(guò)程;而微調(diào)則能夠使用特定數(shù)據(jù)集對(duì) LLM 進(jìn)行訓(xùn)練,調(diào)整模型的權(quán)重,以更好地完成目標(biāo)任務(wù)。不過(guò),模型仍然需要定期重新部署,以保持與時(shí)俱進(jìn)。

通常,在將 LLM 納入 AI 戰(zhàn)略時(shí),必須評(píng)估 LLM 的能力和局限性。主要考慮因素包括:

訓(xùn)練數(shù)據(jù)集的局限性:對(duì)于訓(xùn)練數(shù)據(jù)集未包含的主題,LLM 可能難以提供準(zhǔn)確或最新的信息。

資源需求高:重新訓(xùn)練這些大模型需要大量的算力和工程資源,使得頻繁更新難以實(shí)施。

對(duì)內(nèi)部知識(shí)的訪問(wèn)受到限制:由于企業(yè)的主要業(yè)務(wù)數(shù)據(jù)受到防火墻的保護(hù),因此 LLM 無(wú)法通過(guò)定期重新訓(xùn)練納入專有信息,這可能會(huì)限制 LLM 在企業(yè)內(nèi)部使用時(shí)的相關(guān)性。

RAG 的優(yōu)勢(shì)

RAG 無(wú)需修改 LLM,只需利用外部數(shù)據(jù)源更新知識(shí)庫(kù),將動(dòng)態(tài)信息檢索與語(yǔ)言模型的生成能力相結(jié)合。如果你所在的領(lǐng)域知識(shí)經(jīng)常變化,那么 RAG 是保持準(zhǔn)確性和相關(guān)性,并減少 LLM 幻覺的理想解決方案。

RAG 的實(shí)際應(yīng)用:對(duì)比分析

在以下所舉的例子中,比較了通用 LLM(左)和經(jīng)過(guò) RAG(右)增強(qiáng)的聊天機(jī)器人。左圖中,由于信息過(guò)時(shí)或缺乏特定領(lǐng)域的知識(shí),聊天機(jī)器人難以準(zhǔn)確回答用戶的詢問(wèn);而 RAG 增強(qiáng)型聊天機(jī)器人能夠從上傳的文件中檢索最新信息,提供準(zhǔn)確且相關(guān)的回復(fù)。

8f36d394-217d-11f0-9310-92fbcf53809c.jpg

圖 1:通過(guò) LLM 實(shí)現(xiàn)的聊天機(jī)器人(左)

和經(jīng)過(guò) RAG 增強(qiáng)的聊天機(jī)器人(右)

為何選擇 Axion 來(lái)實(shí)現(xiàn) RAG 解決方案

基于 Arm Neoverse 平臺(tái)的 Google Axion 處理器為運(yùn)行 LLM 的 AI 推理功能提供了理想平臺(tái),該處理器能夠以高性能和高效率支持 RAG 應(yīng)用的運(yùn)行。

優(yōu)化 AI 加速:基于 Neoverse 平臺(tái)的 CPU 具有高吞吐量向量處理和矩陣乘法功能,這對(duì)于高效處理 RAG 至關(guān)重要。

云計(jì)算的效率和可擴(kuò)展性:基于 Neoverse 平臺(tái)的 CPU 可最大限度地提高每瓦性能,在高速處理和能效之間取得平衡。因此,特別適用于需要在云端快速推理并兼顧成本效益的 RAG 應(yīng)用。基于 Neoverse 的處理器還可用于擴(kuò)展 AI 工作負(fù)載,確保無(wú)縫集成各種 RAG 用例。

面向 AI 開發(fā)者的軟件生態(tài)系統(tǒng):對(duì)于希望在基于 Arm 架構(gòu)的基礎(chǔ)設(shè)施上利用最新 AI 功能的開發(fā)者,Arm Kleidi 技術(shù)能夠顯著提升 RAG 應(yīng)用的性能和效率。Arm Kleidi 已經(jīng)集成到 PyTorch、TensorFlow 和 llama.cpp 等開源 AI 和機(jī)器學(xué)習(xí) (ML) 框架中,使開發(fā)者能夠?qū)崿F(xiàn)開箱即用的默認(rèn)推理性能,而無(wú)需使用供應(yīng)商插件或進(jìn)行復(fù)雜的優(yōu)化。

這些特性的結(jié)合帶來(lái)了顯著的性能提升,首個(gè)基于 Google Axion 的云虛擬機(jī) C4A 與 x86 同類方案相比,大幅提升了基于 CPU 的 AI 推理和通用云工作負(fù)載的性能,使 C4A 虛擬機(jī)成為在 Google Cloud 上運(yùn)行 RAG 應(yīng)用的理想選擇。

Google Axion 性能基準(zhǔn)測(cè)試

使用 RAG 系統(tǒng)進(jìn)行推理涉及兩個(gè)關(guān)鍵階段:信息檢索和生成響應(yīng)。

信息檢索:系統(tǒng)搜索向量數(shù)據(jù)庫(kù),根據(jù)用戶的查詢找到相關(guān)內(nèi)容。

生成響應(yīng):檢索到的內(nèi)容與用戶查詢相結(jié)合,生成與上下文相關(guān)的準(zhǔn)確回復(fù)。

一般來(lái)說(shuō),檢索速度取決于數(shù)據(jù)庫(kù)的大小和搜索算法的效率。在基于 Neoverse 平臺(tái)的 CPU 上運(yùn)行時(shí),經(jīng)優(yōu)化的算法可在幾毫秒內(nèi)返回結(jié)果。然后,將檢索到的信息與用戶的輸入相結(jié)合,構(gòu)建新的提示詞,并將其發(fā)送給 LLM 進(jìn)行推理和生成響應(yīng)。相較于檢索階段,生成響應(yīng)階段耗時(shí)更長(zhǎng),RAG 系統(tǒng)的整體推理延遲在很大程度上受 LLM 推理速度的影響。

本次測(cè)試使用 llama.cpp 基準(zhǔn)和 Llama 3.1 8B 模型(Q4_0 量化方案)評(píng)估了多個(gè) Google Cloud 虛擬機(jī)的 RAG 推理性能。使用 48 個(gè)線程進(jìn)行了所有測(cè)試,輸入詞元 (token) 大小為 2058,輸出詞元大小為 256。以下是測(cè)試配置:

Google Axion (C4A, Neoverse V2): 在 c4a-standard-48 實(shí)例上進(jìn)行了評(píng)估。

Intel Xeon (C4, Emerald Rapids): 在 c4-standard-48 上進(jìn)行了性能測(cè)試。

AMD EPYC (C3D, Genoa): 在啟用 48 個(gè)核心的 c3d-standard-60 上進(jìn)行了測(cè)試。

Axion 處理器實(shí)現(xiàn)更快處理與更高效率

推理性能根據(jù)提示詞處理速度和詞元生成速度來(lái)測(cè)定。圖表 1 的基準(zhǔn)測(cè)試結(jié)果表明,與當(dāng)前一代 x86 實(shí)例相比,基于 Google Axion 的 C4A 虛擬機(jī)在提示詞處理和詞元生成方面實(shí)現(xiàn)了高達(dá) 2.5 倍的性能提升。

8f3dca50-217d-11f0-9310-92fbcf53809c.jpg

圖表 1:運(yùn)行 Llama 3.1 8B/Q4 模型時(shí),提示詞處理(左)

和詞元生成(右)與當(dāng)前一代 x86 實(shí)例的性能比較

成本效益:降低 RAG 推理成本

為了評(píng)估推理任務(wù)的實(shí)例成本,還測(cè)量了從提交提示詞到生成響應(yīng)的延遲。有幾個(gè)因素會(huì)影響延遲,包括檢索速度、提示處理效率、詞元生成速率、輸入和輸出詞元大小以及用戶批處理規(guī)模。由于信息檢索延遲通常在毫秒級(jí),與其他因素相比可以忽略不計(jì),因此未納入計(jì)算。批次大小選擇為 1,以確保在單個(gè)用戶級(jí)別進(jìn)行公平的比較。為了與基準(zhǔn)測(cè)試保持一致,測(cè)試中將輸入和輸出詞元大小分別設(shè)置為 2048 和 256。首先通過(guò)提示詞編碼速度和詞元生成速度計(jì)算提示詞處理和詞元生成的延遲,然后根據(jù) Google Cloud 上的實(shí)例定價(jià)圖表[3]計(jì)算每次請(qǐng)求的成本,再將這些數(shù)字歸一化為所有三個(gè)實(shí)例的最大成本。

圖表 2 中的結(jié)果表明,基于 Axion 的虛擬機(jī)可節(jié)省高達(dá) 64% 的成本,處理每次請(qǐng)求所需的成本僅為當(dāng)前一代 x86 實(shí)例的三分之一左右。

8f4d955c-217d-11f0-9310-92fbcf53809c.jpg

圖表 2:使用 RAG 處理推理請(qǐng)求的歸一化成本對(duì)比注

注:成本計(jì)算基于截至 2025 年 3 月 5 日公布的實(shí)例定價(jià),可參見

https://cloud.google.com/compute/vm-instance-pricing

快速入門:基于 Arm 平臺(tái)構(gòu)建 RAG 應(yīng)用

以 Neoverse 平臺(tái)為核心,Google Axion 賦能的實(shí)例能以更低的成本提供高性能,助力企業(yè)構(gòu)建可擴(kuò)展且高效的 RAG 應(yīng)用,同時(shí)與 x86 方案相比顯著降低了基礎(chǔ)設(shè)施開支。

為了幫助開發(fā)者快速入門,Arm 開發(fā)了分步演示和 Learning Path 教程,以便開發(fā)者使用自己選擇的 LLM 和數(shù)據(jù)源構(gòu)建基本的 RAG 系統(tǒng)。

以下資源能夠幫助剛接觸 Arm 生態(tài)系統(tǒng)的開發(fā)者順利踏上開發(fā)旅程:

通過(guò) Arm Learning Path 遷移到 Axion:依照詳細(xì)的指南和最佳實(shí)踐,簡(jiǎn)化向 Axion 實(shí)例的遷移進(jìn)程。

Arm Software Ecosystem Dashboard:及時(shí)了解 Arm 平臺(tái)上支持的最新軟件信息。

Arm 開發(fā)者中心:無(wú)論你是剛接觸 Arm 平臺(tái),還是正在尋找資源來(lái)開發(fā)高性能軟件解決方案,Arm 開發(fā)者中心應(yīng)有盡有,可以幫助開發(fā)者構(gòu)建更好的軟件,為數(shù)十億設(shè)備提供豐富的體驗(yàn)。在 Arm 不斷壯大的全球開發(fā)者社區(qū)中,開發(fā)者可以訪問(wèn)資源、交流學(xué)習(xí)和提問(wèn)探討。

還等什么?即刻開啟你的遷移之旅,利用 Arm Neoverse 平臺(tái)釋放云和 AI 工作負(fù)載的全部潛力!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19730

    瀏覽量

    232752
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9269

    瀏覽量

    373323
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1782

    瀏覽量

    58491
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48436

    瀏覽量

    244748

原文標(biāo)題:利用基于 Arm 平臺(tái)的 Google Axion,解鎖 RAG 技術(shù)的強(qiáng)勁實(shí)力

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    向Intel發(fā)起重型計(jì)算挑戰(zhàn) ARM發(fā)布Neoverse 處理器

    ARM 基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Drew Henry 表示:該公司將處理器技術(shù)授權(quán)給許多企業(yè),通常會(huì)用于智能手機(jī)等對(duì)功耗較敏感的設(shè)備。不過(guò) Neoverse 主要面向計(jì)算類基礎(chǔ)設(shè)施,包括服務(wù)
    發(fā)表于 10-17 10:10 ?888次閱讀

    Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負(fù)載方面的作用

    :區(qū)域任務(wù)模型想象圖像分類Resnet50-v1.5語(yǔ)自然語(yǔ)言處理BERT-大平臺(tái)我們?cè)谌N AWS EC2 云實(shí)例類型運(yùn)行,涵蓋兩代 Arm N
    發(fā)表于 08-31 15:03

    Arm Neoverse N1軟件優(yōu)化指南

    本文檔提供了有關(guān)Neoverse N1管道、指令性能特征和特殊性能注意事項(xiàng)的高級(jí)信息。此信息旨在幫助優(yōu)化Neoverse N1軟件和編譯的人員。有關(guān)Neoverse N1
    發(fā)表于 08-11 06:56

    ARM處理器Google系統(tǒng)讓華碩躊躇不已

    ARM處理器Google系統(tǒng)讓華碩躊躇不已  曾經(jīng)掀起上網(wǎng)本風(fēng)潮的華碩如今在智能本(Smartbook)的設(shè)計(jì)卻頗有些左右為難,一方面不確定是否該采納
    發(fā)表于 01-18 09:27 ?1058次閱讀

    何在芯片的PL構(gòu)建軟核處理器

    到目前為止,我們已經(jīng)在之前的文章中聊過(guò)Zynq SOC內(nèi)部的 PS和PL,以及在Zynq SoC PS部分的ARM Cortex-A9處理器運(yùn)行的操作系統(tǒng)。但是有一個(gè)領(lǐng)域我們還沒有去探索過(guò),那就是在芯片的PL
    發(fā)表于 02-08 14:04 ?1207次閱讀
    如<b class='flag-5'>何在</b>芯片的PL<b class='flag-5'>上</b><b class='flag-5'>構(gòu)建</b>軟核<b class='flag-5'>處理器</b>?

    Arm推出Neoverse處理器家族 大有對(duì)標(biāo)Intel之勢(shì)

    從PC時(shí)代到移動(dòng)時(shí)代,Arm憑借對(duì)ASIC架構(gòu)的深耕占據(jù)了全球90%以上的市場(chǎng),成為人工智能芯片市場(chǎng)中最被忌憚的巨頭之一。最近,Arm推出了一個(gè)名叫Neoverse處理器家族,將為每
    發(fā)表于 11-02 17:35 ?1316次閱讀

    ARM推出新一代Neoverse處理器平臺(tái),面向5nm及3nm工藝性能提升30%以上

    作為移動(dòng)處理器中的霸主,ARM想要搶數(shù)據(jù)中心處理器市場(chǎng)的野心也不是一天兩天了,為此他們專門推出了Neoverse處理器
    的頭像 發(fā)表于 09-23 16:08 ?2160次閱讀
    <b class='flag-5'>ARM</b>推出新一代<b class='flag-5'>Neoverse</b><b class='flag-5'>處理器</b><b class='flag-5'>平臺(tái)</b>,面向5nm及3nm工藝性能提升30%以上

    Arm推出新一代平臺(tái) Neoverse V2 平臺(tái)

    目前,Arm Neoverse家族包括:V系列、N系列以及E系列。就在今年9月,Arm Neoverse迎來(lái)新的進(jìn)展,推出新一代平臺(tái)
    的頭像 發(fā)表于 09-26 09:22 ?1613次閱讀

    基于ARM的嵌入式電機(jī)控制處理器構(gòu)建的模型設(shè)計(jì)平臺(tái)

    電子發(fā)燒友網(wǎng)站提供《基于ARM的嵌入式電機(jī)控制處理器構(gòu)建的模型設(shè)計(jì)平臺(tái).pdf》資料免費(fèi)下載
    發(fā)表于 11-24 14:39 ?0次下載
    基于<b class='flag-5'>ARM</b>的嵌入式電機(jī)控制<b class='flag-5'>處理器</b><b class='flag-5'>構(gòu)建</b>的模型設(shè)計(jì)<b class='flag-5'>平臺(tái)</b>

    Arm發(fā)布新一代Neoverse數(shù)據(jù)中心計(jì)算平臺(tái),AI負(fù)載性能顯著提升

    據(jù)公開信息顯示,Arm去年推出的Neoverse CSS運(yùn)算子系統(tǒng)提供了包含處理器設(shè)計(jì)的預(yù)驗(yàn)證平臺(tái),加快了定制SoC上市進(jìn)程,首發(fā)型號(hào)為Neover
    的頭像 發(fā)表于 02-22 14:48 ?941次閱讀

    Google Cloud推出基于Arm Neoverse V2定制Google Axion處理器

    Arm Neoverse 平臺(tái)已成為云服務(wù)提供商優(yōu)化其從芯片到軟件全棧的心儀之選。近日,Google Cloud 推出了基于 Arm
    的頭像 發(fā)表于 04-16 14:30 ?870次閱讀

    谷歌自主研發(fā):Google Axion處理器亮相

    谷歌 Axion 處理器不僅是谷歌對(duì)定制芯片投資的最新成果,也是眾多定制芯片中的一環(huán)。自2015年以來(lái),谷歌已經(jīng)陸續(xù)推出了五代張量處理單元(TPU)、視頻編碼單元 (VCU)、以及用于移動(dòng)設(shè)備的 Tensor 芯片等產(chǎn)品。
    發(fā)表于 04-20 09:52 ?571次閱讀

    Arm技術(shù)助力Google Axion處理器加速AI工作負(fù)載推理

    Arm Neoverse V2 平臺(tái)賦能的 Google Axion 處理器已在
    的頭像 發(fā)表于 02-14 14:11 ?331次閱讀
    <b class='flag-5'>Arm</b>技術(shù)助力<b class='flag-5'>Google</b> <b class='flag-5'>Axion</b><b class='flag-5'>處理器</b>加速AI工作負(fù)載推理

    何在基于Arm Neoverse平臺(tái)的CPU構(gòu)建分布式Kubernetes集群

    在本文中,我們將以 X(原 Twitter)為例,演示如何在基于 Arm Neoverse 平臺(tái)的 CPU
    的頭像 發(fā)表于 03-25 15:58 ?214次閱讀
    如<b class='flag-5'>何在</b>基于<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b><b class='flag-5'>平臺(tái)</b>的CPU<b class='flag-5'>上</b><b class='flag-5'>構(gòu)建</b>分布式Kubernetes集群

    解讀基于Arm Neoverse V2平臺(tái)Google Axion處理器

    云計(jì)算需求在人工智能 (AI) 時(shí)代的爆發(fā)式增長(zhǎng),推動(dòng)了開發(fā)者尋求性能優(yōu)化且高能效的解決方案,以降低總體擁有成本 (TCO)。Arm 致力于通過(guò) Arm Neoverse 平臺(tái)滿足不斷
    的頭像 發(fā)表于 04-21 13:47 ?261次閱讀
    主站蜘蛛池模板: 亚洲福利秒拍一区二区 | www婷婷 | 亚洲精品老司机综合影院 | 天天在线综合网 | 亚洲第一成人影院 | 五月婷婷六月丁香在线 | 日本视频h | 夜色成人 | 欧美影欧美影院免费观看视频 | 求av网址| 黄色美女网站免费 | 四虎影院观看视频在线观看 | 夜夜网站| 男人j进女人j的一进一出视频 | 亚洲欧美人成网站综合在线 | 天天干天天舔天天射 | 色伊伊| 视频高清正版在线观看 | www.天天操| 日本三级香港三级人妇99视 | 免费一级特黄特色黄大任片 | 日韩夜夜操 | 成人女人a毛片在线看 | 91牛牛 | 日本a级片在线观看 | 在线精品小视频 | 天天干夜夜曰 | 一个色中文字幕 | 亚洲综合激情另类专区 | 美女很黄很黄是免费的·无遮挡网站 | 日本午夜大片a在线观看 | 91无毒不卡| 色狠狠成人综合网 | 亚洲欧洲日韩综合 | hs网站免费| 天天视频一区二区三区 | 天天操天天射天天插 | 91视频免费观看 | 五月天婷婷综合 | 激情五月俺来也 | 久久伦子沙发 |