在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于CPU的大型語言模型推理實驗

安晟培半導體 ? 來源:安晟培半導體 ? 2024-07-18 14:28 ? 次閱讀

隨著計算和數據處理變得越來越分散和復雜,AI 的重點正在從初始訓練轉向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型 (LLM)。本次測試采用開源 LLM 的最新版本,對 Oracle OCI 上的 Ampere 云原生處理器進行優化,最終證明提供了前所未有的性能和靈活性。

在超過 15T 數據標記上進行訓練,Llama3 模型的訓練數據集比 Llama2 的訓練數據集大 7 倍,數據和規模均提升到了新的高度。Llama3 的開放訪問模型在語言細微差別、上下文理解以及翻譯和對話生成等復雜任務方面表現都很出色。作為正在進行的 Ampere llama.cpp優化工作的延續,企業現在可以使用基于 Ampere 的 OCI A1 形狀,體驗最先進的 Llama3 性能。

Ampere架構

Ampere 云原生處理器優化了功耗,提供行業領先的性能、可擴展性和靈活性,幫助企業有效地處理不同的工作負載的同時,適應應用程序越來越高的要求,以及不斷增長的數據量和處理需求。通過利用云基礎設施進行水平擴展,支持處理大規模數據集并支持并發任務。通過單線程內核消除嘈雜鄰居效應、更高的內核數量提高計算密度以及降低每個計算單元的功耗從而降低整體 TCO。

Llama3 vs Llama2

隨著對可持續性和功耗的日益關注,行業正趨向于選擇更小的 AI 模型,以實現效率、準確性、成本和易部署性。Llama3 8B 在特定任務上可提供與 Llama2 70B 相似或更好的性能,因為它的效率和較低的過擬合風險。大型 100B LLM(例如 PaLM2、340B)或閉源模型(例如 GPT4)的計算成本可能很高,且通常不適合在資源受限的環境中進行部署。高昂的成本,以及由于其尺寸大小和處理要求的復雜,部署起來可能很麻煩,在邊緣設備上尤為明顯。Llama3 8B作為一個較小的模型,將更容易集成到各種環境中,從而能夠更廣泛地采用生成式 AI 功能。

Llama3 8B的性能

在之前成功的基礎上,Ampere AI 的工程團隊對llama.cpp進行了微調,以實現 Ampere 云原生處理器的最佳性能。基于 Ampere 的 OCI A1 實例現在可以為 Llama 3 提供最佳支持。這個優化的 Llama.cpp 框架在 DockerHub 上免費提供,二進制文件可在此訪問:

在基于 Ampere 的 OCI A1 Flex 機器上進行的性能基準測試表明,即使在較大批量的情況下,Llama 3 8B 型號的功能也令人印象深刻。在單節點配置下,吞吐量高達每秒 91 個TokenTokens,推理速度凸顯了 Ampere 云原生處理器對 AI 推理的適用性。OCI 區域的廣泛可用性確保了全球用戶的可訪問性和可擴展性。

下列圖表詳細介紹了具有 64 個 OCPU 和 360 GB 內存的單節點 OCI Ampere A1 Flex 機器的關鍵性能指標,并發批量處理大小為 1-16,輸入和輸出 TokenToken大小為 128。Llama 3 8B 的性能與 Ampere A1 上的 Llama 2 7B 相當。

5a7823b4-44bb-11ef-b8af-92fbcf53809c.png

下圖顯示了在基于 Ampere 的 OCI A1 實例上運行的 Llama3 8B 與 AWS 上的 NVIDIA A10 GPU 的每百萬個 Token 的成本。Ampere A1 實例在批量大小為 1-8 時可節省大量成本,同時提供更流暢的用戶體驗

5a967f30-44bb-11ef-b8af-92fbcf53809c.png

Ampere的無 GPU AI 推理解決方案在小批量和低延遲應用方面處于領先地位。


每秒Token數 (TPS):每秒為 LLM 推理請求生成的Token數。此度量包括首次Token的時間和Token間的延遲。以每秒生成的Token數報告。

服務器端吞吐量 (TP):此指標量化服務器在所有并發用戶請求中生成的Token總數。它提供了服務器容量和效率的匯總度量,以處理跨用戶的請求。此指標是根據 TPS 報告的。

用戶側推理速度 (IS):此指標計算單個用戶請求的平均Token生成速度。它反映了服務器的響應能力,從用戶的角度來看,它提供了一定級別的推理速度。此指標是根據 TPS 報告的。

實際操作

Docker鏡像可以在 DockerHub 上免費獲取,llama.aio 二進制文件可以在 Llama.aio二進制文件中免費獲取。這些圖像在大多數存儲庫(如 DockerHub、GitHub 和 Ampere Computing 的 AI 解決方案網頁 )上都可用。

Ampere 模型庫(AML)是由 Ampere 的 AI 工程師開發和維護的 Ampere 動物園模型庫。用戶可以訪問 AML 公共 GitHub 存儲庫,以驗證 Ampere Altra 系列云原生處理器上 Ampere 優化的 AI 框架的卓越性能。

要簡化部署過程并測試性能,請參閱 Ampere 提供支持的 LLM 推理聊天機器人和 OCI 上的自定義市場圖像,該圖像提供用戶友好的 LLM 推理llama.cpp和 Serge UI 開源項目。這使用戶能夠在 OCI 上部署和測試 Llama 3,并體驗開箱即用的部署和即時集成。以下是 OCI 上 Ampere A1 計算的 OCI Ubuntu 22.04 市場鏡像的 UI 一瞥:

5ab5ba80-44bb-11ef-b8af-92fbcf53809c.jpg

后續步驟

持續創新是 Ampere 一直以來的承諾,Ampere 和 Oracle 團隊正在積極致力于擴展場景支持,包括與檢索增強生成 (RAG)和 Lang 鏈功能的集成。這些增強功能將進一步提升 Llama 3 在 Ampere 云原生處理器上的能力。

如果您是現有的 OCI 客戶,則可以輕松啟動 AmpereA1 LLM 推理入門映像。此外,Oracle 還提供長達 3 個月的 64 個 Ampere A1 核心和 360GB 內存的免費儲值,以幫助驗證 Ampere A1 flex 形狀上的 AI 工作負載,儲值將于 2024 年 12 月 31 日結束。

在基于 Ampere 的 OCI A1 實例上推出 Ampere 優化的 Llama 3 代表了基于 CPU 的語言模型推理的里程碑式進步,具有無與倫比的性價比、可擴展性和易于部署等優勢。隨著我們不斷突破 AI 驅動計算的界限,我們邀請您加入我們的行列,踏上探索和發現的旅程。請繼續關注更多更新,我們將探索使用 Ampere 云原生處理器解鎖生成式 AI 功能的新可能性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19825

    瀏覽量

    233777
  • AI
    AI
    +關注

    關注

    88

    文章

    34421

    瀏覽量

    275800
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25305
  • Ampere
    +關注

    關注

    1

    文章

    81

    瀏覽量

    4675

原文標題:創芯課堂|使用基于 Ampere 的 OCI A1 云實例釋放 Llama3 強大功能:基于 CPU 的大型語言模型推理實驗

文章出處:【微信號:AmpereComputing,微信公眾號:安晟培半導體】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs在語言理解上表現出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估
    的頭像 發表于 11-23 15:05 ?1427次閱讀
    <b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>的邏輯<b class='flag-5'>推理</b>能力探究

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    用于文本生成,根據提示或上下文生成連貫、富有創造性的文本,為故事創作等提供無限可能。大語言模型也面臨挑戰。一方面,其計算資源需求巨大,訓練和推理耗時;另一方面,模型高度依賴數據,需要大
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的評測

    在知識獲取、邏輯推理、代碼生成等方面的能力。這些評測基準包括語言建模能力、綜合知識能力、數學計算能力、代碼能力和垂直領域等多個維度。對于微調模型,對話能力的評測關注模型在對話任務中的全
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的應用

    ,它通過抽象思考和邏輯推理,協助我們應對復雜的決策。 相應地,我們設計了兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務,類似于人類的系統1,如情感分析和抽取式問答等。大
    發表于 05-07 17:21

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設備 AI 模型推理的功能,目前已經在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。 本文介紹
    發表于 12-14 11:41

    大型語言模型有哪些用途?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下,可
    的頭像 發表于 02-23 19:50 ?5575次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。
    的頭像 發表于 03-08 13:57 ?8591次閱讀

    利用大語言模型做多模態任務

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。
    的頭像 發表于 05-10 16:53 ?1363次閱讀
    利用大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>做多模態任務

    基于Transformer的大型語言模型(LLM)的內部機制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內部機制,以提高它們的可靠性和可解釋性。 隨著大型語言
    的頭像 發表于 06-25 15:08 ?1844次閱讀
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)的內部機制

    大型語言模型的應用

    ?? 大型語言模型(LLM) 是一種深度學習算法,可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型(LL
    的頭像 發表于 07-05 10:27 ?2402次閱讀

    如何加速大語言模型推理

    的主要挑戰。本文將從多個維度深入探討如何加速大語言模型推理過程,以期為相關領域的研究者和開發者提供參考。
    的頭像 發表于 07-04 17:32 ?962次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務
    的頭像 發表于 07-24 11:38 ?1669次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰。
    的頭像 發表于 11-15 14:20 ?1284次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    語言模型開發框架是什么

    語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發表于 12-06 10:28 ?487次閱讀

    詳解 LLM 推理模型的現狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優化推理能力的新策略開始出現,包括擴展
    的頭像 發表于 04-03 12:09 ?330次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現狀
    主站蜘蛛池模板: 国内精品91久久久久 | 欧美肥胖女人bbwbbw视频 | 伊人久久大香线蕉综合电影 | 欧美一卡2卡三卡4卡5卡免费观看 | 亚洲人成电影在线 | 色97色| 手机看片午夜 | 亚洲欧美色视频 | 欧美xxxxxbbbb| 日本黄页在线观看 | 一区二区三区精品视频 | 亚洲精品播放 | 午夜合集 | 五月婷婷深爱 | 欧美无遮挡国产欧美另类 | 黄色大片视频网站 | 天天干夜夜谢 | 在线伊人网 | 午夜免费网站 | videosxxoo18在线 | 久久99热久久精品动漫 | 特黄aaaaa日本大片免费看 | 四虎国产永久在线精品免费观看 | 天天拍天天色 | 成年人的毛片 | 欧美无遮挡一区二区三区 | 亚洲香蕉电影 | 五月天婷婷色综合 | 久久久婷婷亚洲5月97色 | 国产午夜久久影院 | 激情五月婷婷综合 | 国产精欧美一区二区三区 | 特级黄aaaaaaaaa毛片 | 欧美一级日韩一级亚洲一级 | 亚洲深夜 | 26uuu另类亚洲欧美日本一 | 女人成午夜大片7777在线 | 三级三级三级网站网址 | aⅴ一区二区三区 | 中文字幕1页 | 欧美式free群乱 |