欢乐颂小说在线阅读,将夜猫腻小说,玄幻小说排行榜

隨著計算和數據處理變得越來越分散和復雜，AI 的重點正在從初始訓練轉向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型（LLM）。本次測試采用開源 LLM 的最新版本，對 Oracle OCI 上的 Ampere 云原生處理器進行優化，最終證明提供了前所未有的性能和靈活性。

在超過 15T 數據標記上進行訓練，Llama3 模型的訓練數據集比 Llama2 的訓練數據集大 7 倍，數據和規模均提升到了新的高度。Llama3 的開放訪問模型在語言細微差別、上下文理解以及翻譯和對話生成等復雜任務方面表現都很出色。作為正在進行的 Ampere llama.cpp優化工作的延續，企業現在可以使用基于 Ampere 的 OCI A1 形狀，體驗最先進的 Llama3 性能。

Ampere架構

Ampere 云原生處理器優化了功耗，提供行業領先的性能、可擴展性和靈活性，幫助企業有效地處理不同的工作負載的同時，適應應用程序越來越高的要求，以及不斷增長的數據量和處理需求。通過利用云基礎設施進行水平擴展，支持處理大規模數據集并支持并發任務。通過單線程內核消除嘈雜鄰居效應、更高的內核數量提高計算密度以及降低每個計算單元的功耗從而降低整體 TCO。

Llama3 vs Llama2

隨著對可持續性和功耗的日益關注，行業正趨向于選擇更小的 AI 模型，以實現效率、準確性、成本和易部署性。Llama3 8B 在特定任務上可提供與 Llama2 70B 相似或更好的性能，因為它的效率和較低的過擬合風險。大型 100B LLM（例如 PaLM2、340B）或閉源模型（例如 GPT4）的計算成本可能很高，且通常不適合在資源受限的環境中進行部署。高昂的成本，以及由于其尺寸大小和處理要求的復雜，部署起來可能很麻煩，在邊緣設備上尤為明顯。Llama3 8B作為一個較小的模型，將更容易集成到各種環境中，從而能夠更廣泛地采用生成式 AI 功能。

Llama3 8B的性能

在之前成功的基礎上，Ampere AI 的工程團隊對llama.cpp進行了微調，以實現 Ampere 云原生處理器的最佳性能。基于 Ampere 的 OCI A1 實例現在可以為 Llama 3 提供最佳支持。這個優化的 Llama.cpp 框架在 DockerHub 上免費提供，二進制文件可在此訪問：

在基于 Ampere 的 OCI A1 Flex 機器上進行的性能基準測試表明，即使在較大批量的情況下，Llama 3 8B 型號的功能也令人印象深刻。在單節點配置下，吞吐量高達每秒 91 個TokenTokens，推理速度凸顯了 Ampere 云原生處理器對 AI 推理的適用性。OCI 區域的廣泛可用性確保了全球用戶的可訪問性和可擴展性。

下列圖表詳細介紹了具有 64 個 OCPU 和 360 GB 內存的單節點 OCI Ampere A1 Flex 機器的關鍵性能指標，并發批量處理大小為 1-16，輸入和輸出 TokenToken大小為 128。Llama 3 8B 的性能與 Ampere A1 上的 Llama 2 7B 相當。

下圖顯示了在基于 Ampere 的 OCI A1 實例上運行的 Llama3 8B 與 AWS 上的 NVIDIA A10 GPU 的每百萬個 Token 的成本。Ampere A1 實例在批量大小為 1-8 時可節省大量成本，同時提供更流暢的用戶體驗。

Ampere的無 GPU AI 推理解決方案在小批量和低延遲應用方面處于領先地位。

每秒Token數（TPS）：每秒為 LLM 推理請求生成的Token數。此度量包括首次Token的時間和Token間的延遲。以每秒生成的Token數報告。

服務器端吞吐量（TP）：此指標量化服務器在所有并發用戶請求中生成的Token總數。它提供了服務器容量和效率的匯總度量，以處理跨用戶的請求。此指標是根據 TPS 報告的。

用戶側推理速度（IS）：此指標計算單個用戶請求的平均Token生成速度。它反映了服務器的響應能力，從用戶的角度來看，它提供了一定級別的推理速度。此指標是根據 TPS 報告的。

實際操作

Docker鏡像可以在 DockerHub 上免費獲取，llama.aio 二進制文件可以在 Llama.aio二進制文件中免費獲取。這些圖像在大多數存儲庫（如 DockerHub、GitHub 和 Ampere Computing 的 AI 解決方案網頁）上都可用。

Ampere 模型庫（AML）是由 Ampere 的 AI 工程師開發和維護的 Ampere 動物園模型庫。用戶可以訪問 AML 公共 GitHub 存儲庫，以驗證 Ampere Altra 系列云原生處理器上 Ampere 優化的 AI 框架的卓越性能。

要簡化部署過程并測試性能，請參閱 Ampere 提供支持的 LLM 推理聊天機器人和 OCI 上的自定義市場圖像，該圖像提供用戶友好的 LLM 推理llama.cpp和 Serge UI 開源項目。這使用戶能夠在 OCI 上部署和測試 Llama 3，并體驗開箱即用的部署和即時集成。以下是 OCI 上 Ampere A1 計算的 OCI Ubuntu 22.04 市場鏡像的 UI 一瞥：

后續步驟

持續創新是 Ampere 一直以來的承諾，Ampere 和 Oracle 團隊正在積極致力于擴展場景支持，包括與檢索增強生成（RAG）和 Lang 鏈功能的集成。這些增強功能將進一步提升 Llama 3 在 Ampere 云原生處理器上的能力。

如果您是現有的 OCI 客戶，則可以輕松啟動 AmpereA1 LLM 推理入門映像。此外，Oracle 還提供長達 3 個月的 64 個 Ampere A1 核心和 360GB 內存的免費儲值，以幫助驗證 Ampere A1 flex 形狀上的 AI 工作負載，儲值將于 2024 年 12 月 31 日結束。

在基于 Ampere 的 OCI A1 實例上推出 Ampere 優化的 Llama 3 代表了基于 CPU 的語言模型推理的里程碑式進步，具有無與倫比的性價比、可擴展性和易于部署等優勢。隨著我們不斷突破 AI 驅動計算的界限，我們邀請您加入我們的行列，踏上探索和發現的旅程。請繼續關注更多更新，我們將探索使用 Ampere 云原生處理器解鎖生成式 AI 功能的新可能性。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

處理器

處理器

+關注

關注
68

文章
19825

瀏覽量
233777
AI

AI

+關注

關注
88

文章
34421

瀏覽量
275800
數據集

數據集

+關注

關注
4

文章
1223

瀏覽量
25305
Ampere

Ampere

+關注

關注
1

文章
81

瀏覽量
4675

原文標題：創芯課堂｜使用基于 Ampere 的 OCI A1 云實例釋放 Llama3 強大功能：基于 CPU 的大型語言模型推理實驗

文章出處：【微信號：AmpereComputing，微信公眾號：安晟培半導體】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

基于CPU的大型語言模型推理實驗

評論