在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

K1 AI CPU基于llama.cpp與Ollama的大模型部署實踐

進迭時空 ? 2025-02-18 14:23 ? 次閱讀

為了應對大模型(LLM)、AIGC等智能化浪潮的挑戰,進迭時空通過AI指令擴展,在RISC-V CPU中注入了原生AI算力。這種具有原生AI能力的CPU,我們稱之為AI CPU。K1作為進迭時空第一顆AI CPU芯片,已于今年4月份發布。

下面我們以K1為例,結合llama.cpp來展示AI CPU在大模型領域的優勢。


llama.cpp是一個開源的高性能CPU/GPU大語言模型推理框架,適用于消費級設備及邊緣設備。開發者可以通過工具將各類開源大語言模型轉換并量化成gguf格式的文件,然后通過llama.cpp實現本地推理。

得益于RISC-V社區的貢獻,已有llama.cpp在K1上高效運行的案例,但大語言模型的CPU資源使用過高,使其很難負載其他的上層應用。為此進迭時空在llama.cpp社區版本的基礎上,基于IME矩陣加速拓展指令,對大模型相關算子進行了優化,在僅使用4核CPU的情況下,達到目前社區最好版本8核性能的2-3倍,充分釋放了CPU Loading,給開發者更多空間實現AI應用。


Ollama是一個開源的大型語言模型服務工具,它幫助用戶快速在本地運行大模型。通過簡單的安裝指令,用戶可以執行一條命令就在本地運行開源大型語言模型,如Llama、Qwen、Gemma等。

部署實踐

工具與模型準備

#在K1上拉取ollama與llama.cpp預編譯包apt updateapt install spacemit-ollama-toolkit
#k開啟ollama服務ollama serve
#下載模型wget -P /home/llm/ https://archive.spacemit.com/spacemit-ai/ModelZoo/gguf/qwen2.5-0.5b-q4_0_16_8.gguf
#導入模型,例為qwen2.5-0.5b#modelfile地址:https://archive.spacemit.com/spacemit-ai/ollama/modelfile/qwen2.5-0.5b.modelfileollama create qwen2 -f qwen2.5-0.5b.modelfile
#運行模型ollama run qwen2

Ollama效果展示


性能與資源展示

我們選取了端側具有代表性的0.5B-4B尺寸的大語言模型,展示K1的AI擴展指令的加速效果。

參考性能分別為llama.cpp的master分支(下稱官方版本),以及RISC-V社區的優化版本(下稱RISC-V社區版本,GitHub地址為:

https://github.com/xctan/llama.cpp/tree/rvv_q4_0_8x8)

d43e940e-edc0-11ef-9434-92fbcf53809c.png

所有模型均采用4bit量化。其中RISC-V社區版本以及官方版本模型為最優實現的加速效果,模型量化時將token-embedding-type設置為q8_0。

llama.cpp的進迭時空版本CPU占用情況:

d44b142c-edc0-11ef-9434-92fbcf53809c.pngd4557b74-edc0-11ef-9434-92fbcf53809c.png

llama.cpp的RISC-V社區版本CPU占用情況:

d4611e5c-edc0-11ef-9434-92fbcf53809c.pngd46aee64-edc0-11ef-9434-92fbcf53809c.png

參考文檔

https://github.com/ggerganov/llama.cpp

https://github.com/ollama/ollama

https://github.com/QwenLM/Qwen2.5

Qwen2 Technical Report

https://ollama.com

結語

進迭時空在K1平臺上大模型部署方面取得了初步進展,其卓越的性能與高度的開放性令人矚目。這為開發者們提供了一個極為友好的環境,使他們能夠輕松依托社區資源,進一步拓展和創新,開發出更多豐富的應用。

我們滿懷期待地憧憬著K1平臺上未來可能出現的更多大語言模型應用的創新設想。在此過程中,我們將持續保持關注并不斷推進相關工作。此外,本文所提及的預發布軟件包,將在年底以源代碼的形式開源,以供廣大開發者共同學習與探索。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    458

    文章

    51419

    瀏覽量

    428642
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10929

    瀏覽量

    213427
  • 大模型
    +關注

    關注

    2

    文章

    2709

    瀏覽量

    3313
收藏 人收藏

    評論

    相關推薦

    添越智創基于 RK3588 開發板部署測試 DeepSeek 模型全攻略

    方法的優缺點與操作要點。 01-使用Ollama工具部署-便捷但有短板 Ollama 是一個開源的大模型服務工具,可以支持最新的deepseek模型
    發表于 02-14 17:42

    IBM在watsonx.ai平臺推出DeepSeek R1蒸餾模型

    ,進一步增強企業在安全、治理以及規模化部署方面的能力。 DeepSeek R1是IBM在AI領域的一項重要創新,它采用了蒸餾模型技術,能夠在保持模型
    的頭像 發表于 02-14 10:21 ?160次閱讀

    在龍芯3a6000上部署DeepSeek 和 Gemma2大模型

    serve 2.運行deepseek-r1模型 到以下網站選擇不同參數的大模型 https://ollama.com/library/deepseek-r
    發表于 02-07 19:35

    進迭時空 K1 系列 8 核 64 位 RISC - V AI CPU 芯片介紹

    一、總體概述K1 系列是基于 RISC - V 開源指令集打造的 AI CPU,致力于構建更通用、高能效的 AI 處理器平臺,推動全球開源、開放的
    發表于 01-06 17:37

    Kimi發布視覺思考模型k1,展現卓越基礎科學能力

    近日,Kimi公司正式發布了其最新的視覺思考模型——k1。這款模型基于先進的強化學習技術構建,原生支持端到端的圖像理解和思維鏈技術,為用戶提供了全新的視覺思考體驗。 k1
    的頭像 發表于 12-17 09:59 ?395次閱讀

    Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama 是一個開源的大語言模型服務工具,它的核心目的是簡化大語言模型(LLMs)的本地部署和運行過程,請參考《Gemma 2+Ollama
    的頭像 發表于 11-23 17:22 ?2272次閱讀
    用<b class='flag-5'>Ollama</b>輕松搞定<b class='flag-5'>Llama</b> 3.2 Vision<b class='flag-5'>模型</b>本地<b class='flag-5'>部署</b>

    Ollama輕松搞定Llama 3.2 Vision模型本地部署

    模型
    jf_23871869
    發布于 :2024年11月18日 19:40:10

    Llama 3 與開源AI模型的關系

    體現在多個層面。 1. 開源精神的體現 Llama 3項目可能是一個開源項目,這意味著它的源代碼、算法和數據集對公眾開放。這種開放性是開源AI模型的核心特征,它鼓勵了全球范圍內的開發者
    的頭像 發表于 10-27 14:42 ?461次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個維度進行,包括但不限于技術架構、性能表現、應用場景、定制化能力、開源與成本等方面。以下是對Llama 3
    的頭像 發表于 10-27 14:37 ?592次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發布了Llama3.2:一個多語言大型語言模型(LLMs)的集合。
    的頭像 發表于 10-12 09:39 ?811次閱讀
    使用OpenVINO 2024.4在算力魔方上<b class='flag-5'>部署</b><b class='flag-5'>Llama-3.2-1</b>B-Instruct<b class='flag-5'>模型</b>

    英偉達發布AI模型 Llama-3.1-Nemotron-51B AI模型

    英偉達公司宣布推出 Llama-3.1-Nemotron-51B AI 模型,這個AI模型是源自 Meta 公司的
    的頭像 發表于 09-26 17:30 ?679次閱讀

    [技術] 【飛凌嵌入式OK3576-C開發板體驗】llama2.c部署

    llama2.c 是一個用純 C 語言實現的輕量級推理引擎,無需依賴任何第三方庫即可高效地進行推理任務。與 llama.cpp 相比,其代碼更加直觀易懂,并且可以在 PC、嵌入式 Linux 乃至
    發表于 09-18 23:58

    NVIDIA AI Foundry 為全球企業打造自定義 Llama 3.1 生成式 AI 模型

    Foundry 提供從數據策管、合成數據生成、微調、檢索、防護到評估的全方位生成式 AI 模型服務,以便部署自定義 Llama 3.1 NVIDIA NIM 微服務和新的 NVIDI
    發表于 07-24 09:39 ?761次閱讀
    NVIDIA <b class='flag-5'>AI</b> Foundry 為全球企業打造自定義 <b class='flag-5'>Llama</b> 3.1 生成式 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團隊推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯網,簡單快捷完成本地化部署。點擊觀看Llama3快速
    的頭像 發表于 06-06 08:02 ?868次閱讀
    【AIBOX上手指南】快速<b class='flag-5'>部署</b><b class='flag-5'>Llama</b>3

    Meta Llama 3基礎模型現已在亞馬遜云科技正式可用

    亞馬遜云科技近日宣布,Meta公司最新發布的兩款Llama 3基礎模型——Llama 3 8B和Llama 3 70B,現已正式上線并集成至Amazon SageMaker JumpS
    的頭像 發表于 05-09 10:39 ?467次閱讀
    主站蜘蛛池模板: 午夜影院0606免费 | 国产视频一二三 | 色男人综合 | 国产黄色三级网站 | 日本视频www色 | 色狠狠狠狠综合影视 | 最新版天堂资源中文官网 | 中文字幕一二三区乱码老 | 播五月综合 | 久久久黄色大片 | 五月婷婷久久综合 | 四虎最新网站 | 欧美性狂猛bbbbbbxxxx | 午夜精品在线视频 | 国产亚洲新品一区二区 | 国产一区二区在线视频播放 | 激情五月开心婷婷 | 天堂资源在线官网bt | 日本一区视频 | 欧美日本不卡 | 国产免费久久精品99 | 日本最猛黑人xxxx猛交 | 亚洲人在线 | 一级无毛片 | 高清国产一区二区三区 | 新版天堂资源中文在线 | 四虎院影永久在线观看 | 国产色在线 | 亚洲 国产色综合天天综合网 | 国产精品区在线12p 国产精品任我爽爆在线播放6080 | 亚洲日本一区二区三区 | 亚洲成人在线网站 | 欧美草逼 | 亚洲视频在线不卡 | 一区二区三区免费精品视频 | 天天操天天射天天操 | 俺去俺来也www色官网免费的 | 亚洲欧美日韩在线观看你懂的 | 美女黄色毛片免费看 | 男人和女人做免费做爽爽视频 | 日本丰满毛茸茸熟妇 | 性欧美护士18xxxxhd视频 |