遮天,豆豆小说阅读网,女强穿越玄幻完结小说

為了應對大模型（LLM）、AIGC等智能化浪潮的挑戰，進迭時空通過AI指令擴展，在RISC-V CPU中注入了原生AI算力。這種具有原生AI能力的CPU，我們稱之為AI CPU。K1作為進迭時空第一顆AI CPU芯片，已于今年4月份發布。

下面我們以K1為例，結合llama.cpp來展示AI CPU在大模型領域的優勢。

llama.cpp是一個開源的高性能CPU/GPU大語言模型推理框架，適用于消費級設備及邊緣設備。開發者可以通過工具將各類開源大語言模型轉換并量化成gguf格式的文件，然后通過llama.cpp實現本地推理。

得益于RISC-V社區的貢獻，已有llama.cpp在K1上高效運行的案例，但大語言模型的CPU資源使用過高，使其很難負載其他的上層應用。為此進迭時空在llama.cpp社區版本的基礎上，基于IME矩陣加速拓展指令，對大模型相關算子進行了優化，在僅使用4核CPU的情況下，達到目前社區最好版本8核性能的2-3倍，充分釋放了CPU Loading，給開發者更多空間實現AI應用。

Ollama是一個開源的大型語言模型服務工具，它幫助用戶快速在本地運行大模型。通過簡單的安裝指令，用戶可以執行一條命令就在本地運行開源大型語言模型，如Llama、Qwen、Gemma等。

部署實踐

工具與模型準備

#在K1上拉取ollama與llama.cpp預編譯包apt updateapt install spacemit-ollama-toolkit
#k開啟ollama服務ollama serve
#下載模型wget -P /home/llm/ https://archive.spacemit.com/spacemit-ai/ModelZoo/gguf/qwen2.5-0.5b-q4_0_16_8.gguf
#導入模型，例為qwen2.5-0.5b#modelfile地址：https://archive.spacemit.com/spacemit-ai/ollama/modelfile/qwen2.5-0.5b.modelfileollama create qwen2 -f qwen2.5-0.5b.modelfile
#運行模型ollama run qwen2

Ollama效果展示

性能與資源展示

我們選取了端側具有代表性的0.5B-4B尺寸的大語言模型，展示K1的AI擴展指令的加速效果。

參考性能分別為llama.cpp的master分支（下稱官方版本），以及RISC-V社區的優化版本（下稱RISC-V社區版本，GitHub地址為：

https://github.com/xctan/llama.cpp/tree/rvv_q4_0_8x8）