在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

大模型筆記之gem5運行模型框架LLama介紹

一 LLama.cpp

LLama.cpp 支持x86，arm，gpu的編譯。

github下載llama.cpp

https://github.com/ggerganov/llama.cpp.git

2. gem5支持arm架構比較好，所以我們使用編譯LLama.cpp。

以下是我對Makefile的修改

開始編譯：

make UNAME_M=aarch64

編譯會使用到aarch64-linux-gnu-gcc-10，編譯成功可以生成一個main 文件，這里我把main重命名成main_arm_backup了。

可以使用file main查看一下文件：

3. 下載一個大模型的model到llama.cpp/models的目錄下，這里我下載了llama-2-7b-chat.Q2_K.gguf。

這個模型2bit量化，跑起來不到3G的內存。

GGML_TYPE_Q2_K - "type-1" 2-bit quantization in super-blocks containing 16 blocks, each block having 16 weight. Block scales and mins are quantized with 4 bits. This ends up effectively using 2.5625 bits per weight (bpw)

4.此時我們可以本地運行以下main和模型，我的prompt是How are you

./main -m ./models/llama-2-7b-chat.Q2_K.gguf -p "How are you"-n 16

下圖最下面一行就是模型自動生成的

二 gem5

gem5下載編譯好后，我們可以使用gem5.fast運行模型了。

build/ARM/gem5.fast

--outdir=./m5out/llm_9

./configs/example/se.py -c

$LLAMA_path/llama.cpp/main-arm

'--options=-m $LLAMA_path/llama-2-7b-chat.Q2_K.gguf -p Hi -n 16'

--cpu-type=ArmAtomicSimpleCPU --mem-size=8GB -n 8

此時我的prompt是Hi，預期是n=8，跑8核。

上圖是gem5運行大模型時生成的simout，我增加了AtomicCPU 運行指令數量的打印，這是在gem5的改動。

如果你下載的是gem5的源碼，那么現在運行起來應該只是最前面大模型的輸出。

模型的回答是Hi，I'm a30-year-old male, and 但是我預期的是8核，實際上運行起來：

可以看出來，實際上只跑起來4核，定位后發現，模型默認是4核，需要增加-t 8選項，即threadnumber設置成8，下面的紅色標注的command.

build/ARM/gem5.fast

--outdir=./m5out/llm_9

./configs/example/se.py -c

$LLAMA_path/llama.cpp/main-arm

'--options=-m$LLAMA_path/llama-2-7b-chat.Q2_K.gguf -p Hi -n 16 -t 8'

--cpu-type=ArmAtomicSimpleCPU --mem-size=8GB -n8

如上圖所示，8核都跑起來了，處理到Hi這個token的時候，CPU0執行了2.9 Billion指令，相對于4核時的5.4 Billion約減少了一半。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

ARM

ARM

+關注

關注
134

文章
9346

瀏覽量
376550
gpu

gpu

+關注

關注
28

文章
4934

瀏覽量
131036
Linux系統

Linux系統

+關注

關注
4

文章
605

瀏覽量
28498
大模型

大模型

+關注

關注
2

文章
3108

瀏覽量
4003

原文標題：大模型筆記【3】 gem5 運行模型框架LLama

文章出處：【微信號：處理器與AI芯片，微信公眾號：處理器與AI芯片】歡迎添加關注！文章轉載請注明出處。

處理器與AI芯片
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot Gem5 Arm Fullsystem仿真
Hot 大模型筆記之gem5運行模型框架LLama介紹

New 談談GPU的使用壽命
New 為什么GPU的壽命如此之短

精選推薦
更多

文章

資料

帖子

同步整流IC U7613的工作原理

開關電源芯片
10小時前

244 閱讀

小安派BW21-CBV-Kit入門教程之MPU6050 IMU零點檢測

安信可科技
11小時前

266 閱讀

樹莓派默認密碼指南：新設置、更改方法及安全建議！

上海晶珩電子科技有限公司
13小時前

290 閱讀

使用MG24開發板測試天線分集

Silicon Labs
12小時前

245 閱讀

PD快充IC U8726AHE的工作原理

開關電源芯片
12小時前

327 閱讀

電氣元件參數計算及元件選擇

luodan1988
129 KB

免費

0下載

使用PROTEL99設計PCB的經驗分享

ah此生不換
1.50 MB

免費

0下載

GitHub VSC在瀏覽器中使用VS Code操作GitHub倉庫

顏立歆
0.23 MB

免費

0下載

Solo Java開源博客系統

h1654155275.5916
9.18 MB

2積分

3下載

使用PCB方式的Arduino TTN LoRa節點設備

陳秀英
0.06 MB

免費

0下載

【沁恒CH585開發板免費試用體驗】+點陣板的顯示驅動

jinglixixi
1天前

322 閱讀

【BPI-CanMV-K230D-Zero開發板體驗】無線網絡攝像頭（RTSP 推流 1080P 60fps）

gtbestom
1天前

370 閱讀

【匯思博SEEK100開發板試用體驗】01 SEEK100開發板開箱&簡介

jf_83922529
2天前

390 閱讀

【正點原子STM32MP257開發板試用】STM32MP257開發板內核及外設性能測試

jf_43382582
2天前

358 閱讀

【沁恒CH585開發板免費試用體驗】+PWM呼吸燈

yinwuqing
2天前

360 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

大模型筆記之gem5運行模型框架LLama介紹

評論