在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

嘉楠開源通用大語言模型Toucan中的INT4量化技術(shù)解析

嘉楠科技 ? 來源: 嘉楠科技 ? 2023-08-19 14:57 ? 次閱讀

ChatGPT與其之后不斷涌現(xiàn)的大語言模型(LLM)迅速席卷了整個(gè)時(shí)代。隨著計(jì)算機(jī)對(duì)人類自然語言的領(lǐng)悟程度突飛猛進(jìn),我們與計(jì)算機(jī)的交互方式正在迅速而深刻地改變著,這也即將帶來一場既廣泛又具有極強(qiáng)創(chuàng)新性的商業(yè)模式轉(zhuǎn)型。

嘉楠科技Canaan)是一家領(lǐng)先的ASIC芯片設(shè)計(jì)公司,也是第一家在美上市的中國自主知識(shí)產(chǎn)權(quán)AI芯片公司。嘉楠科技希望通過ASIC技術(shù)“提升社會(huì)運(yùn)行效率,改善人類生活方式”,并成為區(qū)塊鏈和AI高性能計(jì)算的領(lǐng)導(dǎo)者。

2023年6月30日,嘉楠科技正式發(fā)布參數(shù)量70億的通用大語言模型Toucan-7B及INT4量化版本的Toucan-7B-4bit。其中,Toucan-7B基于LLaMA預(yù)訓(xùn)練權(quán)重進(jìn)行指令微調(diào),能夠?qū)崿F(xiàn)文案寫作、代碼解析、信息抽取等各種通用自然語言處理任務(wù)。Toucan-7B-4bit基于當(dāng)前最新量化技術(shù)對(duì)Toucan-7B實(shí)現(xiàn)極低損失的INT4量化。此外,Toucan-7B是基于GTX-3090單卡GPU實(shí)現(xiàn)所有的實(shí)驗(yàn)流程,是真正方便每位開發(fā)者所使用的通用LLM模型。

Toucan模型精度

評(píng)估大語言模型的效果本身就是一個(gè)復(fù)雜的課題。目前還沒有公認(rèn)的、嚴(yán)格的科學(xué)評(píng)估標(biāo)準(zhǔn)。

Toucan采用開源的專業(yè)中文測試集BELLE進(jìn)行效果評(píng)估,涵蓋數(shù)學(xué)推理、代碼解析、文本分類等多個(gè)維度。ChatGPT的表現(xiàn)作為參考基準(zhǔn)。通過人工評(píng)估ChatGPT的表現(xiàn),可以直觀地判斷不同模型的優(yōu)劣。

ChatGLM(清華開源LLM模型)是國內(nèi)首批開源的通用大語言模型,也是最優(yōu)秀的中文大語言模型之一。因此,在Toucan的評(píng)估過程中,我們將主要以ChatGLM的表現(xiàn)作為參考,來衡量不同模型的效果,從而給出一個(gè)相對(duì)公正的評(píng)估結(jié)果。

4622e39e-3da6-11ee-ac96-dac502259ad0.png

如上表所示,Toucan-7B的效果略微優(yōu)于ChatGLM-6B,并且Toucan-7B-4bit模型的效果也能夠達(dá)到與ChatGLM-6B持平的水準(zhǔn)。此外,我們可以發(fā)現(xiàn):Toucan的強(qiáng)項(xiàng)是code任務(wù)與re-write任務(wù),并且rewrite能力評(píng)分甚至超過ChatGPT。

上述對(duì)比驗(yàn)證了Toucan在多個(gè)維度上展現(xiàn)出色的語言理解與生成能力,這說明Toucan作為通用語言模型,具有較強(qiáng)的應(yīng)用潛力。當(dāng)然,大語言模型之間的對(duì)比評(píng)估是一個(gè)復(fù)雜的過程,不存在一個(gè)模型在所有方面都占絕對(duì)優(yōu)勢(shì)。我們會(huì)繼續(xù)致力于完善評(píng)估方案,以更全面地判斷模型的優(yōu)劣。

Toucan模型INT4量化

如上節(jié)所述,Toucan-7B-4bit模型基于當(dāng)前最前沿的INT4量化技術(shù),實(shí)現(xiàn)了對(duì)Toucan-7B模型的近乎無損量化。本節(jié)對(duì)Toucan-7B-4bit模型中所使用的INT4量化技術(shù)進(jìn)行簡單介紹。

Toucan-7B-4bit模型中使用了GPTQ和VS-Quant兩種IN4量化技術(shù)。GPTQ是一種one-shot PTQ 方法。不同于之前使用統(tǒng)計(jì)手段(如 kl-divergence)獲得最小/最大值量化參數(shù),GPTQ 先計(jì)算權(quán)重的Hessian 矩陣,再結(jié)合此矩陣和局部量化結(jié)果,逐步迭代權(quán)重。在物理意義上,Hessian 矩陣對(duì)角線數(shù)值,表示多元函數(shù)沿坐標(biāo)軸方向的曲率。因此相對(duì)于統(tǒng)計(jì)量化方法,GPTQ 更具有說服力。VS-Quant技術(shù)使用更細(xì)粒度的縮放因子,為每個(gè)小向量(16-64個(gè)元素)使用一個(gè)獨(dú)立的縮放因子,這可以提高每個(gè)元素的有效精度。并通過兩級(jí)量化和訓(xùn)練,可以用低比特寬的整數(shù)來表示這些向量縮放因子。

這里4bit量化技術(shù)主要用于減小模型尺寸,降低顯存容量和帶寬占用,計(jì)算時(shí)需要反量化成fp16再進(jìn)行計(jì)算。LLM推理,通常都是帶寬和顯存容量受限,計(jì)算并不是問題。

我們將Toucan-7B-4bit模型和Toucan-7B-fp16模型的實(shí)測顯存占用量進(jìn)行了對(duì)比:

463edcac-3da6-11ee-ac96-dac502259ad0.png

通過上表對(duì)比可以發(fā)現(xiàn):在初始階段,Toucan-7B-fp16模型的顯存占用量為13.3GB,而Toucan-7B-int4模型的顯存占用量僅為5.7GB;隨著模型迭代推理的逐步進(jìn)行,當(dāng)Token長度達(dá)到1024時(shí),Toucan-7B-fp16模型的顯存占用量上至14.7GB,而Toucan-7B-int4模型的顯存占用量仍維持在6.7GB;當(dāng)達(dá)到模型支持的最大輸入長度2048時(shí),Toucan-7B-fp16模型的顯存占用量達(dá)到了17.3GB,而Toucan-7B-int4模型的顯存占用量僅為8.1GB。

Toucan-7B-int4模型可以在低顯存占用的情況下大語言模型推理,這對(duì)采用消費(fèi)級(jí)顯卡的用戶更為友好。在Toucan開源倉庫中,嘉楠科技開源了Toucan-7B-4bit模型的量化參數(shù)生成代碼以及量化模型推理代碼,感興趣的開發(fā)者可進(jìn)行詳細(xì)閱讀相關(guān)內(nèi)容。

Toucan單顯卡訓(xùn)練

Toucan詳細(xì)技術(shù)文檔及代碼見該開源倉庫如下:

https://github.com/kendryte/Toucan-LLM:

46650242-3da6-11ee-ac96-dac502259ad0.png

如上圖所示,為Toucan開源倉庫的目錄結(jié)構(gòu)。在Toucan開源倉庫中,更新了全參數(shù)微調(diào)訓(xùn)練代碼、基于Gradio的推理代碼、INT4量化代碼,以及模型合并代碼。微調(diào)后的浮點(diǎn)模型也有開源,可下載合并后使用。

啟動(dòng)訓(xùn)練:bash train/run.sh

推理:pythonscripts/demo.py

模型權(quán)重合并:

pythonscripts/apply_delta.py--base/path_to_llama/llama-7b-hf--target./save_path/toucan-7b--delta/path_to_delta/toucan-7b-delta/

Toucan模型能力展示

因?yàn)槠蓿覀冊(cè)谶@里僅展示Toucan的部分能力。感興趣的讀者可以去Github-Toucan-LLM了解更多。

(1)自我介紹

4680f1a0-3da6-11ee-ac96-dac502259ad0.png

(2)寫作助手

46ad934a-3da6-11ee-ac96-dac502259ad0.png

(3)信息抽取

46c0de78-3da6-11ee-ac96-dac502259ad0.png

(4)代碼解析

46e44502-3da6-11ee-ac96-dac502259ad0.png

加入我們

我們相信開源對(duì)技術(shù)進(jìn)步具有重要意義,也希望Toucan能為推進(jìn)開源大語言模型貢獻(xiàn)一份力量。我們歡迎和鼓勵(lì)開發(fā)者在Toucan代碼庫的基礎(chǔ)上進(jìn)行創(chuàng)造,無論是模型效果的提升還是應(yīng)用場景的拓展。

在LLM時(shí)代,我們?nèi)蕴幵诩夹g(shù)快速進(jìn)步的早期階段。加入開源力量。在開放、協(xié)作的開源社區(qū)中,每一份貢獻(xiàn)都將變成技術(shù)進(jìn)步的階梯。

我們期待您的加入,與我們一同推動(dòng)LLM和其他前沿技術(shù)的開源之旅!

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1206

    瀏覽量

    120778
  • 芯片設(shè)計(jì)
    +關(guān)注

    關(guān)注

    15

    文章

    1029

    瀏覽量

    55010
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31572

    瀏覽量

    270374
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3408

    瀏覽量

    42719
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    539

    瀏覽量

    10342

原文標(biāo)題:嘉楠開源通用大語言模型Toucan 且INT4量化效果媲美ChatGLM

文章出處:【微信號(hào):CanaanTech,微信公眾號(hào):嘉楠科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    香蕉派 BPI-CanMV-K230D-Zero 采用科技 K230D RISC-V芯片設(shè)計(jì)

    概述 Banana Pi BPI-CanMV-K230D-Zero 采用科技 K230D RISC-V芯片設(shè)計(jì),探索 RISC-V Vector1.0 的前沿技術(shù),選擇
    發(fā)表于 07-30 17:43

    香蕉派開發(fā)板BPI-CanMV-K230D-Zero 科技 RISC-V開發(fā)板公開發(fā)售

    Banana Pi BPI-CanMV-K230D-Zero 公開發(fā)售[]() Banana Pi 與 科技繼K210官方合作后,推出的最新的K230D的開源硬件產(chǎn)品。雙方將緊密合作,共推
    發(fā)表于 11-05 15:29

    華秋電子與科技合作,推廣勘智全系A(chǔ)I產(chǎn)品

    ,AI運(yùn)算單元KPU支持BF16浮點(diǎn)數(shù)據(jù)格式,是國內(nèi)少數(shù)支持高精度推理計(jì)算的端側(cè)AI芯片。而為了降低K510芯片和開發(fā)板的使用門檻,科技提供從軟件開發(fā)SDK、AI模型用例、技術(shù)文檔
    發(fā)表于 07-22 11:11

    重磅!華秋電子與科技正式簽訂合作協(xié)議

    ,AI運(yùn)算單元KPU支持BF16浮點(diǎn)數(shù)據(jù)格式,是國內(nèi)少數(shù)支持高精度推理計(jì)算的端側(cè)AI芯片。而為了降低K510芯片和開發(fā)板的使用門檻,科技提供從軟件開發(fā)SDK、AI模型用例、技術(shù)文檔
    發(fā)表于 07-22 11:13

    華秋電子與科技簽訂合作協(xié)議,7月起系列產(chǎn)品陸續(xù)上線華秋商城

    ,AI運(yùn)算單元KPU支持BF16浮點(diǎn)數(shù)據(jù)格式,是國內(nèi)少數(shù)支持高精度推理計(jì)算的端側(cè)AI芯片。而為了降低K510芯片和開發(fā)板的使用門檻,科技提供從軟件開發(fā)SDK、AI模型用例、技術(shù)文檔
    發(fā)表于 07-22 11:15

    華秋電子與科技正式簽訂合作協(xié)議,在開源生態(tài)、媒體社區(qū)等多領(lǐng)域開展深入合作

    ,AI運(yùn)算單元KPU支持BF16浮點(diǎn)數(shù)據(jù)格式,是國內(nèi)少數(shù)支持高精度推理計(jì)算的端側(cè)AI芯片。而為了降低K510芯片和開發(fā)板的使用門檻,科技提供從軟件開發(fā)SDK、AI模型用例、技術(shù)文檔
    發(fā)表于 07-22 11:25

    科技旗下全球首款RIS-V架構(gòu)商用邊緣AI芯片,華秋商城現(xiàn)貨在售

    )成立于2013年,是一家以ASIC高性能計(jì)算芯片設(shè)計(jì)為核心,集芯片研發(fā)、計(jì)算設(shè)備生產(chǎn)和軟件服務(wù)的科技公司。作為國內(nèi)較早采用開源指令集架構(gòu)研發(fā)芯片的企業(yè),科技在2018年發(fā)布全球首款RISC-V架構(gòu)
    發(fā)表于 11-18 15:04

    NCNN+Int8+yolov5部署和量化

    【GiantPandaCV引言】?還記得我在兩個(gè)月前寫的文章嗎,關(guān)于yolov4-tiny+ncnn+int8量化的詳細(xì)教程:NCNN+INT8+YOLOV4量化
    發(fā)表于 01-25 16:01 ?2次下載
    NCNN+<b class='flag-5'>Int</b>8+yolov5部署和<b class='flag-5'>量化</b>

    華秋電子與科技正式簽訂合作協(xié)議

    近日,電子產(chǎn)業(yè)一站式服務(wù)平臺(tái)華秋電子與科技正式簽訂合作協(xié)議。未來,雙方將針對(duì)科技開發(fā)板、核心板、AI芯片等系列產(chǎn)品,在開源生態(tài)、媒體
    的頭像 發(fā)表于 08-09 14:01 ?1168次閱讀

    深度解析MegEngine 4 bits量化開源實(shí)現(xiàn)

    因此量化模型被廣泛使用在推理側(cè),量化也成為了一個(gè)重要且非常活躍的研究領(lǐng)域。近期,MegEngine 開源4 bits 的
    的頭像 發(fā)表于 09-23 15:08 ?1026次閱讀

    英偉達(dá):5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

    降低數(shù)字格式而不造成重大精度損失,要?dú)w功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術(shù)。具體來說,一個(gè)INT4數(shù)字只能精確表示從-8到7的16個(gè)整數(shù)。
    的頭像 發(fā)表于 12-12 15:48 ?862次閱讀

    科技榮登中國AI芯片企業(yè)50強(qiáng) 高性能圖像處理芯片K510全面開源

    中國芯片設(shè)計(jì)企業(yè)追蹤研究,評(píng)估維度涵蓋核心技術(shù)實(shí)力、團(tuán)隊(duì)建制、市場前景空間、商用落地進(jìn)展、最新融資進(jìn)度和國產(chǎn)替代價(jià)值六大維度。在入選名單科技以其在端側(cè)AI
    的頭像 發(fā)表于 09-02 17:48 ?3497次閱讀
    <b class='flag-5'>嘉</b><b class='flag-5'>楠</b>科技榮登中國AI芯片企業(yè)50強(qiáng) 高性能圖像處理芯片K510全面<b class='flag-5'>開源</b>

    類GPT模型訓(xùn)練提速26.5%,清華朱軍等人用INT4算法加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    使用 INT4 算法實(shí)現(xiàn)所有矩陣乘法的 Transformer 訓(xùn)練方法。 模型訓(xùn)練得快不快,這與激活值、權(quán)重、梯度等因素的要求緊密相關(guān)。 神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要一定計(jì)算量,使用低精度算法(全量化訓(xùn)練或 FQT 訓(xùn)練)有望提升計(jì)算和內(nèi)
    的頭像 發(fā)表于 07-02 20:35 ?710次閱讀
    類GPT<b class='flag-5'>模型</b>訓(xùn)練提速26.5%,清華朱軍等人用<b class='flag-5'>INT4</b>算法加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    在Xilinx器件上具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)

    電子發(fā)燒友網(wǎng)站提供《在Xilinx器件上具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò).pdf》資料免費(fèi)下載
    發(fā)表于 09-13 09:30 ?0次下載
    在Xilinx器件上具有<b class='flag-5'>INT4</b>優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)

    源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

    2.0-M32量化版是"源"大模型團(tuán)隊(duì)為進(jìn)一步提高模算效率,降低大模型部署運(yùn)行的計(jì)算資源要求而推出的版本,通過采用領(lǐng)先的量化技術(shù),將原
    的頭像 發(fā)表于 08-25 22:06 ?378次閱讀
    源2.0-M32大<b class='flag-5'>模型</b>發(fā)布<b class='flag-5'>量化</b>版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3
    主站蜘蛛池模板: 色先锋av资源中文字幕 | 性欧美videofree视频另类 | 欧美一级别 | 天天做天天爱天天爽综合区 | 五月天丁香花婷婷 | 99久久婷婷国产综合精品电影 | 一区二区三区四区在线视频 | 日本三级欧美三级香港黄 | 伊人久久大香线蕉综合高清 | 大象焦伊人久久综合网色视 | 午夜操一操 | 天天舔天天干 | 精品三级三级三级三级三级 | 免费看大尺度视频在线观看 | 欧美大片国产在线永久播放 | 神马午夜98 | 色播视频在线观看免费 | 夜夜操网站 | 免费免播放器在线视频观看 | 天天在线免费视频 | 啪啪免费视频 | 色天使色婷婷丁香久久综合 | 天天爽夜夜爽精品免费 | 国产高清在线观看 | 亚洲产国偷v产偷v自拍色戒 | 男女网站在线观看 | 中文字幕一区二区三区不卡 | 天堂资源地址在线 | 免费番茄社区性色大片 | 夜夜爱夜夜做夜夜爽 | 一区精品视频 | 久久这里只有精品免费视频 | 上课被同桌强行摸下面小黄文 | 日本电影在线观看黄 | 在线免费视频你懂的 | 女同性大尺度床戏视频 | 中文字幕视频一区二区 | 一级特级aaa毛片 | 久操视频在线 | 日本黄色大片网站 | 无人码一区二区三区视频 |