在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer壓縮部署的前沿技術(shù):RPTQ與PB-LLM

后摩智能 ? 來源:后摩智能 ? 2024-01-24 14:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著人工智能技術(shù)的迅速發(fā)展,Transformer在自然語言處理、機(jī)器翻譯、問答系統(tǒng)等領(lǐng)域取得了顯著的性能提升。然而,這些模型的部署面臨著巨大的挑戰(zhàn),主要源于其龐大的模型尺寸和內(nèi)存消耗。

在部署過程中,網(wǎng)絡(luò)壓縮是一種常用的解決方案,可以有效減小模型的體積,提高模型在移動(dòng)設(shè)備等資源受限環(huán)境下的部署效率。其中,量化技術(shù)是將大模型中的浮點(diǎn)數(shù)參數(shù)轉(zhuǎn)換為整數(shù),并進(jìn)行存儲(chǔ)和計(jì)算的方法。由于Transformer的網(wǎng)絡(luò)參數(shù)越來越多、計(jì)算量越來越大,對(duì)于存儲(chǔ)和計(jì)算資源有限的邊緣設(shè)備來說,模型部署帶來了很大的挑戰(zhàn)。

網(wǎng)絡(luò)量化是一種常見的解決方案,通過將模型參數(shù)量化為整數(shù),可以大幅度減少模型的存儲(chǔ)空間和計(jì)算量,從而實(shí)現(xiàn)在邊緣設(shè)備上高效部署Transformer。

后摩智能也在Transformer量化提出了一些領(lǐng)先的算法方案。在本文中,我們將重點(diǎn)介紹兩種針對(duì)Transformer的量化方案:

RPTQ(Reorder-based Post-training Quantization)

PB-LLM(Partially Binarized Large Language Models)

這兩種方法分別針對(duì)激活量化和權(quán)重量化,旨在實(shí)現(xiàn)極端低位量化,同時(shí)保持語言推理能力。

RPTQ:

量化激活通道的新思路

46c8f2a2-ba7e-11ee-8b88-92fbcf53809c.png

RPTQ(Reorder-based Post-training Quantization)是后摩智能團(tuán)隊(duì)與華中科技大學(xué)等合作單位提出的一種全新的量化方法,旨在解決量化Transformer時(shí)激活通道之間的數(shù)值范圍差異問題。

相較于以往的研究,RPTQ首次將3位激活引入了LLMs,實(shí)現(xiàn)了顯著的內(nèi)存節(jié)省,例如在量化OPT-175B模型方面,內(nèi)存消耗降低了高達(dá)80%。RPTQ的關(guān)鍵思想是通過重新排列激活通道并按簇量化,從而減少通道范圍差異的影響。同時(shí),通過操作融合,避免了顯式重新排序的操作,使得RPTQ的開銷幾乎為零。通過這種方法,RPTQ有效地解決了激活通道數(shù)值范圍差異導(dǎo)致的量化誤差問題。

PB-LLM:

實(shí)現(xiàn)極端低位量化的新突破

47152bf4-ba7e-11ee-8b88-92fbcf53809c.png

PB-LLM(Partially Binarized Large Language Models)是后摩智能團(tuán)隊(duì)與伊利諾伊理工和伯克利大學(xué)等單位合作提出的另一種創(chuàng)新性量化方法,主要針對(duì)權(quán)重量化。目前該篇論文已被接收至ICLR 2024,ICLR 以介紹和發(fā)布人工智能、統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)領(lǐng)域深度學(xué)習(xí)的尖端研究而聞名,被認(rèn)為是“深度學(xué)習(xí)的頂級(jí)會(huì)議”。

相較于傳統(tǒng)的二值化方法,PB-LLM采用了部分二值化的策略,即將一部分顯著權(quán)重分配到高位存儲(chǔ),從而在實(shí)現(xiàn)極端低位量化的同時(shí),保持了Transformer的語言推理能力。通過對(duì)顯著權(quán)重的充分利用,PB-LLM取得了顯著的性能提升,為Transformer的內(nèi)存消耗和計(jì)算復(fù)雜度提供了有效的解決方案。這是學(xué)術(shù)界首次探索對(duì)Transformer權(quán)重?cái)?shù)值二值化的工作。

后摩智能的技術(shù)優(yōu)勢(shì):突破性內(nèi)存計(jì)算技術(shù)驅(qū)動(dòng)AI發(fā)展

后摩智能作為大算力存算一體領(lǐng)域的先行者,憑借著RPTQ和PB-LLM等創(chuàng)新性量化方法的提出,取得了在大型語言模型中實(shí)現(xiàn)極端低位量化的突破。同時(shí),后摩智能團(tuán)隊(duì)在內(nèi)存計(jì)算領(lǐng)域擁有深厚的研究實(shí)力和豐富的實(shí)踐經(jīng)驗(yàn),與行業(yè)內(nèi)多家頂尖機(jī)構(gòu)展開了廣泛的合作。這使得后摩智能得以不斷推動(dòng)內(nèi)存計(jì)算技術(shù)的發(fā)展,為人工智能技術(shù)的應(yīng)用提供了更多創(chuàng)新性解決方案。

總的來說,后摩智能的RPTQ和PB-LLM等突破性量化方法為解決大型語言模型部署中的內(nèi)存消耗和計(jì)算復(fù)雜度問題提供了有效的解決方案。隨著內(nèi)存計(jì)算技術(shù)的不斷演進(jìn),后摩智能將繼續(xù)致力于推動(dòng)人工智能技術(shù)的發(fā)展,實(shí)現(xiàn)萬物智能的愿景。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1805

    文章

    48936

    瀏覽量

    248303
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14108
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    324

    瀏覽量

    792

原文標(biāo)題:后摩前沿 | Transformer 壓縮部署的前沿技術(shù):RPTQ與PB-LLM

文章出處:【微信號(hào):后摩智能,微信公眾號(hào):后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    MediaTek前沿技術(shù)開啟智能化未來

    為了搞定越來越龐大的 AI 運(yùn)算需求,MediaTek 憑借先進(jìn)制程解決方案、高速芯片互聯(lián)接口、采用先進(jìn)封裝技術(shù),以及客制化高帶寬內(nèi)存(HBM)整合方案等,讓前沿技術(shù)的商業(yè)化落地成為可能。此外
    的頭像 發(fā)表于 06-25 16:09 ?262次閱讀

    天合光能亮相第十八屆全球光伏前沿技術(shù)大會(huì)

    近日,第十八屆全球光伏前沿技術(shù)大會(huì)在上海開幕。天合光能戰(zhàn)略、產(chǎn)品與市場(chǎng)負(fù)責(zé)人張映斌博士受邀發(fā)表主題演講并倡導(dǎo):隨著背面發(fā)電技術(shù)的進(jìn)步,光伏行業(yè)應(yīng)與時(shí)俱進(jìn)、全面升級(jí)以組件綜合效率及綜合發(fā)電為核心指標(biāo)的評(píng)價(jià)新體系。
    的頭像 發(fā)表于 06-16 10:47 ?389次閱讀

    MediaTek新一代前沿技術(shù)亮相COMPUTEX 2025

    計(jì)算的新一代前沿技術(shù);MediaTek 副董事長(zhǎng)暨執(zhí)行長(zhǎng)蔡力行博士于 5 月 20 日發(fā)表主題演講,深入探討 AI、6G、邊緣計(jì)算、云計(jì)算在數(shù)字化轉(zhuǎn)型浪潮中所扮演的角色,并展現(xiàn) MediaTek 將無處不在的智慧融合運(yùn)算帶給全球用戶的企業(yè)愿景。
    的頭像 發(fā)表于 05-23 09:32 ?341次閱讀

    基于先進(jìn)MCU的機(jī)器人運(yùn)動(dòng)控制系統(tǒng)設(shè)計(jì):理論、實(shí)踐與前沿技術(shù)

    摘要 :隨著機(jī)器人技術(shù)的飛速發(fā)展,對(duì)運(yùn)動(dòng)控制系統(tǒng)的性能要求日益嚴(yán)苛。本文聚焦于基于先進(jìn)MCU(微控制單元)的機(jī)器人運(yùn)動(dòng)控制系統(tǒng)設(shè)計(jì),深入剖析其理論基礎(chǔ)、實(shí)踐方法與前沿技術(shù)。以國科安芯的MCU芯片
    的頭像 發(fā)表于 04-27 10:58 ?249次閱讀

    MediaTek在MWC 2025展示前沿技術(shù)

    MediaTek 在 MWC 2025 上展示了超多領(lǐng)域的前沿技術(shù),讓我們一起來回顧一下吧!
    的頭像 發(fā)表于 04-08 14:43 ?446次閱讀

    【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】DeepSeek 部署及測(cè)試

    Python API 在開發(fā)板上進(jìn)行部署。 在官方提供的示例程序框架下,僅需要完成模型訓(xùn)練和模型轉(zhuǎn)換(模型轉(zhuǎn)換可參考 rknn-llm 倉庫下 rknn-llm/examples
    發(fā)表于 03-21 19:31

    漢得利多項(xiàng)前沿技術(shù)亮相CES 2025

    近日,在拉斯維加斯盛大舉行的CES 2025現(xiàn)場(chǎng),漢得利 BESTAR 展示了定向音響、座椅振動(dòng)、壓電微泵等多項(xiàng)前沿技術(shù),迅速吸引了眾多觀眾親身參與體驗(yàn)。尤其是座椅振動(dòng)技術(shù)和定向音響贏得了現(xiàn)場(chǎng)參觀者
    的頭像 發(fā)表于 01-10 09:38 ?436次閱讀

    什么是LLMLLM在自然語言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制
    的頭像 發(fā)表于 11-19 15:32 ?3564次閱讀

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能領(lǐng)域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機(jī)器學(xué)習(xí)是兩種不同的技術(shù)路徑,它們?cè)谔幚頂?shù)據(jù)、模型結(jié)構(gòu)、應(yīng)用場(chǎng)景等方面有著顯著的差異。 1. 模型結(jié)構(gòu)
    的頭像 發(fā)表于 11-08 09:25 ?1808次閱讀

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時(shí),直接將大型語言模型(LLM)的訓(xùn)練速度提升了高達(dá)20倍。這一顯著的性能提升,無疑將極大地推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用。 在nGPT中,所有的向量(包
    的頭像 發(fā)表于 10-23 11:30 ?848次閱讀

    智能工業(yè)檢測(cè):海康威視HK-100C網(wǎng)絡(luò)控制板的前沿技術(shù)

    智能工業(yè)檢測(cè):海康威視HK-100C網(wǎng)絡(luò)控制板的前沿技術(shù)
    的頭像 發(fā)表于 10-15 14:20 ?656次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮
    的頭像 發(fā)表于 07-24 11:38 ?1743次閱讀

    llm模型本地部署有用嗎

    在當(dāng)今的人工智能領(lǐng)域,LLM(Large Language Model,大型語言模型)已經(jīng)成為了一種非常受歡迎的技術(shù)。它們?cè)谧匀徽Z言處理(NLP)任務(wù)中表現(xiàn)出色,如文本生成、翻譯、摘要、問答等。然而
    的頭像 發(fā)表于 07-09 10:14 ?1193次閱讀

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是一種基于自注意力機(jī)制的模型,廣泛應(yīng)用于NLP領(lǐng)域。基于TransformerLLM模型包括: a. BERT(Bidir
    的頭像 發(fā)表于 07-09 09:59 ?1352次閱讀

    llm模型和chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語言處理(NLP)模型。LLM模型可以處理各種語言任務(wù),如文本生成、文本分類、機(jī)器翻譯等。目前
    的頭像 發(fā)表于 07-09 09:55 ?1945次閱讀
    主站蜘蛛池模板: 三级五月天 | 中文字幕精品一区影音先锋 | 玖玖国产| 国产特黄一级一片免费 | 人人干日日操 | 欧美一区视频 | 久久久夜色精品国产噜噜 | 久久久久久久国产精品影院 | 免费无毒片在线观看 | 亚洲综合激情另类专区 | se色综合视频 | 亚洲国产成a人v在线观看 | 97视频碰碰车 | 综合网伊人 | 狠狠插狠狠插 | www.午夜色 | 色视频在线免费看 | 婷婷亚洲综合五月天小说在线 | 美女喷白浆视频 | 国产精品午夜国产小视频 | 久久99精品久久久久久园产越南 | 毛片2016免费视频 | 天天摸天天看 | 天天干亚洲| 中文在线最新版天堂 | 精品国产三级a∨在线 | ww欧洲ww在线视频看ww | 影院午夜| 久久99久久精品国产只有 | 中文在线免费看影视 | 韩国激情啪啪 | 97色伦人人| 男人午夜天堂 | 一级毛片无毒不卡直接观看 | 亚洲天堂视频在线观看免费 | 嘿嘿嘿视频在线观看网站 | 99免费观看视频 | 三级网站在线播放 | 图片区网友自拍另类图区 | 在线视频 一区二区 | 91久久麻豆 |