91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

“伶荔”(Linly) 開源大規(guī)模中文語言模型

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2023-05-04 10:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了開發(fā)高性能中文基礎(chǔ)模型,填補中文基礎(chǔ)模型百億到千億級預(yù)訓(xùn)練參數(shù)的空白,大數(shù)據(jù)系統(tǒng)計算技術(shù)國家工程實驗室團隊在人工智能項目伶荔(Linly)框架下,推出了伶荔說系列中文語言大模型,目前包含中文基礎(chǔ)模型和對話模型。

其中,中文基礎(chǔ)模型以 LLaMA 為底座,利用中文和中英平行增量預(yù)訓(xùn)練,將它在英文上強大語言能力遷移到中文上。更進一步,匯總了目前公開的多語言指令數(shù)據(jù),對中文模型進行了大規(guī)模指令跟隨訓(xùn)練,實現(xiàn)了 Linly-ChatFlow 對話模型。

0cbaa256-e89f-11ed-ab56-dac502259ad0.png

根據(jù)介紹,相比已有的中文開源模型,伶荔模型具有以下優(yōu)勢:

在 32*A100 GPU 上訓(xùn)練了不同量級和功能的中文模型,對模型充分訓(xùn)練并提供強大的 baseline。據(jù)知,33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。

公開所有訓(xùn)練數(shù)據(jù)、代碼、參數(shù)細節(jié)以及實驗結(jié)果,確保項目的可復(fù)現(xiàn)性,用戶可以選擇合適的資源直接用于自己的流程中。

項目具有高兼容性和易用性,提供可用于 CUDA 和 CPU 的量化推理框架,并支持 Huggingface 格式。

目前公開可用的模型有:

Linly-Chinese-LLaMA:中文基礎(chǔ)模型,基于 LLaMA 在高質(zhì)量中文語料上增量訓(xùn)練強化中文語言能力,現(xiàn)已開放 7B、13B 和 33B 量級,65B 正在訓(xùn)練中。

Linly-ChatFlow:中文對話模型,在 400 萬指令數(shù)據(jù)集合上對中文基礎(chǔ)模型指令精調(diào),現(xiàn)已開放 7B、13B 對話模型。

Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版本,用于在 CPU 上部署模型推理。

進行中的項目:

Linly-Chinese-BLOOM:基于 BLOOM 中文增量訓(xùn)練的中文基礎(chǔ)模型,包含 7B 和 175B 模型量級,可用于商業(yè)場景。

項目特點

Linly 項目具有以下特點:

1. 大規(guī)模中文增量訓(xùn)練,利用翻譯數(shù)據(jù)提速中文模型收斂

在訓(xùn)練數(shù)據(jù)方面,項目盡可能全面的收集了各類中文語料和指令數(shù)據(jù)。無監(jiān)督訓(xùn)練使用了上億條高質(zhì)量的公開中文數(shù)據(jù),包括新聞、百科、文學(xué)、科學(xué)文獻等類型。和通常的無監(jiān)督預(yù)訓(xùn)練不同,項目在訓(xùn)練初期加入了大量中英文平行語料,幫助模型將英文能力快速遷移到中文上。

在指令精調(diào)階段,項目匯總了開源社區(qū)的指令數(shù)據(jù)資源,包括多輪對話、多語言指令、GPT4/ChatGPT 問答、思維鏈數(shù)據(jù)等等,經(jīng)過篩選后使用 500 萬條數(shù)據(jù)進行指令精調(diào)得到 Linly-ChatFlow 模型。訓(xùn)練使用的數(shù)據(jù)集也在項目里提供。

訓(xùn)練流程如圖所示:

0cc77404-e89f-11ed-ab56-dac502259ad0.png

2. 全參數(shù)訓(xùn)練,覆蓋多個模型量級

目前基于 LLaMA 的中文模型通常使用 LoRA 方法進行訓(xùn)練,LoRA 凍結(jié)預(yù)訓(xùn)練的模型參數(shù),通過往模型中加入額外的網(wǎng)絡(luò)層,并只訓(xùn)練這些新增的網(wǎng)絡(luò)層參數(shù),來實現(xiàn)快速適配。雖然 LoRA 能夠提升訓(xùn)練速度且降低設(shè)備要求,但性能上限低于全參數(shù)訓(xùn)練。為了使模型獲得盡可能強的中文語言能力,該項目對所有參數(shù)量級都采用全參數(shù)訓(xùn)練,開銷大約是 LoRA 的 3-5 倍。

伶荔語言模型利用 TencentPretrain 多模態(tài)預(yù)訓(xùn)練框架,集成 DeepSpeed ZeRO3 以 FP16 流水線并行訓(xùn)練。目前已開放 7B、13B、33B 模型權(quán)重,65B 模型正在訓(xùn)練中。模型仍在持續(xù)迭代,將定期更新,損失收斂情況如圖所示:

0cd69cea-e89f-11ed-ab56-dac502259ad0.png

3. 可支持本地 CPU int4 推理、消費級 GPU 推理

大模型通常具有數(shù)百億參數(shù)量,提高了使用門檻。為了讓更多用戶使用 Linly-ChatFlow 模型,開發(fā)團隊在項目中集成了高可用模型量化推理方案,支持 int4 量化 CPU 推理可以在手機或者筆記本電腦上使用,int8 量化使用 CUDA 加速可以在消費級 GPU 推理 13B 模型。此外,項目中還集成了微服務(wù)部署,用戶能夠一鍵將模型部署成服務(wù),方便二次開發(fā)。

未來工作

據(jù)透露,伶荔說系列模型目前仍處于欠擬合,正在持續(xù)訓(xùn)練中,未來 33B 和 65B 的版本或?qū)砀@艷的性能。在另一方面,項目團隊不僅公開了對話模型,還公開了中文基礎(chǔ)模型和相應(yīng)的訓(xùn)練代碼與數(shù)據(jù)集,向社區(qū)提供了一套可復(fù)現(xiàn)的對話模型方案,目前也有團隊基于其工作實現(xiàn)了金融、醫(yī)學(xué)等領(lǐng)域的垂直領(lǐng)域?qū)υ捘P汀?/p>

在之后的工作,項目團隊將繼續(xù)對伶荔說系列模型進行改進,包括嘗試人類反饋的強化學(xué)習(xí)(RLHF)、適用于中文的字詞結(jié)合 tokenizer、更高效的 GPU int3/int4 量化推理方法等等。伶荔項目還將針對虛擬人、醫(yī)療以及智能體場景陸續(xù)推出伶荔系列大模型。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11076

    瀏覽量

    216998
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49007

    瀏覽量

    249274
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3678

    瀏覽量

    43811
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10787

原文標(biāo)題:“伶荔”(Linly) 開源大規(guī)模中文語言模型

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    華為正式開源盤古7B稠密和72B混合專家模型

    關(guān)鍵舉措,推動大模型技術(shù)的研究與創(chuàng)新發(fā)展,加速推進人工智能在千行百業(yè)的應(yīng)用與價值創(chuàng)造。 盤古Pro MoE 72B模型權(quán)重、基礎(chǔ)推理代碼,已正式上線開源平臺。 基于昇騰的超大規(guī)模MoE
    的頭像 發(fā)表于 06-30 11:19 ?449次閱讀

    探索在Arm平臺運行的Llama 4 Scout模型

    人工智能 (AI) 正在加速發(fā)展,也越來越智能化。當(dāng)今的開源語言模型不僅功能強大,而且在設(shè)計時充分考慮了實際部署的需求,因而具有輕量化和經(jīng)濟高效的特點,可大規(guī)模部署到數(shù)十億臺設(shè)備上。
    的頭像 發(fā)表于 05-20 09:54 ?301次閱讀

    薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊的引腳圖、接線圖、封裝手冊、中文資料、英文資料,薄型、多頻段、大規(guī)模
    發(fā)表于 05-15 18:32
    薄型、多頻段、<b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)前端模塊 skyworksinc

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模模型訓(xùn)練提供了全新的算力解決方案。
    的頭像 發(fā)表于 04-24 09:27 ?288次閱讀

    引領(lǐng)少兒 AI 編程教育革新!英教育率先接入 DeepSeek

    2 月 8 日,英教育旗下核心產(chǎn)品 英 AI 應(yīng)用平臺 正式接入全球頂尖 AI 大模型 DeepSeek 。通過整合 DeepSeek 的認知決策能力和英多年積累的教育經(jīng)驗,將為
    的頭像 發(fā)表于 02-11 13:16 ?1282次閱讀

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?384次閱讀

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    那些擁有數(shù)十億甚至數(shù)千億參數(shù)的大規(guī)模模型成為了現(xiàn)實可能。Transformer 等機制模型架構(gòu)的橫空出世,徹底改變了模型訓(xùn)練的效率和性能。 我有時在想國外為何能夠在大
    發(fā)表于 12-24 13:10

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?523次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?689次閱讀

    騰訊發(fā)布開源MoE大語言模型Hunyuan-Large

    近日,騰訊公司宣布成功推出業(yè)界領(lǐng)先的開源MoE(Mixture of Experts,專家混合)大語言模型——Hunyuan-Large。這款模型不僅在參數(shù)量上刷新了業(yè)界紀錄,更在效果
    的頭像 發(fā)表于 11-06 10:57 ?718次閱讀

    使用EMBark進行大規(guī)模推薦系統(tǒng)訓(xùn)練Embedding加速

    推薦系統(tǒng)是互聯(lián)網(wǎng)行業(yè)的核心系統(tǒng),如何高效訓(xùn)練推薦系統(tǒng)是各公司關(guān)注的核心問題。目前,推薦系統(tǒng)基本上都是基于深度學(xué)習(xí)的大規(guī)模 ID 類模型模型包含數(shù)十億甚至數(shù)百億級別的 ID 特征,典型結(jié)構(gòu)如圖 1 所示。
    的頭像 發(fā)表于 10-31 14:46 ?752次閱讀
    使用EMBark進行<b class='flag-5'>大規(guī)模</b>推薦系統(tǒng)訓(xùn)練Embedding加速

    搭建開源語言模型服務(wù)的方法

    本文我們將總結(jié)5種搭建開源語言模型服務(wù)的方法,每種都附帶詳細的操作步驟,以及各自的優(yōu)缺點。
    的頭像 發(fā)表于 10-29 09:17 ?687次閱讀

    NVIDIA NIM助力企業(yè)高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺集成了 NVIDIA NIM,將允許用戶通過 API 調(diào)用來大規(guī)模地部署大語言模型
    的頭像 發(fā)表于 10-10 09:49 ?764次閱讀

    開放原子開源大賽助力輕量級大語言模型應(yīng)用落地

    “Intel借助開源大賽在全國的影響力,吸引更多開發(fā)者加入大語言模型及其在人工智能領(lǐng)域的創(chuàng)新應(yīng)用?!必撠?zé)BigDL-LLM賽題運營的Intel工作人員表示。
    的頭像 發(fā)表于 09-24 10:38 ?999次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    學(xué)習(xí)方法。其中文本向量化中的三種編碼方式:獨熱編碼、靜態(tài)編碼和動態(tài)編碼,這些概念描述是需要時間仔細研究理解的。 1.5章節(jié)終于開始講解大語言模型了,這也是基礎(chǔ)篇的最后一章節(jié),占據(jù)了基礎(chǔ)篇的一半篇幅
    發(fā)表于 07-25 14:33
    主站蜘蛛池模板: 国产稀缺精品盗摄盗拍 | 萝l在线精品社区资源 | 国产综合视频在线观看 | 超碰v| 国产黄视频在线观看 | 日本wwwwww| 美女污污网站 | 男女www视频在线看网站 | 99久久精品费精品国产一区二 | 91深夜福利 | 日本黄色美女网站 | 亚洲国产成人精彩精品 | 国产在线观看www鲁啊鲁免费 | 激情春色网 | 天堂在线观看视频观看www | 小优视频在线 | 超级淫小黄文大全很污的那种 | 午夜在线观看福利 | 97综合| 欧亚精品卡一卡二卡三 | 一女被两男吃奶玩乳尖口述 | 国产永久免费爽视频在线 | 日本色片在线观看 | 国产色秀视频在线观看 | 天天操夜夜操免费视频 | 久久婷婷激情综合色综合也去 | 天天射天天射天天射 | 色婷婷亚洲 | 久久夜色精品国产尤物 | 欧美一级片观看 | 天天操天天擦 | 五月四房婷婷 | 色播欧美 | xxx日本69hd | 婷婷五月情| 91极品反差婊在线观看 | 天堂网www | 特级做a爰片毛片免费看 | 精品伊人久久香线蕉 | 91网站网站网站在线 | 干干日日 |