在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

深度學習自然語言處理 ? 來源:YeungNLP ? 2023-04-14 10:30 ? 次閱讀

在文章Firefly(流螢): 中文對話式大語言模型中,我們介紹了關于Firefly(流螢)項目的工作,并且分享了我們訓練的firefly-1b4模型。這是Firefly項目開源的第一個模型,雖然取得了還不錯的效果,但無論是訓練數據還是模型參數量,都還有很大的優化空間。

所以,在firefly-1b4實驗的基礎上,我們對訓練數據進行清洗,并且增加了數據量,得到210萬數據,并用它訓練得到了firefly-2b6模型。

在本文中,我們將對該模型進行分享和介紹。與firefly-1b4相比,firefly-2b6的代碼生成能力取得了較大的進步,并且在古詩詞生成、對聯、作文、開放域生成等方面也有不錯的提升。

firefly-1b4和firefly-2b6的訓練配置如下表所示。無論是訓練數據量,還是訓練步數,firefly-2b6都更加充分。

參數 firefly-1b4 firefly-2b6
batch size 16 8
learning rate 3e-5 3e-5
warmup step 3000 3000
lr schedule cosine cosine
max length 512 512
training step 90k 260k
訓練集規模 160萬 210萬

項目地址:

https://github.com/yangjianxin1/Firefly

模型權重鏈接見文末。

模型使用

使用如下代碼即可使用模型:

from transformers import BloomTokenizerFast, BloomForCausalLM
device = 'cuda'
path = 'YeungNLP/firefly-2b6'


tokenizer = BloomTokenizerFast.from_pretrained(path)
model = BloomForCausalLM.from_pretrained(path)
model.eval()
model = model.to(device)
text = input('User:')
while True:
    text = '{}'.format(text)
    input_ids = tokenizer(text, return_tensors="pt").input_ids
    input_ids = input_ids.to(device)
outputs=model.generate(input_ids,max_new_tokens=250,do_sample=True,top_p=0.7,temperature=0.35,
                             repetition_penalty=1.2, eos_token_id=tokenizer.eos_token_id)
    rets = tokenizer.batch_decode(outputs)
    output = rets[0].strip().replace(text, "").replace('', "")
    print("Firefly:{}".format(output))
    text = input('User:')

代碼生成

盡管在訓練集中,代碼的數據量不多,但令人驚喜的是,firefly-2b6已經具備一定的代碼生成能力。

在筆者的實測中,對于一些編程題,firefly-2b6生成的代碼可以做到無需修改,直接運行成功,并且得到正確的答案。下面將展示一些編程題的生成例子。

示例1:幫我用python寫一個冒泡排序算法

dee31870-d9b9-11ed-bfe3-dac502259ad0.png

示例2:用python實現一個快速排序算法,輸入為一個數組,返回排序好之后的數組。

deec2f32-d9b9-11ed-bfe3-dac502259ad0.png

示例3:用python寫一個二分查找算法。

defb67b8-d9b9-11ed-bfe3-dac502259ad0.png

示例4:寫一個函數,計算數組中偶數的個數,輸入為數組,輸出為偶數的個數。

df04d12c-d9b9-11ed-bfe3-dac502259ad0.png

示例5:用html生成一個教務管理系統的登錄界面,要求包含用戶名、密碼輸入框和登錄按鈕。

df0d21ce-d9b9-11ed-bfe3-dac502259ad0.png

該html代碼在瀏覽器中的效果如下圖:

df142ce4-d9b9-11ed-bfe3-dac502259ad0.png

其他樣例

同樣,我們也對文言文、古詩詞、文章生成等數據進行了清洗,提高數據的質量。實測下來,我們發現firefly-2b6的生成效果,確實提升了不少。

數據質量的優化,對文言文翻譯任務的提升,尤為明顯。在訓練firefly-1b4時,文言文數據為較短的句子對。但在訓練firefly-2b6時,我們使用了較長篇幅的文本對。

下面為一些實測的例子。

df1b8c28-d9b9-11ed-bfe3-dac502259ad0.png

df286d30-d9b9-11ed-bfe3-dac502259ad0.png

df352c5a-d9b9-11ed-bfe3-dac502259ad0.png

df3dc2e8-d9b9-11ed-bfe3-dac502259ad0.png

df457308-d9b9-11ed-bfe3-dac502259ad0.png

df4cf9ac-d9b9-11ed-bfe3-dac502259ad0.png

df5354dc-d9b9-11ed-bfe3-dac502259ad0.png

df59bf2a-d9b9-11ed-bfe3-dac502259ad0.png

df615a96-d9b9-11ed-bfe3-dac502259ad0.png

df6d2b96-d9b9-11ed-bfe3-dac502259ad0.png

文章小結

雖然firefly-2b6已經初步具備代碼生成能力,但由于訓練集中的代碼數據的數量不多,對于一些編程題,效果不如人意。我們覺得仍有非常大的優化空間,后續我們也將收集更多代碼數據,提升模型的代碼能力。

經過firefly-1b4和firefly-2b6兩個模型的迭代,能明顯感受到增加數據量、提升數據質量、增大模型參數量,對模型的提升非常大。

在前文中,我們提到,firefly-1b4在訓練數據量、訓練步數上都略有不足。為了探索"小"模型的效果上限,我們也將使用更多數量、更高質量的數據對firefly-1b4進行迭代。該項工作正在進行。

后續,我們也將在多輪對話、增大模型參數量、模型量化等方向上進行迭代,我們也將陸續開源訓練代碼以及更多的訓練數據。期待大家的意見和建議。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3479

    瀏覽量

    49931
  • 代碼
    +關注

    關注

    30

    文章

    4886

    瀏覽量

    70203
  • 語言模型
    +關注

    關注

    0

    文章

    558

    瀏覽量

    10647

原文標題:中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    海思SD3403邊緣計算AI數據訓練概述

    模型,將模型轉化為嵌入AI模型模型升級AI攝像機,進行AI識別應用。 AI訓練
    發表于 04-28 11:11

    用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據

    ,使用PaddleNLP將FineWeb數據中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制
    的頭像 發表于 03-21 18:24 ?768次閱讀
    用PaddleNLP為GPT-<b class='flag-5'>2</b><b class='flag-5'>模型</b>制作FineWeb二進制預<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>集

    小白學大模型訓練語言模型的深度指南

    在當今人工智能飛速發展的時代,大型語言模型(LLMs)正以其強大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項研究中,科學家們為了深入了解如何高效地訓練大型
    的頭像 發表于 03-03 11:51 ?558次閱讀
    小白學大<b class='flag-5'>模型</b>:<b class='flag-5'>訓練</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南

    模型訓練:開源數據與算法的機遇與挑戰分析

    進行多方位的總結和梳理。 在第二章《TOP 101-2024 大模型觀點》中,蘇州盛派網絡科技有限公司創始人兼首席架構師蘇震巍分析了大模型訓練過程中開源
    的頭像 發表于 02-20 10:40 ?466次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>:<b class='flag-5'>開源</b><b class='flag-5'>數據</b>與算法的機遇與挑戰分析

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型
    的頭像 發表于 02-10 09:37 ?326次閱讀

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量的數據、計算資源和專業知識。以下是訓練LLM
    的頭像 發表于 11-08 09:30 ?1345次閱讀

    AI大模型訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務的大規模圖像數據集。 Common Crawl :提供了大量的網頁抓取數據以供自然
    的頭像 發表于 10-23 15:32 ?3046次閱讀

    PerfXCloud重磅升級 阿里開源最強視覺語言模型Qwen2-VL-7B強勢上線!

    「重磅通知」 :PerfXCloud 再度華麗升級,現已全面支持迄今為止 最為卓越的開源視覺模型 Qwen2-VL-7B 。這一重大突破將為用戶帶來更加震撼的視覺體驗,進一步拓展創意的邊界,快來
    的頭像 發表于 10-23 11:07 ?635次閱讀
    PerfXCloud重磅升級  阿里<b class='flag-5'>開源</b>最強視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>Qwen<b class='flag-5'>2-VL-7B</b>強勢上線!

    NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成 AI
    的頭像 發表于 09-06 14:59 ?583次閱讀
    NVIDIA Nemotron-4 340<b class='flag-5'>B</b><b class='flag-5'>模型</b>幫助開發者生成合成<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>

    摩爾線程與羽人科技完成大語言模型訓練測試

    (YuRen-7b)大語言模型訓練測試。測試結果顯示,訓練效率達到預期,夸娥千卡智算集群展現出了高度的兼容性和穩定性,為羽人科技未來的零代
    的頭像 發表于 08-27 16:19 ?755次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型
    發表于 08-02 11:03

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?853次閱讀

    tensorflow簡單的模型訓練

    在本文中,我們將詳細介紹如何使用TensorFlow進行簡單的模型訓練。TensorFlow是一個開源的機器學習庫,廣泛用于各種機器學習任務,包括圖像識別、自然語言處理等。我們將從安裝
    的頭像 發表于 07-05 09:38 ?1163次閱讀

    Al大模型機器人

    理解能力強大: AI大模型機器人可以理解和生成自然語言,能夠進行復雜的對話語言任務。它們能夠識別語言中的語義、語境和情感,并據此作出適當的
    發表于 07-05 08:52

    英偉達開源Nemotron-4 340B系列模型,助力大型語言模型訓練

    近日,英偉達宣布開源了一款名為Nemotron-4 340B的大型模型,這一壯舉為開發者們打開了通往高性能大型語言模型(LLM)
    的頭像 發表于 06-17 14:53 ?810次閱讀
    主站蜘蛛池模板: 色女人在线视频 | 夜夜爽天天爽 | 人人爽天天碰天天躁夜夜躁 | 丁香婷婷综合五月综合色啪 | 高清一区二区三区四区五区 | 精品免费久久久久久成人影院 | 5月丁香婷婷 | 高清毛片aaaaaaaaa片 | 狼人射综合 | 四虎精品永久在线 | 天天舔天天射天天干 | 国产女主播精品大秀系列在线 | 欧洲一级鲁丝片免费 | 久久2017| 福利视频免费观看 | 韩国美女丝袜一区二区 | 在线视频 一区二区 | 伊人网综合在线观看 | 四虎国产精品永久免费网址 | 日本一区二区不卡在线 | 永久黄网站色视频免费观看99 | 亚洲成a人一区二区三区 | 日韩第五页| 天天干天天操天天操 | 午夜免费小视频 | 欧美福利一区 | 奇米奇米 | 婷婷六 | 婷婷五月在线视频 | 天堂网www天堂在线资源链接 | 永久免费精品视频 | se色成人亚洲综合 | 精品美女在线 | 天堂在线免费视频 | 亚洲天天看 | 欧美一区二区三区免费 | 亚洲乱码卡一卡二卡三 | 老师下面好湿好紧好滑好想要 | 性夜影院爽黄a爽免费视频 性瘾高h姚蕊全文免费阅读 | avtom影院永久地址人人影院 | 99国产精品久久久久久久成人热 |