在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

深度學習自然語言處理 ? 來源:YeungNLP ? 2023-04-14 10:30 ? 次閱讀

在文章Firefly(流螢): 中文對話式大語言模型中,我們介紹了關于Firefly(流螢)項目的工作,并且分享了我們訓練的firefly-1b4模型。這是Firefly項目開源的第一個模型,雖然取得了還不錯的效果,但無論是訓練數據還是模型參數量,都還有很大的優化空間。

所以,在firefly-1b4實驗的基礎上,我們對訓練數據進行清洗,并且增加了數據量,得到210萬數據,并用它訓練得到了firefly-2b6模型。

在本文中,我們將對該模型進行分享和介紹。與firefly-1b4相比,firefly-2b6的代碼生成能力取得了較大的進步,并且在古詩詞生成、對聯、作文、開放域生成等方面也有不錯的提升。

firefly-1b4和firefly-2b6的訓練配置如下表所示。無論是訓練數據量,還是訓練步數,firefly-2b6都更加充分。

參數 firefly-1b4 firefly-2b6
batch size 16 8
learning rate 3e-5 3e-5
warmup step 3000 3000
lr schedule cosine cosine
max length 512 512
training step 90k 260k
訓練集規模 160萬 210萬

項目地址:

https://github.com/yangjianxin1/Firefly

模型權重鏈接見文末。

模型使用

使用如下代碼即可使用模型:

from transformers import BloomTokenizerFast, BloomForCausalLM
device = 'cuda'
path = 'YeungNLP/firefly-2b6'


tokenizer = BloomTokenizerFast.from_pretrained(path)
model = BloomForCausalLM.from_pretrained(path)
model.eval()
model = model.to(device)
text = input('User:')
while True:
    text = '{}'.format(text)
    input_ids = tokenizer(text, return_tensors="pt").input_ids
    input_ids = input_ids.to(device)
outputs=model.generate(input_ids,max_new_tokens=250,do_sample=True,top_p=0.7,temperature=0.35,
                             repetition_penalty=1.2, eos_token_id=tokenizer.eos_token_id)
    rets = tokenizer.batch_decode(outputs)
    output = rets[0].strip().replace(text, "").replace('', "")
    print("Firefly:{}".format(output))
    text = input('User:')

代碼生成

盡管在訓練集中,代碼的數據量不多,但令人驚喜的是,firefly-2b6已經具備一定的代碼生成能力。

在筆者的實測中,對于一些編程題,firefly-2b6生成的代碼可以做到無需修改,直接運行成功,并且得到正確的答案。下面將展示一些編程題的生成例子。

示例1:幫我用python寫一個冒泡排序算法。

dee31870-d9b9-11ed-bfe3-dac502259ad0.png

示例2:用python實現一個快速排序算法,輸入為一個數組,返回排序好之后的數組。

deec2f32-d9b9-11ed-bfe3-dac502259ad0.png

示例3:用python寫一個二分查找算法。

defb67b8-d9b9-11ed-bfe3-dac502259ad0.png

示例4:寫一個函數,計算數組中偶數的個數,輸入為數組,輸出為偶數的個數。

df04d12c-d9b9-11ed-bfe3-dac502259ad0.png

示例5:用html生成一個教務管理系統的登錄界面,要求包含用戶名、密碼輸入框和登錄按鈕。

df0d21ce-d9b9-11ed-bfe3-dac502259ad0.png

該html代碼在瀏覽器中的效果如下圖:

df142ce4-d9b9-11ed-bfe3-dac502259ad0.png

其他樣例

同樣,我們也對文言文、古詩詞、文章生成等數據進行了清洗,提高數據的質量。實測下來,我們發現firefly-2b6的生成效果,確實提升了不少。

數據質量的優化,對文言文翻譯任務的提升,尤為明顯。在訓練firefly-1b4時,文言文數據為較短的句子對。但在訓練firefly-2b6時,我們使用了較長篇幅的文本對。

下面為一些實測的例子。

df1b8c28-d9b9-11ed-bfe3-dac502259ad0.png

df286d30-d9b9-11ed-bfe3-dac502259ad0.png

df352c5a-d9b9-11ed-bfe3-dac502259ad0.png

df3dc2e8-d9b9-11ed-bfe3-dac502259ad0.png

df457308-d9b9-11ed-bfe3-dac502259ad0.png

df4cf9ac-d9b9-11ed-bfe3-dac502259ad0.png

df5354dc-d9b9-11ed-bfe3-dac502259ad0.png

df59bf2a-d9b9-11ed-bfe3-dac502259ad0.png

df615a96-d9b9-11ed-bfe3-dac502259ad0.png

df6d2b96-d9b9-11ed-bfe3-dac502259ad0.png

文章小結

雖然firefly-2b6已經初步具備代碼生成能力,但由于訓練集中的代碼數據的數量不多,對于一些編程題,效果不如人意。我們覺得仍有非常大的優化空間,后續我們也將收集更多代碼數據,提升模型的代碼能力。

經過firefly-1b4和firefly-2b6兩個模型的迭代,能明顯感受到增加數據量、提升數據質量、增大模型參數量,對模型的提升非常大。

在前文中,我們提到,firefly-1b4在訓練數據量、訓練步數上都略有不足。為了探索"小"模型的效果上限,我們也將使用更多數量、更高質量的數據對firefly-1b4進行迭代。該項工作正在進行。

后續,我們也將在多輪對話、增大模型參數量、模型量化等方向上進行迭代,我們也將陸續開源訓練代碼以及更多的訓練數據。期待大家的意見和建議。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3389

    瀏覽量

    49349
  • 代碼
    +關注

    關注

    30

    文章

    4845

    瀏覽量

    69256
  • 語言模型
    +關注

    關注

    0

    文章

    547

    瀏覽量

    10365

原文標題:中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    模型訓練:開源數據與算法的機遇與挑戰分析

    進行多方位的總結和梳理。 在第二章《TOP 101-2024 大模型觀點》中,蘇州盛派網絡科技有限公司創始人兼首席架構師蘇震巍分析了大模型訓練過程中開源
    的頭像 發表于 02-20 10:40 ?70次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>:<b class='flag-5'>開源</b><b class='flag-5'>數據</b>與算法的機遇與挑戰分析

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型
    的頭像 發表于 02-10 09:37 ?110次閱讀

    AI大模型訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務的大規模圖像數據集。 Common Crawl :提供了大量的網頁抓取數據以供自然
    的頭像 發表于 10-23 15:32 ?1773次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成 AI
    的頭像 發表于 09-06 14:59 ?410次閱讀
    NVIDIA Nemotron-4 340<b class='flag-5'>B</b><b class='flag-5'>模型</b>幫助開發者生成合成<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?604次閱讀

    英偉達開源Nemotron-4 340B系列模型,助力大型語言模型訓練

    近日,英偉達宣布開源了一款名為Nemotron-4 340B的大型模型,這一壯舉為開發者們打開了通往高性能大型語言模型(LLM)
    的頭像 發表于 06-17 14:53 ?665次閱讀

    語言模型:原理與工程實踐+初識2

    的一系列變革。 大語言模型是深度學習的應用之一,可以認為,這些模型的目標是模擬人類交流,為了理解和生成人類語言。為此,模型需要在大量文本
    發表于 05-13 00:09

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學習,需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數據時表現出色,
    發表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模預訓練的實施,大
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    和優化至關重要,它們能夠提供準確的反饋,指導模型訓練和調優過程中的改進方向。 大語言模型對話能力評測:
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預訓練
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言模型。這類模型的核心思想是
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然語言文本。這些
    發表于 05-04 23:55

    Meta推出最強開源模型Llama 3 要挑戰GPT

    公司這次開源了Llama 3 8B與70B兩款不同規模的模型,開發者可以免費使用,而Meta公司還將陸續推出一系列具備多模態、多語言對話、更
    的頭像 發表于 04-19 17:00 ?926次閱讀

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    等多種形式和任務。這個階段是從語言模型對話模型轉變的關鍵,其核心難點在于如何構建訓練數據,包括
    發表于 03-11 15:16
    主站蜘蛛池模板: 四虎4hu影库免费永久国产 | 成人狠狠色综合 | 四虎永久在线精品2022 | 永久免费在线播放 | 在线观看免费视频资源 | 国产成人精品曰本亚洲 | 最新丁香六月 | 欧美性操 | 性欧美大胆高清视频 | 狠狠色噜噜狠狠狠狠色综合久 | 色综合小说天天综合网 | 日韩在线毛片 | 久久久久国产精品免费免费 | www婷婷| 爽好舒服快给老师 | 亚洲精品在线不卡 | 五月婷婷中文字幕 | 婷婷六月综合网 | 黄 色 免费网 站 成 人 | 在线观看三级网站 | 天天干天天插天天 | 午夜性爽视频男人的天堂在线 | 天天尻 | 宅男午夜 | 成人在线视频网址 | 欧美一级特黄aaaaaaa在线观看 | 黑人边吃奶边扎下面激情视频 | 国产免费人成在线视频视频 | 激情文学综合丁香 | 天天搞夜夜爽 | 国产精品久久久久久久久齐齐 | 伊人网网站 | 国产精品免费久久 | 日本在线视频精品 | 国产精品嫩草影院在线播放 | 午夜影院在线免费 | 久久久精品2021免费观看 | 成人特黄午夜性a一级毛片 成人网18免费下 | 波多野结衣在线视频免费观看 | 爱爱小说视频永久免费网站 | 人人艹人人干 |