布朗大學(xué)的計(jì)算機(jī)科學(xué)研究畢業(yè)生 Vanya Cohen 近日在 Medium 分享了他復(fù)現(xiàn) GPT-2 大模型的全過(guò)程。作者復(fù)刻了Open-AI 15億參數(shù)模型,允許其他人在其預(yù)訓(xùn)練模型上進(jìn)行構(gòu)建并進(jìn)一步改進(jìn)。
BERT,XLNet,GPT-2和Grover等大型語(yǔ)言模型在生成文本和多個(gè)NLP任務(wù)方面取得了令人矚目的成果。
本文試圖去復(fù)刻GPT-2的15億模型以供研究人員使用。
Google Colab地址:
https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit
單獨(dú)提供的模型權(quán)重:
https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1
復(fù)刻
之所以采取遲遲不放出模型的安全戰(zhàn)略,是因?yàn)檫@些模型難以復(fù)刻并需要高度專(zhuān)業(yè)的領(lǐng)域知識(shí)。
但是布朗大學(xué)的兩名碩士研究生卻證明了本文的許多結(jié)果復(fù)刻起來(lái)并不是那么的難。而且不僅他們倆可以,絕大多數(shù)感興趣的人都可以復(fù)刻GPT-2。
研究生之一:Vanya Cohen
此外,Zellers等人表明像GPT-2這樣的大型語(yǔ)言模型是一種非常有用的工具,可以抵制使用與文本生成器相同的模型。
兩位研究生經(jīng)過(guò)深思熟慮后認(rèn)為,復(fù)刻工作并不是獨(dú)一無(wú)二的,并且大型語(yǔ)言模型是目前抵制生成文本的最有效手段,因此在對(duì)抗未來(lái)模型被濫用的可能性方面,發(fā)布本模型是有益的。
本模型的實(shí)現(xiàn)基于Grover模型,并修改其代碼庫(kù)以匹配GPT-2的語(yǔ)言建模訓(xùn)練目標(biāo)。由于他們的模型是在類(lèi)似的大型語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練的,因此大部分代碼和超參數(shù)都可以重復(fù)使用。本模型沒(méi)有從Grover中大幅改變超參數(shù)。
使用本模型代碼從頭開(kāi)始訓(xùn)練模型的成本約為5萬(wàn)美元。要注意這個(gè)數(shù)字是云計(jì)算的估計(jì)值,并不包含所涉及的各種其他細(xì)微的內(nèi)部成本。
存在顯著的時(shí)間-成本平衡,并且較慢的訓(xùn)練方法具有相當(dāng)小的成本,因此降低了使用門(mén)檻。
數(shù)據(jù)集
原始文件提供了有關(guān)如何清理數(shù)據(jù)集的最低限度的詳細(xì)信息。
與在WebText中一樣,首先從Reddit中解析出超過(guò)3個(gè)向上投票的所有鏈接。接著,從PushshiftRedditscrape開(kāi)始。這是一個(gè)包含不斷更新的Reddit帖子、評(píng)論以及相關(guān)元數(shù)據(jù)集合的數(shù)據(jù)集。
然后過(guò)濾一些鏈接以刪除不太可能包含可用文本或HTML(即視頻文件,PDF和CSS樣式文件)的文件類(lèi)型的直接鏈接。
同時(shí)還過(guò)濾網(wǎng)頁(yè)以刪除維基百科,因?yàn)樗桓鞣N評(píng)估基準(zhǔn)和數(shù)據(jù)集使用。目前還無(wú)法確定過(guò)濾標(biāo)準(zhǔn)是否與OpenAI相匹配,因?yàn)榇诵畔奈窗l(fā)布過(guò)。
使用Newspaper Python庫(kù)從HTML頁(yè)面中提取文本,然后使用fastText Python庫(kù)來(lái)提取英文文本、過(guò)濾掉其他語(yǔ)言。具體來(lái)說(shuō),使用WhatTheLangpython Wrapper。
使用局部敏感散列(LSH)來(lái)去重。然后將文檔散列為5-grams的集合,并且刪除了相似度閾值大于0.5的所有文檔。
使用Heuristic Cleaning算法,從數(shù)據(jù)集中刪除少于128個(gè)令牌的文檔。這些較短的文件往往質(zhì)量較低,這是由文本連貫性決定的。最后將此數(shù)據(jù)集作為OpenWebTextCorpus發(fā)布。
使用Radford等人發(fā)布的小型模型和Binary Pattern Encoder對(duì)數(shù)據(jù)集進(jìn)行編碼,并使用OpenWebText web-scrapingcodebase的修改版本作為數(shù)據(jù)集集合的起點(diǎn)。
勘誤表
從公開(kāi)發(fā)布的來(lái)自WebText的260k文檔集合中來(lái)看,研究人員發(fā)現(xiàn)所有文件都具有最小字節(jié)對(duì)(BPE)編碼,長(zhǎng)度為40,最大值為1024.
OpenWebText的不同之處在于為128個(gè)令牌設(shè)置文檔長(zhǎng)度的下限(而不是BPE代碼),并且不限制最大文檔長(zhǎng)度。
原始的WebTextCorpus在這些樣本可用之前發(fā)布,因此沒(méi)有使用該信息來(lái)生成cleaning heuristics。
研究人員曾多次嘗試聯(lián)系Radford等人,以澄清評(píng)估和模型細(xì)節(jié),但最終都沒(méi)有成功。
結(jié)果
盡管訓(xùn)練分布存在差異,但確實(shí)報(bào)告了與大多數(shù)數(shù)據(jù)集相似的困惑。
示例:輸入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”輸出結(jié)果如下:
-
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10799 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25457
原文標(biāo)題:布朗大學(xué)90后研究生:我們復(fù)現(xiàn)了15億參數(shù)GPT-2模型,你也行!
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
大模型推理顯存和計(jì)算量估計(jì)方法研究
感應(yīng)電機(jī)智能調(diào)速
浙江大學(xué)與大華股份共建研究生聯(lián)合培育基地
用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

FA90-220S15G2N5 FA90-220S15G2N5

用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

OpenAI即將推出GPT-5模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
中軟國(guó)際助力廣東外語(yǔ)外貿(mào)大學(xué)發(fā)布涉外法治人才實(shí)訓(xùn)大模型
AMD發(fā)布10億參數(shù)開(kāi)源AI模型OLMo
深信服發(fā)布安全GPT4.0數(shù)據(jù)安全大模型
RISC-V AI技術(shù)正式納入北京大學(xué)研究生課程

GAP!你對(duì)AI大模型到底了解多少?
名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南
OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

評(píng)論