91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

布朗大學(xué)90后研究生:我們復(fù)現(xiàn)了15億參數(shù)GPT-2模型,你也行!

DPVg_AI_era ? 來(lái)源:lq ? 2019-09-01 07:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

布朗大學(xué)的計(jì)算機(jī)科學(xué)研究畢業(yè)生 Vanya Cohen 近日在 Medium 分享了他復(fù)現(xiàn) GPT-2 大模型的全過(guò)程。作者復(fù)刻了Open-AI 15億參數(shù)模型,允許其他人在其預(yù)訓(xùn)練模型上進(jìn)行構(gòu)建并進(jìn)一步改進(jìn)。

BERT,XLNet,GPT-2和Grover等大型語(yǔ)言模型在生成文本和多個(gè)NLP任務(wù)方面取得了令人矚目的成果。

本文試圖去復(fù)刻GPT-2的15億模型以供研究人員使用。

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

單獨(dú)提供的模型權(quán)重:

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

復(fù)刻

之所以采取遲遲不放出模型的安全戰(zhàn)略,是因?yàn)檫@些模型難以復(fù)刻并需要高度專(zhuān)業(yè)的領(lǐng)域知識(shí)。

但是布朗大學(xué)的兩名碩士研究生卻證明了本文的許多結(jié)果復(fù)刻起來(lái)并不是那么的難。而且不僅他們倆可以,絕大多數(shù)感興趣的人都可以復(fù)刻GPT-2。

研究生之一:Vanya Cohen

此外,Zellers等人表明像GPT-2這樣的大型語(yǔ)言模型是一種非常有用的工具,可以抵制使用與文本生成器相同的模型。

兩位研究生經(jīng)過(guò)深思熟慮后認(rèn)為,復(fù)刻工作并不是獨(dú)一無(wú)二的,并且大型語(yǔ)言模型是目前抵制生成文本的最有效手段,因此在對(duì)抗未來(lái)模型被濫用的可能性方面,發(fā)布本模型是有益的。

本模型的實(shí)現(xiàn)基于Grover模型,并修改其代碼庫(kù)以匹配GPT-2的語(yǔ)言建模訓(xùn)練目標(biāo)。由于他們的模型是在類(lèi)似的大型語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練的,因此大部分代碼和超參數(shù)都可以重復(fù)使用。本模型沒(méi)有從Grover中大幅改變超參數(shù)。

使用本模型代碼從頭開(kāi)始訓(xùn)練模型的成本約為5萬(wàn)美元。要注意這個(gè)數(shù)字是云計(jì)算的估計(jì)值,并不包含所涉及的各種其他細(xì)微的內(nèi)部成本。

存在顯著的時(shí)間-成本平衡,并且較慢的訓(xùn)練方法具有相當(dāng)小的成本,因此降低了使用門(mén)檻。

數(shù)據(jù)集

原始文件提供了有關(guān)如何清理數(shù)據(jù)集的最低限度的詳細(xì)信息。

與在WebText中一樣,首先從Reddit中解析出超過(guò)3個(gè)向上投票的所有鏈接。接著,從PushshiftRedditscrape開(kāi)始。這是一個(gè)包含不斷更新的Reddit帖子、評(píng)論以及相關(guān)元數(shù)據(jù)集合的數(shù)據(jù)集。

然后過(guò)濾一些鏈接以刪除不太可能包含可用文本或HTML(即視頻文件,PDF和CSS樣式文件)的文件類(lèi)型的直接鏈接。

同時(shí)還過(guò)濾網(wǎng)頁(yè)以刪除維基百科,因?yàn)樗桓鞣N評(píng)估基準(zhǔn)和數(shù)據(jù)集使用。目前還無(wú)法確定過(guò)濾標(biāo)準(zhǔn)是否與OpenAI相匹配,因?yàn)榇诵畔奈窗l(fā)布過(guò)。

使用Newspaper Python庫(kù)從HTML頁(yè)面中提取文本,然后使用fastText Python庫(kù)來(lái)提取英文文本、過(guò)濾掉其他語(yǔ)言。具體來(lái)說(shuō),使用WhatTheLangpython Wrapper。

使用局部敏感散列(LSH)來(lái)去重。然后將文檔散列為5-grams的集合,并且刪除了相似度閾值大于0.5的所有文檔。

使用Heuristic Cleaning算法,從數(shù)據(jù)集中刪除少于128個(gè)令牌的文檔。這些較短的文件往往質(zhì)量較低,這是由文本連貫性決定的。最后將此數(shù)據(jù)集作為OpenWebTextCorpus發(fā)布。

使用Radford等人發(fā)布的小型模型和Binary Pattern Encoder對(duì)數(shù)據(jù)集進(jìn)行編碼,并使用OpenWebText web-scrapingcodebase的修改版本作為數(shù)據(jù)集集合的起點(diǎn)。

勘誤表

從公開(kāi)發(fā)布的來(lái)自WebText的260k文檔集合中來(lái)看,研究人員發(fā)現(xiàn)所有文件都具有最小字節(jié)對(duì)(BPE)編碼,長(zhǎng)度為40,最大值為1024.

OpenWebText的不同之處在于為128個(gè)令牌設(shè)置文檔長(zhǎng)度的下限(而不是BPE代碼),并且不限制最大文檔長(zhǎng)度。

原始的WebTextCorpus在這些樣本可用之前發(fā)布,因此沒(méi)有使用該信息來(lái)生成cleaning heuristics。

研究人員曾多次嘗試聯(lián)系Radford等人,以澄清評(píng)估和模型細(xì)節(jié),但最終都沒(méi)有成功。

結(jié)果

盡管訓(xùn)練分布存在差異,但確實(shí)報(bào)告了與大多數(shù)數(shù)據(jù)集相似的困惑。

示例:輸入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”輸出結(jié)果如下:

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10799
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25457

原文標(biāo)題:布朗大學(xué)90后研究生:我們復(fù)現(xiàn)了15億參數(shù)GPT-2模型,你也行!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,為實(shí)際應(yīng)用提供有益的參考。 未來(lái),我們將繼續(xù)深入研究模型推理的優(yōu)化方法,以降低顯存和計(jì)算資源的需求,提高深度學(xué)習(xí)模型在實(shí)際應(yīng)用中的性能
    發(fā)表于 07-03 19:43

    感應(yīng)電機(jī)智能調(diào)速

    內(nèi)容先進(jìn),可作為電力傳動(dòng)專(zhuān)業(yè)特別是感應(yīng)電機(jī)控制專(zhuān)業(yè)方向的大學(xué)教師和學(xué)生(高年級(jí)本科、碩士研究生、博士研究生)學(xué)習(xí)研究感應(yīng)電機(jī)智能控制的參考
    發(fā)表于 05-28 15:53

    浙江大學(xué)與大華股份共建研究生聯(lián)合培育基地

    近日,浙江大學(xué)研究生產(chǎn)教融合人才培養(yǎng)工作會(huì)議在杭州召開(kāi),會(huì)上舉行了校級(jí)聯(lián)合培養(yǎng)基地授牌儀式暨行業(yè)導(dǎo)師聘書(shū)頒發(fā)儀式,大華股份作為校級(jí)聯(lián)合培養(yǎng)基地代表參會(huì),標(biāo)志著“浙江大學(xué)-大華股份研究生
    的頭像 發(fā)表于 03-27 15:34 ?395次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言模型的預(yù)訓(xùn)練流程
    的頭像 發(fā)表于 03-21 18:24 ?1692次閱讀
    用PaddleNLP為<b class='flag-5'>GPT-2</b><b class='flag-5'>模型</b>制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    FA90-220S15G2N5 FA90-220S15G2N5

    電子發(fā)燒友網(wǎng)為提供AIPULNION(AIPULNION)FA90-220S15G2N5相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有FA90-220S15G2N5的引腳圖、接線(xiàn)圖、封裝手冊(cè)、中文資料
    發(fā)表于 03-19 18:31
    FA<b class='flag-5'>90-220S15G2</b>N5 FA<b class='flag-5'>90-220S15G2</b>N5

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費(fèi)級(jí)顯卡上,利用PaddleNLP實(shí)踐OpenAI的GPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-4等大
    的頭像 發(fā)表于 02-19 16:10 ?1002次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b>預(yù)訓(xùn)練技術(shù)

    OpenAI即將推出GPT-5模型

    OpenAI首席執(zhí)行官奧爾特曼近日宣布一項(xiàng)重要消息:OpenAI將在今年未來(lái)幾個(gè)月內(nèi)推出全新的GPT-5模型。這一消息引起了業(yè)界的廣泛關(guān)注和期待。 據(jù)了解,GPT-5
    的頭像 發(fā)表于 02-13 11:21 ?596次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    需要專(zhuān)業(yè)程序員進(jìn)行繁瑣的編程工作,這種方式不僅效率低下,還限制機(jī)器人的應(yīng)用場(chǎng)景。例如,在我們大學(xué)工程實(shí)訓(xùn)課程中使用的數(shù)控機(jī)床,需要人為設(shè)定起點(diǎn)、終點(diǎn)、移動(dòng)方向和移動(dòng)距離等參數(shù),自動(dòng)化
    發(fā)表于 12-29 23:04

    中軟國(guó)際助力廣東外語(yǔ)外貿(mào)大學(xué)發(fā)布涉外法治人才實(shí)訓(xùn)大模型

    近期,2024年全國(guó)法律專(zhuān)業(yè)學(xué)位研究生培養(yǎng)單位工作會(huì)議在廣東外語(yǔ)外貿(mào)大學(xué)隆重召開(kāi)。在此次會(huì)議期間,由廣東外語(yǔ)外貿(mào)大學(xué)(以下簡(jiǎn)稱(chēng):廣外)聯(lián)合華為、中軟國(guó)際共同研發(fā)的“涉外法治人才實(shí)訓(xùn)大模型
    的頭像 發(fā)表于 12-26 10:09 ?613次閱讀

    AMD發(fā)布10參數(shù)開(kāi)源AI模型OLMo

    AMD公司近日宣布一項(xiàng)重大進(jìn)展,推出了首個(gè)完全開(kāi)放的10參數(shù)語(yǔ)言模型系列——AMD OLMo。這一舉措為開(kāi)發(fā)者和研究人員提供
    的頭像 發(fā)表于 11-12 18:08 ?789次閱讀

    深信服發(fā)布安全GPT4.0數(shù)據(jù)安全大模型

    近日,深信服在數(shù)據(jù)安全領(lǐng)域邁出了重要一步,正式發(fā)布安全GPT4.0數(shù)據(jù)安全大模型。這一創(chuàng)新的大模型技術(shù),旨在為用戶(hù)提供更高效、精準(zhǔn)的數(shù)據(jù)安全解決方案。
    的頭像 發(fā)表于 10-29 11:12 ?620次閱讀

    RISC-V AI技術(shù)正式納入北京大學(xué)研究生課程

    希姆計(jì)算與北京大學(xué)達(dá)成SOC課程合作2024年10月14日,希姆計(jì)算的范福杰博士走進(jìn)北京大學(xué)集成電路學(xué)院的研究生課堂,為同學(xué)們講授一節(jié)生動(dòng)的《現(xiàn)代SoC芯片架構(gòu)設(shè)計(jì)實(shí)驗(yàn)課程》。RIS
    的頭像 發(fā)表于 10-18 08:09 ?1183次閱讀
    RISC-V AI技術(shù)正式納入北京<b class='flag-5'>大學(xué)</b><b class='flag-5'>研究生</b>課程

    GAP!對(duì)AI大模型到底了解多少?

    談到 AI 大模型最先想到的是什么?很多人首先關(guān)心的還是它的商業(yè)變現(xiàn),而非這些技術(shù)術(shù)語(yǔ)。AI 大模型訓(xùn)練是一個(gè)端到端的復(fù)雜系統(tǒng)工程,技術(shù)門(mén)檻很高,需要強(qiáng)大的算力支撐,尤其是參數(shù)量大
    的頭像 發(fā)表于 09-07 09:40 ?987次閱讀

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南

    工程技術(shù)人員,都可以參考和閱讀本書(shū)。 作者介紹 方天戟騰訊專(zhuān)有云與智算平臺(tái)shou席架構(gòu)師,本科畢業(yè)于北京航空航天大學(xué)自動(dòng)控制專(zhuān)業(yè),碩士研究生畢業(yè)于中國(guó)科學(xué)院研究生院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)。從業(yè)近20年,從事過(guò)硬
    發(fā)表于 08-16 18:33

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    GPT-4. GPT-4o mini的定價(jià)為每百萬(wàn)輸入標(biāo)記15美分和每百萬(wàn)輸出標(biāo)記60美分,比之前的前沿模型便宜一個(gè)數(shù)量級(jí),比
    的頭像 發(fā)表于 07-21 10:20 ?1691次閱讀
    OpenAI 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜
    主站蜘蛛池模板: 亚洲资源在线观看 | 免费国产午夜在线观看 | 国产一区二区三区免费大片天美 | 4438x成人网全国最大 | 男女视频在线观看免费高清观看 | 日本小视频免费 | 永久免费在线观看视频 | 免费特黄一区二区三区视频一 | 五月天激激婷婷大综合丁香 | 国产情侣出租屋露脸实拍 | 亚洲国产欧美在线人成aaa | 色婷婷社区 | 久久天天躁狠狠躁夜夜爽蜜月 | 黄色免费在线视频 | 日韩有色 | 免费无遮挡很爽很污很黄 | 亚洲成a人片在线观看www | 99久精品 | 99久久精品费精品国产一区二区 | 黄色免费网站在线 | 亚洲美女精品 | 国产精品久久久久久久人热 | 激情六月天婷婷 | 特黄特色视频 | www在线视频观看 | 高h道具触手play肉男男 | 五月婷婷丁香在线观看 | 日本亚洲欧美美色 | 啊用力太猛了啊好深视频免费 | www.婷婷| 亚洲视频 欧美视频 | 最新亚洲一区二区三区四区 | 97人洗澡人人澡人人爽 | 四虎在线电影 | 激情五月五月婷婷 | 天堂在线最新版www中文 | 毛片官网| 午夜国产在线 | 美女把尿口扒开让男人桶出水 | 免费视频网站在线观看 | 国产免费播放 |