在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NanoGPT,最簡單最快的庫來了!

CVer ? 來源:量子位 ? 2023-01-30 11:49 ? 次閱讀

訓練/微調中型GPT,最簡單最快的庫來了!

其名為:NanoGPT。

從名字就能看出是個“納米武器”,據作者介紹,該庫代碼簡單易讀,2個僅300行代碼的文件。

現已基于OpenWebText重現 GPT-2 (124M),在單個8XA100 40GB節點上,訓練時間為38小時。

值得一提的是,該庫發布者是前特斯拉AI總監,李飛飛高徒,Andrej Karpathy。此次發布的NanoGPT,正是他2年前MinGPT的升級版。

2596639a-a03e-11ed-bfe3-dac502259ad0.png

目前,此項目在GitHub所獲star已超6k,HackerNews上points也破千。

25a7757c-a03e-11ed-bfe3-dac502259ad0.png

毫無意外地,評論區一片“喜大普奔”。

有網友表示,這才是咱獨立開發者喜聞樂見的AI工具。

25b4b0ca-a03e-11ed-bfe3-dac502259ad0.png

還有人對其一直開放傳授分享知識的做法,表示感謝。

25bee7ac-a03e-11ed-bfe3-dac502259ad0.png

那么,這個最簡單最快的NanoGPT怎么用?

下面展開講講。

NanoGPT的打開方式

發布文件里面包含一個約300行的GPT模型定義(文件名:model.py),可以選擇從OpenAI加載GPT-2權重。

還有一個訓練模型PyTorch樣板(文件名:train.py),同樣也是300多行。

作者補充道,代碼并不難,很容易就能滿足大家需求——無論是從頭開始訓練新模型,還是基于預訓練進行微調(目前可用的最大模型為1.3B參數的GPT-2)。

25c96394-a03e-11ed-bfe3-dac502259ad0.png

一個訓練實例展示

上手前,需要提前準備好依賴項:

  • pytorch <3

  • numpy <3

  • pip install datasets for huggingface datasets <3 (如果你需要下載和預處理OpenWebText)

  • pip install tiktoken for OpenAI’s fast BPE code <3

  • pip install wandb for optional logging <3

  • pip install tqdm

下載并標記OpenWebText數據集。

$cddata/openwebtext
$pythonprepare.py

這將創建一個train.bin和val.bin文件,將 GPT2 BPE token id放入一個序列中。

然后準備訓練,目前腳本默認是嘗試重現GPT-2,124M參數版本,但作者更鼓勵大家閱讀代碼查看文件頂部的設置及路徑

$pythontrain.py

如需使用 PyTorch 分布式數據并行 (DDP) 進行訓練,請使用 torchrun 運行腳本。

比如,要在4個GPU節點上運行,代碼如下:

$torchrun--standalone--nproc_per_node=4train.py

要從模型節點中采樣,就需將一些檢查點寫入輸入目錄中。

$pythonsample.py

據作者目前自己的測試,他在1 個 A100 40GB GPU 上訓練一晚,損失約為 3.74。如果是在4個GPU上訓練損失約為3.60。

如果在8個A100 40GB節點上進行約50萬次迭代,時長約為1天,atim的訓練降至約3.1,init隨機概率是10.82,已將結果帶到了baseline范圍。

觀察不同參數下訓練/驗證loss值如下:

25d5f28a-a03e-11ed-bfe3-dac502259ad0.png

至于如何基于新文本微調GPT,作者也簡介了方法。

先訪問data/shakespeare,查看prepare.py。

下載小型shakespeare數據集并將其呈現為train.bin和val.bin文件(方法前文已介紹),幾秒即可搞定。

運行一個微調示例,如下:

$pythontrain.pyconfig/finetune_shakespeare.py

該操作將加載配置參數,覆蓋config/finetune_shakespeare.py文件。

作者指出,一般情況下,基本操作就是從GPT-2檢查點初始化init_from,再正常訓練。

此外,如果手里只有macbook或一些“力量”不足的小破本,作者建議使用shakespeare數據集,然后在一個很小的網絡上運行。

先渲染數據;

$cddata/shakespeare
$pythonprepare.py

再用一個較小的網絡來運行訓練腳本。

比如下面就創建了一個小得多的Transformer(4層,4個head,64嵌入大小),只在CPU運行,在作者自己的蘋果AIR M1本上,每次迭代大約需要400毫秒。

$cd../..
$pythontrain.py--dataset=shakespeare--n_layer=4--n_head=4--n_embd=64--device=cpu--compile=False--eval_iters=1--block_size=64--batch_size=8

關于NanoGPT的后續計劃,Andrej Karpathy也在網上有所分享。

他將試圖讓NanoGPT更快復現其他GPT-2模型,然后將預訓練擴展至更大規模的模型/數據集中,此外,他還計劃改進下微調部分的文檔。

轉戰教育和開源的特斯拉前AI總監

熟悉Karpathy的圈內人肯定知道,他此前是李飛飛高徒,也長期致力于讓更多人接觸了解神經網絡和相關數據集。

2020年8月,他就曾發布NanoGPT前一代,MinGPT,同樣旨在讓GPT做到小巧、簡潔、可解釋,同樣主打300行代碼搞定。

Karpathy另一大身份是前特斯拉AI核心人物。

在馬斯克麾下,他歷任特斯拉高級AI主管、特斯拉自動駕駛AutoPilot負責人、特斯拉超算Dojo負責人、特斯拉擎天柱人形機器人負責人…

2022年7月,Karpathy Andrej離職,在業內引發不小討論。他表示,未來將花更多時間在AI、開源技術教育上,比如他做了一檔AI課程,現還在更新中。

此番發布NanoGPT同時,Karpathy還下場安撫了下催更黨——新視頻正從0開始構建,計劃2周內發布

25e5cb92-a03e-11ed-bfe3-dac502259ad0.png

最后附上:

NanoGPT項目:https://github.com/karpathy/nanoGPT

Andrej Karpathy課程:https://karpathy.ai/zero-to-hero.html


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3372

    瀏覽量

    49299
  • 代碼
    +關注

    關注

    30

    文章

    4841

    瀏覽量

    69185
  • GPT
    GPT
    +關注

    關注

    0

    文章

    363

    瀏覽量

    15543

原文標題:300行代碼搞定!特斯拉前AI總監發布:NanoGPT,最簡單最快的庫來了!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Devart: dbForge Compare Bundle for SQL Server—比較SQL數據簡單、最準確的方法

    ? dbForge Compare Bundle For SQL Server:包含兩個工具,可幫助您節省用于手動數據比較的 70% 的時間 dbForge數據比較 幫助檢測和分析實時SQL數據
    的頭像 發表于 01-17 11:35 ?156次閱讀

    云數據是哪種數據類型?

    云數據是一種部署在虛擬計算環境中的數據,它融合了云計算的彈性和可擴展性,為用戶提供高效、靈活的數據服務。云數據主要分為兩大類:關系型數據
    的頭像 發表于 01-07 10:22 ?160次閱讀

    騰訊ima升級知識功能,上線小程序實現共享與便捷問答

    近日,騰訊旗下的AI智能工作臺ima.copilot(簡稱ima)迎來了知識功能的重大升級。此次升級不僅增加了“共享知識”的新能力,還正式上線了“ima知識”小程序,為用戶帶
    的頭像 發表于 12-31 15:32 ?588次閱讀

    HAL在Arduino平臺上的使用

    HAL在Arduino平臺上的使用 Arduino平臺是一個開源的電子原型平臺,它包括硬件(基于微控制器的電路板)和軟件(Arduino IDE)。Arduino平臺因其簡單易用而受到廣泛歡迎
    的頭像 發表于 12-02 14:04 ?529次閱讀

    HAL和標準的區別 HAL與CMSIS的關系

    在嵌入式系統開發中,HAL(硬件抽象層)和標準是兩種常用的軟件,它們在功能和使用場景上有所不同。 1. 標準 標準,通常指的是C語
    的頭像 發表于 12-02 14:02 ?1386次閱讀

    簡單認識libmodbus開發

    libmodbus是一個免費的跨平臺Modbus,支持RTU和TCP,遵循LGPL V2.1+協議,兼容Linux、Mac OS X、FreeBSD、QNX和Windows等操作系統。它可通過串口
    的頭像 發表于 11-13 15:42 ?493次閱讀
    <b class='flag-5'>簡單</b>認識libmodbus開發<b class='flag-5'>庫</b>

    在KiCad中使用AD的封裝(Pcblib)

    。但除此之外,KiCad有一個相當棒的功能:直接加載并直接使用AD的封裝,無需轉換操作?”。 加載AD封裝 在KiCad中使用Altium Designer的封裝(*.pcblib)非常
    的頭像 發表于 11-12 12:21 ?1461次閱讀
    在KiCad中使用AD的封裝<b class='flag-5'>庫</b>(Pcblib)

    云數據可以租用嗎?完整租用流程來了

    云數據是可以租用的,這是一種合法且便捷的數據存儲和管理方式。云數據是云服務提供商提供的各種服務化的關系型數據(如RDS)、文檔數據服務等。它被優化或部署到虛擬計算環境中,可以實
    的頭像 發表于 10-28 09:54 ?223次閱讀

    存儲器中訪問速度最快的是什么

    在探討存儲器中訪問速度最快的是哪一種時,我們首先需要了解計算機存儲系統的層次結構以及各類存儲器的特性和功能。計算機存儲系統通常包括多個層次的存儲器,從速度最快、容量最小的寄存器開始,到速度較慢、容量較大的外存儲器結束。這些存儲器在訪問速度、容量、價格等方面各有優劣,共同構
    的頭像 發表于 10-12 17:01 ?2488次閱讀

    什么網線最好最快

    在選擇“最好最快”的網線時,需要考慮多個因素,包括傳輸速度、抗干擾能力、材質、屏蔽效果以及適用場景等。以下是對幾種常見網線類型的分析,以及市場上一些知名品牌的推薦: 一、網線類型分析 光纖纜線 傳輸
    的頭像 發表于 10-12 10:09 ?1110次閱讀

    一種常用嵌入式開發代碼

    語言std,工具等等。具有簡單,通用,高效的特點,目的為了學習以及在開發中拿來就用,提高開發效率以及代碼可靠穩定性。
    的頭像 發表于 09-04 08:06 ?570次閱讀
    一種常用嵌入式開發代碼<b class='flag-5'>庫</b>

    擺脫自建的繁瑣,EDA元件轉cadence原理圖封裝實戰技巧

    擺脫自建的繁瑣,EDA元件轉cadence原理圖封裝實戰技巧
    的頭像 發表于 08-24 12:29 ?3364次閱讀
    擺脫自建<b class='flag-5'>庫</b>的繁瑣,EDA元件<b class='flag-5'>庫</b>轉cadence原理圖封裝<b class='flag-5'>庫</b>實戰技巧

    esp8266傳輸的速度最快能達到多少?

    stm32通過串口跟esp8266連接,然后用WiFi發送一個文件給存儲到stm32的內存卡上,文件大小在10M到50M之間。有沒有人測試過,傳輸的速度最快能達到多少?穩定不?
    發表于 07-09 07:47

    英特爾計劃最快2026年量產玻璃基板

    在全球半導體封裝技術的演進中,英特爾近日宣布了一項引人注目的計劃——最快在2026年實現玻璃基板的量產。這一前瞻性的舉措不僅展示了英特爾在技術創新上的堅定步伐,也為整個封裝行業帶來了新的發展機遇。
    的頭像 發表于 07-01 10:38 ?665次閱讀

    鴻蒙開發案例:【圖像加載緩存ImageKnife】

    專門為OpenHarmony打造的一款圖像加載緩存,致力于更高效、更輕便、更簡單
    的頭像 發表于 03-23 16:48 ?938次閱讀
    鴻蒙開發案例:【圖像加載緩存<b class='flag-5'>庫</b>ImageKnife】
    主站蜘蛛池模板: 欧美一级视频在线观看欧美 | 亚洲成a人在线播放www | 男人午夜网站 | 97人洗澡人人澡人人爽 | 浓厚な接吻と肉体の交在线观看 | 手机看片1024手机在线观看 | 手机看片1024精品日韩 | 性香港xxxxx免费视频播放 | www.欧美成 | 亚洲青草视频 | 奇米影视大全 | 国产乱码一区二区三区四川人 | 妖精视频永久在线入口 | 你懂的在线视频观看 | 中文字幕一区二区三区精品 | 国产亚洲精品在天天在线麻豆 | ts人妖系列在线专区 | 中文字幕一区二区三区乱码aⅴ | 高清国产下药迷倒美女 | 手机看片1024免费视频 | 美日韩一区二区 | 成人三级在线观看 | 日本a级片在线播放 | 午夜寂寞影院视频观看 | 毛片综合 | 日本三级在线视频 | аⅴ天堂 在线 | 日本三级视频在线观看 | 黄色一级毛片网站 | 国产免费久久精品99久久 | 7086bt伙计 福利一区 | 日本在线视频www色 日本在线视频精品 | 久久99久久精品国产只有 | 久久久一本 | www.亚洲欧美 | 韩国电影天堂网 | 午夜影院免费 | 最近2018中文字幕免费看手机 | 深夜动态福利gif进出粗暴 | 久草资源站在线 | 狠狠狠狼鲁欧美综合网免费 |