作者:算力魔方創始人/英特爾創新大使劉力
《AI演進的核心哲學》提到Google在2017年6月的《Attention is All You Need》論文中首次提出了一種全新的神經網絡架構Transformer,OpenAI的科學家Alec Radford在讀完這篇論文后,使用BooksCorpus數據集(約1GB),并從Transformer中截取了Decoder部分進行了生成式預訓練(generative pre-training),然后再針對具體任務使用有標注數據對預訓練模型進行監督微調,結果發現模型的性能還不錯,在 12 項任務中的 9 項顯著超越了針對特定任務設計的競對模型,達到了當前最佳水平,并于2018年6月發表了文章《Improving Language Understanding by Generative Pre-Training》,標志著GPT系列模型從此誕生了。GPT就是Generative Pre-Training的首字母縮寫,GPT-1模型包含1.17億參數。
鏈接:
《Attention is All You Need》: https://arxiv.org/pdf/1706.03762 《Improving Language Understanding by Generative Pre-Training》: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
一,GPT-1~GPT-2: 驗證性的演進
OpenAI的首席科學家Ilya Sutskever看到GPT-1的結果后,非常興奮,他認為這是一個非常關鍵的可以通向AGI(通用人工智能)的技術,從此,OpenAI便在GPT-1基礎上開始堅定地執行“Scale Up”戰略 -- 通過增加模型參數、訓練數據和計算能力,推動 GPT 系列模型和訓練范式不斷演進。
隨后,OpenAI迅速加大了投入開始研發GPT-2。GPT-2的目標是探索更大規模的模型能否在沒有任務特定訓練數據的情況下,僅通過預訓練就能在多種任務上表現出色,即所謂的“零樣本”(Zero-shot)能力。為此,OpenAI構建了一個更大、更多樣化的WebText數據集(約40GB),用更大算力(多塊NVIDIA V100 32GB卡)完成了更大參數模型的預訓練。
GPT-2模型參數有4個版本:Small版有1.17億參數,對應原始的GPT-1;Medium版有3.45億參數,對應競品BERT-large;Large版有7.62億參數;XL版有15億參數。GPT-2首次系統性展示了無需微調即可適應多任務的能力,在8 個測試數據集中獲得了7個當下最優的成果,證明了大規模預訓練模型的強大潛力和 “通用語言模型” 在多任務場景中的可行性。
OpenAI在2019年2月發表了文章《Language Models are Unsupervised Multitask Learners》,還開源了GPT-2的代碼: https://github.com/openai/gpt-2和部分數據集:https://github.com/openai/gpt-2-output-dataset,成為GPT系列模型中唯一一個開源模型。
鏈接: 《Language Models are Unsupervised Multitask Learners》: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
二,GPT3:更加激進的演進
GPT-2驗證了“Scale Up”戰略的有效性后,OpenAI開始更加激進的Scale Up。GPT-3的參數量達到了驚人的1750億,比GPT-2的XL版本提升了100多倍。預訓練數據集也更為龐大,混合了包括Common Crawl(經過濾)、WebText2、Books1、Books2和Wikipedia在內的的數據集(約300B Tokens)。
GPT-3不僅在零樣本任務上表現出色,更重要的是展示了強大的“少樣本”(Few-shot)甚至“單樣本”(One-shot)學習能力,這意味著只需要在提示詞(Prompt)中給出少量任務示例,模型就能理解并執行新任務,而無需重新訓練或微調模型參數。這種“上下文學習”(In-context Learning)能力是GPT-3的核心突破,它使得模型更加通用和靈活,能夠處理翻譯、問答、寫代碼、作詩、進行簡單推理等各種任務,極大地推動了Decoder-Only架構的大語言模型的研究和應用浪潮。
三,規模定律與能力涌現
在GPT系列模型演進的過程中,OpenAI在2020年1月發表了文章《Scaling Laws for Neural Language Models》,首次系統性提出的語言模型的“規模定律(Scaling Laws)”,揭示了模型性能與模型參數量、訓練數據量和計算資源規模呈指數級線性相關。同年5月,OpenAI發表了文章《Language Models are Few-Shot Learners》介紹GPT-3,讓科技界都開始相信在Decoder-Only架構上是能“Scale-Up”的。
隨后,Google也加入了Decoder-Only架構的陣營,在2022年4月發布了5400億參數的PaLM模型,并證明了隨著參數提升,Decoder-Only架構的模型能力在大多數任務場景中都高于前期最優方法。同年6月,Google發表了文章《Emergent Abilities of Large Language Models》,首次系統性地提出了大語言模型的“能力涌現(Emergent Abilities)”現象,即大語言模型在參數規模突破臨界閾值后,突現的不可預測的新能力?,這類能力在小規模模型上無法出現。
鏈接: 《Scaling Laws for Neural Language Models》: https://arxiv.org/pdf/2001.08361 《Language Models are Few-Shot Learners》: https://arxiv.org/pdf/2005.14165
四,啟示1:科研團隊可以從一個小規模參數的模型開始
GPT系列模型的演進,以及科技界在Decoder-Only架構上的探索,再次證明了Richard S. Sutton提出的哲學思想:使用通用方法,然后借助計算能力Scale Up。由于訓練大規模參數的模型成本非常高,例如,公開資料顯示Llama3 405B參數模型的訓練成本約為6000萬美金,所以科研團隊可以先在一個小規模參數的模型上驗證其能力,然后再Scale up。
DeepSeek團隊也受此啟發,在2024年初,先從16B參數規模開始,發布了DeepSeek-MoE v1;接著在2024年中,把參數規模擴展至145B,發布了DeepSeek-MoE v2; 到DeepSeek-MoE v3時,參數規模到671B。DeepSeek的Scale Up的成功,也再次證明了《AI演進的核心哲學》。
五,啟示2:個人初學者可以把GPT-2作為學習起點
從學習的角度,對個人初學者來說,本文認為GPT-2是最佳的Decoder-Only架構模型的學習起點:
1. GPT-2算是GPT系列模型真正的起點(GPT-1可以算Decoder-Only架構的技術驗證PoC)。
2. GPT-2的模型參數規模適中,能讓讀者成功實現完整的預訓練過程,且花費不大。
3. GPT-2是GPT系列中唯一的開源模型,有標準代碼實現可以借鑒。
4. 通過動手編寫GPT-2模型并完成預訓練,可以完整學到Transformer架構的大語言模型的核心知識
若你對更多的大語言模型的演進感興趣,可以進一步閱讀《A Survey of Large Language Models》。
鏈接:
《A Survey of Large Language Models》: https://arxiv.org/pdf/2303.18223
如果你有更好的文章,歡迎投稿!
稿件接收郵箱:nami.liu@pasuntech.com
更多精彩內容請,關注“算力魔方?”!
審核編輯 黃宇
-
GPT
+關注
關注
0文章
368瀏覽量
15961 -
OpenAI
+關注
關注
9文章
1204瀏覽量
8662
發布評論請先 登錄
評論