LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT結構對比

LLama

[GPT3] 使用RMSNorm（即Root Mean square Layer Normalization）對輸入數據進行標準化，RMSNorm可以參考論文：Root mean square layer normalization。

[PaLM]使用激活函數SwiGLU，該函數可以參考PALM論文：Glu variants improve transformer。

[GPTNeo]使用Rotary Embeddings進行位置編碼，該編碼可以參考論文 Roformer: Enhanced transformer with rotary position embedding。

使用了AdamW優化器，并使用cosine learning rate schedule，

使用因果多頭注意的有效實現來減少內存使用和運行時間。該實現可在xformers

Palm

采用SwiGLU激活函數：用于 MLP 中間激活，采用SwiGLU激活函數：用于 MLP 中間激活，因為與標準 ReLU、GELU 或 Swish 激活相比，《GLU Variants Improve Transformer》論文里提到：SwiGLU 已被證明可以顯著提高模型效果

提出Parallel Layers：每個 Transformer 結構中的“并行”公式：與 GPT-J-6B 中一樣，使用的是標準“序列化”公式。并行公式使大規模訓練速度提高了大約 15%。消融實驗顯示在 8B 參數量下模型效果下降很小，但在 62B 參數量下沒有模型效果下降的現象。

Multi-Query Attention：每個頭共享鍵/值的映射，即“key”和“value”被投影到 [1, h]，但“query”仍被投影到形狀 [k, h]，這種操作對模型質量和訓練速度沒有影響，但在自回歸解碼時間上有效節省了成本。

使用RoPE embeddings：使用的不是絕對或相對位置嵌入，而是RoPE，是因為 RoPE 嵌入在長文本上具有更好的性能，

采用Shared Input-Output Embeddings:輸入和輸出embedding矩陣是共享的，這個我理解類似于word2vec的輸入W和輸出W'：

GLM

Layer Normalization的順序和殘差連接被重新排列，

用于輸出標記預測的單個線性層；

ReLU s替換為GELU s

二維位置編碼

BLOOM

使用 ALiBi 位置嵌入，它根據鍵和查詢的距離直接衰減注意力分數。與原始的 Transformer 和 Rotary 嵌入相比，它可以帶來更流暢的訓練和更好的下游性能。ALiBi不會在詞嵌入中添加位置嵌入；相反，它會使用與其距離成比例的懲罰來偏向查詢鍵的注意力評分。

Embedding Layer Norm 在第一個嵌入層之后立即使用，以避免訓練不穩定。

使用了 25 萬個標記的詞匯表。使用字節級 BPE。這樣，標記化永遠不會產生未知標記

兩個全連接層：

GPT

GPT 使用 Transformer 的 Decoder 結構，并對 Transformer Decoder 進行了一些改動，原本的 Decoder 包含了兩個 Multi-Head Attention 結構，GPT 只保留了 Mask Multi-Head Attention，如下圖所示:

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

電源優化器

電源優化器

+關注

關注
0

文章
11

瀏覽量
5474
GPT

GPT

+關注

關注
0

文章
368

瀏覽量
16069
BPEKF算法

BPEKF算法

+關注

關注
0

文章
2

瀏覽量
1119
MLP

MLP

+關注

關注
0

文章
57

瀏覽量
4598
LLM

LLM

+關注

關注
1

文章
325

瀏覽量
827

原文標題：LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT結構對比

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學習和實踐經驗

精選推薦
更多

文章

資料

帖子

恩智浦FS24功能安全SBC芯片詳解為區域控制器節點設計提供便利

NXP客棧
1天前

859 閱讀

IGBT的電流是如何定義的

英飛凌工業半導體
1天前

830 閱讀

半導體激光器的三種驅動模式

中科院半導體所
1天前

549 閱讀

權威認證！RT-Thread操作系統100%國產自主可控，鑄就睿擎工業平臺安全基石? !

RT-Thread官方賬號
1天前

669 閱讀

基于ADI MAX12900和MAX32675C的4-20mA傳感器設計

analog_devices
1天前

598 閱讀

STM32中文參考資料免費下載

o_dream
4.82 MB

免費

42下載

IMSettings輸入法設置工具

張玉蘭
0.54 MB

免費

0下載

Liblog nodejs開源博客系統

李麗
7.95 MB

2積分

3下載

LogiKM集群指標監控與運維管控平臺

周臻庸
20.93 MB

2積分

1下載

一種重量測量儀器-高端稱重系統顯示模塊

李明
0.14 MB

2積分

1下載

HarmonyOS AI輔助編程工具（CodeGenie）報錯分析

李洋水蛟龍
2天前

302 閱讀

【社區活動】電子發燒友七月份活動匯總

dianzi_0101
2天前

869 閱讀

方波轉三角波輸出為一條直線

jf_59522181
2天前

1079 閱讀

【Milk-V Duo S 開發板免費體驗】SDK編譯、人臉檢測、OpenCV測試

jf_07365693
2天前

646 閱讀

【匯思博SEEK100開發板試用體驗】06 天氣app--使用組件導航實現設置頁及頁面跳轉

jf_83922529
2天前

651 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT結構對比

評論