從數(shù)學(xué)基礎(chǔ)到邊緣實(shí)現(xiàn),研究團(tuán)隊(duì): Conecta.ai (ufrn.br)
摘要
1.引言
2.GEMMA 2:通用集成機(jī)器模型算法
2.1 模型架構(gòu)
2.2 預(yù)訓(xùn)練
2.3 后訓(xùn)練
3.邊緣AI實(shí)現(xiàn)
1. 引言
GEMMA 2(通用集成機(jī)器模型算法,第二版)是一個(gè)復(fù)雜的框架,專為可擴(kuò)展和靈活的機(jī)器學(xué)習(xí)模型訓(xùn)練而設(shè)計(jì),特別是在分布式和資源受限的環(huán)境中。在其前身的基礎(chǔ)上,GEMMA 2引入了增強(qiáng)的功能,適用于監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)任務(wù),使其成為人工智能、邊緣計(jì)算和數(shù)據(jù)科學(xué)等領(lǐng)域研究人員和從業(yè)者的強(qiáng)大工具。
GEMMA 2的核心在于其能夠處理多樣化的數(shù)據(jù)集和模型架構(gòu),同時(shí)優(yōu)化計(jì)算效率。這是通過(guò)算法設(shè)計(jì)中的創(chuàng)新實(shí)現(xiàn)的,包括支持自適應(yīng)聚類、多分辨率數(shù)據(jù)分析和量化技術(shù),確保與微控制器和嵌入式系統(tǒng)等資源受限設(shè)備的兼容性。
GEMMA 2的主要特點(diǎn)包括:
1.分布式學(xué)習(xí):利用并行計(jì)算在多個(gè)節(jié)點(diǎn)上實(shí)現(xiàn)更快的訓(xùn)練和評(píng)估。
2.模型壓縮:采用先進(jìn)的量化和剪枝策略,在不犧牲準(zhǔn)確性的情況下減小模型大小。
3.邊緣部署:針對(duì)在邊緣設(shè)備上部署機(jī)器學(xué)習(xí)模型進(jìn)行定制優(yōu)化,確保實(shí)時(shí)性能和最小能耗。
4.增強(qiáng)的靈活性:支持廣泛的機(jī)器學(xué)習(xí)范式,包括神經(jīng)網(wǎng)絡(luò)、決策樹(shù)和集成方法。
5.以用戶為中心的設(shè)計(jì):模塊化架構(gòu)和用戶友好的API,簡(jiǎn)化了特定用例的集成和定制。
2 — Gemma 2
Gemma 2模型基于僅解碼器的Transformer架構(gòu)。我們?cè)诒碇锌偨Y(jié)了主要參數(shù)和架構(gòu)選擇。
一些架構(gòu)元素與Gemma模型的第一版相似;即上下文長(zhǎng)度為8192個(gè)標(biāo)記,使用旋轉(zhuǎn)位置嵌入(RoPE)和近似的GeGLU非線性。Gemma 1和Gemma 2之間有幾個(gè)元素不同,包括使用更深的網(wǎng)絡(luò)。我們?cè)谙旅婵偨Y(jié)了關(guān)鍵差異。
2.1 模型架構(gòu)
2.1.1 局部滑動(dòng)窗口和全局注意力
我們?cè)诿恳粚咏惶媸褂镁植炕瑒?dòng)窗口注意力和全局注意力。局部注意力層的滑動(dòng)窗口大小設(shè)置為4096個(gè)標(biāo)記,而全局注意力層的跨度設(shè)置為8192個(gè)標(biāo)記。
2.1.2 Logit軟限制
我們?cè)诿總€(gè)注意力層和最終層對(duì)logit進(jìn)行限制,使其值保持在?soft_cap和+soft_cap之間。更具體地說(shuō),我們使用以下函數(shù)對(duì)logit進(jìn)行限制:
我們將self-attention層的soft_cap參數(shù)設(shè)置為50.0,將最終層的soft_cap參數(shù)設(shè)置為30.0。
2.1.3 使用RMSNorm的后歸一化和前歸一化
為了穩(wěn)定訓(xùn)練,我們使用RMSNorm對(duì)每個(gè)Transformer子層、注意力層和前饋層的輸入和輸出進(jìn)行歸一化。
2.1.4 分組查詢注意力
這種技術(shù)幫助模型更高效地處理信息,特別是在處理大量文本時(shí)。它通過(guò)將查詢分組在一起,改進(jìn)了傳統(tǒng)的多頭注意力(MHA),實(shí)現(xiàn)了更快的處理,特別是對(duì)于大型模型。這就像將一個(gè)大任務(wù)分成更小、更易管理的部分,使模型能夠更快地理解單詞之間的關(guān)系,而不犧牲準(zhǔn)確性。
Gemma2ForCausalLM( (model):Gemma2Model( (embed_tokens):Embedding(256000,4608, padding_idx=0) (layers):ModuleList( (0-45):46xGemma2DecoderLayer( (self_attn):Gemma2SdpaAttention( (q_proj):Linear(in_features=4608, out_features=4096, bias=False) (k_proj):Linear(in_features=4608, out_features=2048, bias=False) (v_proj):Linear(in_features=4608, out_features=2048, bias=False) (o_proj):Linear(in_features=4096, out_features=4608, bias=False) (rotary_emb):Gemma2RotaryEmbedding() ) (mlp):Gemma2MLP( (gate_proj):Linear(in_features=4608, out_features=36864, bias=False) (up_proj):Linear(in_features=4608, out_features=36864, bias=False) (down_proj):Linear(in_features=36864, out_features=4608, bias=False) (act_fn):PytorchGELUTanh() ) (input_layernorm):Gemma2RMSNorm() (post_attention_layernorm):Gemma2RMSNorm() (pre_feedforward_layernorm):Gemma2RMSNorm() (post_feedforward_layernorm):Gemma2RMSNorm() ) ) (norm):Gemma2RMSNorm() ) (lm_head):Linear(in_features=4608, out_features=256000, bias=False))
2.2 預(yù)訓(xùn)練
簡(jiǎn)要概述我們與Gemma 1不同的預(yù)訓(xùn)練部分。
2.2.1 訓(xùn)練數(shù)據(jù)
Gemma 2 27B模型在13萬(wàn)億個(gè)主要是英語(yǔ)數(shù)據(jù)的標(biāo)記上進(jìn)行訓(xùn)練,9B模型在8萬(wàn)億個(gè)標(biāo)記上進(jìn)行訓(xùn)練,2B模型在2萬(wàn)億個(gè)標(biāo)記上進(jìn)行訓(xùn)練。這些標(biāo)記來(lái)自多種數(shù)據(jù)源,包括網(wǎng)頁(yè)文檔、代碼和科學(xué)文章。我們的模型不是多模態(tài)的,也不是專門(mén)為最先進(jìn)的多語(yǔ)言能力而訓(xùn)練的。最終的數(shù)據(jù)混合是通過(guò)類似于Gemini 1.0中的方法確定的。
分詞器:使用與Gemma 1和Gemini相同的分詞器:一個(gè)帶有數(shù)字分割、保留空白和字節(jié)級(jí)編碼的SentencePiece分詞器。生成的詞匯表有256k個(gè)條目。
過(guò)濾:使用與Gemma 1相同的數(shù)據(jù)過(guò)濾技術(shù)。具體來(lái)說(shuō),我們過(guò)濾預(yù)訓(xùn)練數(shù)據(jù)集以減少不需要或不安全的話語(yǔ)的風(fēng)險(xiǎn),過(guò)濾掉某些個(gè)人信息或其他敏感數(shù)據(jù),從預(yù)訓(xùn)練數(shù)據(jù)混合中凈化評(píng)估集,并通過(guò)最小化敏感輸出的擴(kuò)散來(lái)減少重復(fù)的風(fēng)險(xiǎn)。
2.2.2 知識(shí)蒸餾
給定一個(gè)用作教師的大型模型,我們通過(guò)從教師給出的每個(gè)標(biāo)記x在其上下文xc下的概率PT(x | xc)中進(jìn)行蒸餾來(lái)學(xué)習(xí)較小的模型。更準(zhǔn)確地說(shuō),我們最小化教師和學(xué)生概率之間的負(fù)對(duì)數(shù)似然:
其中PS是學(xué)生的參數(shù)化概率。注意,知識(shí)蒸餾也在Gemini 1.5中使用過(guò)。
2.3 后訓(xùn)練
對(duì)于后訓(xùn)練,我們將預(yù)訓(xùn)練模型微調(diào)為指令調(diào)優(yōu)模型。首先,我們?cè)诩兾谋尽H英語(yǔ)的合成和人工生成的提示-響應(yīng)對(duì)混合上進(jìn)行監(jiān)督微調(diào)(SFT)。然后,我們?cè)谶@些模型上應(yīng)用RLHF,獎(jiǎng)勵(lì)模型是在僅英語(yǔ)的標(biāo)記偏好數(shù)據(jù)上訓(xùn)練的,策略基于與SFT階段相同的提示。最后,我們對(duì)每個(gè)階段后獲得的模型進(jìn)行平均,以提高它們的整體性能。最終的數(shù)據(jù)混合和后訓(xùn)練配方,包括調(diào)整的超參數(shù),是根據(jù)在提高有用性的同時(shí)最小化與安全和幻覺(jué)相關(guān)的模型危害而選擇的。
我們擴(kuò)展了Gemma 1.1的后訓(xùn)練數(shù)據(jù),使用了內(nèi)部和外部公共數(shù)據(jù)的混合。特別是,我們使用了LMSYS-chat-1M中的提示,但沒(méi)有使用答案。我們所有的數(shù)據(jù)都經(jīng)過(guò)下面描述的過(guò)濾階段。
監(jiān)督微調(diào)(SFT):我們?cè)诤铣珊驼鎸?shí)的提示以及主要由教師(一個(gè)更大的模型)合成的響應(yīng)上運(yùn)行行為克隆。我們還在學(xué)生的分布上從教師那里進(jìn)行蒸餾。
基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF):我們使用與Gemma 1.1類似的RLHF算法,但使用了不同的獎(jiǎng)勵(lì)模型,該模型比策略大一個(gè)數(shù)量級(jí)。新的獎(jiǎng)勵(lì)模型也更側(cè)重于對(duì)話能力,特別是多輪對(duì)話。
模型合并:我們對(duì)通過(guò)使用不同超參數(shù)運(yùn)行我們的流程獲得的不同模型進(jìn)行平均。
數(shù)據(jù)過(guò)濾:當(dāng)使用合成數(shù)據(jù)時(shí),我們運(yùn)行幾個(gè)階段的過(guò)濾,以刪除顯示某些個(gè)人信息、不安全或有毒模型輸出、錯(cuò)誤自我識(shí)別數(shù)據(jù)和重復(fù)示例的示例。遵循Gemini的方法,我們發(fā)現(xiàn)包括鼓勵(lì)更好的上下文歸屬、謹(jǐn)慎和拒絕以最小化幻覺(jué)的數(shù)據(jù)子集,可以提高事實(shí)性指標(biāo)的性能,而不會(huì)降低模型在其他指標(biāo)上的性能。
格式化:Gemma 2模型使用與Gemma 1模型相同的控制標(biāo)記進(jìn)行微調(diào),但格式化方案不同。注意,模型明確地以標(biāo)記結(jié)束生成,而之前它只是生成。有關(guān)這種格式化結(jié)構(gòu)背后的動(dòng)機(jī),請(qǐng)參閱Gemma 1。
3. 邊緣AI實(shí)現(xiàn)
通過(guò)這個(gè)示例,你可以在樹(shù)莓派5上實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法。
3.0 收集必要的材料
樹(shù)莓派5(帶兼容的電源線)
MicroSD卡(最小32 GB,推薦64 GB或更高)
帶SD卡讀卡器或USB適配器的計(jì)算機(jī)
HDMI電纜和顯示器/電視
USB鍵盤(pán)和鼠標(biāo)(或如果支持,則使用藍(lán)牙)
互聯(lián)網(wǎng)連接(通過(guò)Wi-Fi或以太網(wǎng)電纜)
3.1 下載并安裝操作系統(tǒng)
訪問(wèn)此處了解如何在樹(shù)莓派4或5上下載和安裝操作系統(tǒng)。
https://medium.com/p/4dffd65d33ab/edit
3.2 — 安裝Ollama
curl-fsSL https://ollama.com/install.sh | sh
3.3 — 運(yùn)行g(shù)emma2
ollamarun gemma2:2b --verbose
3.4 —問(wèn)題結(jié)果
問(wèn)題:解釋Transformer ML架構(gòu)
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8497瀏覽量
134221 -
樹(shù)莓派
+關(guān)注
關(guān)注
121文章
1966瀏覽量
107104 -
集成機(jī)器人
+關(guān)注
關(guān)注
0文章
3瀏覽量
2888 -
邊緣AI
+關(guān)注
關(guān)注
0文章
151瀏覽量
5377
發(fā)布評(píng)論請(qǐng)先 登錄
樹(shù)莓派5,Raspberry Pi 5 評(píng)測(cè)
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開(kāi)發(fā)
樹(shù)莓派怎么打造開(kāi)心農(nóng)場(chǎng)
樹(shù)莓派3b用HDMI接電視沒(méi)信號(hào)的解決方案?
索尼投資樹(shù)莓派,共同開(kāi)發(fā)邊緣 AI 解決方案
樹(shù)莓派的學(xué)習(xí)設(shè)計(jì)方案合集

加熱和冷卻樹(shù)莓派5(Raspberry Pi5)這是真嘞?

貿(mào)澤現(xiàn)已開(kāi)售運(yùn)行速度遠(yuǎn)超前代產(chǎn)品的樹(shù)莓派5單板計(jì)算機(jī)
宏集嵌入式工業(yè)樹(shù)莓派,為企業(yè)提供更高效、精確和靈活的包裝解決方案

Hailo聯(lián)手樹(shù)莓派,開(kāi)創(chuàng)人工智能新紀(jì)元
用 樹(shù)莓派 Zero 打造的智能漫游車!

樹(shù)莓派分類器:用樹(shù)莓派識(shí)別不同型號(hào)的樹(shù)莓派!

評(píng)論