作者 / 資深開發(fā)者關(guān)系工程師 Omar Sanseviero;開發(fā)者關(guān)系工程師 Philipp Schmid
自首次推出以來,Gemma 模型的下載量已超過 1 億次,社區(qū)為各種用例創(chuàng)建了超過 60,000 個(gè)變體1。我們很高興推出 Gemma 3,這是 Gemma 開放模型系列中最強(qiáng)大、最先進(jìn)的版本,建立在之前成功推出的 Gemma 版本之上。我們聽取了社區(qū)反饋,并添加了最受歡迎的功能,例如更長的上下文、多模態(tài)支持等等!
Gemma 有哪些新功能?
Gemma 3 中引入了多模態(tài)功能,支持視覺語言輸入和文本輸出。它處理的上下文窗口最多可達(dá) 128k tokens,理解超過 140 種語言,并提供經(jīng)過改進(jìn)的數(shù)學(xué)、推理和聊天能力,包括結(jié)構(gòu)化輸出和函數(shù)調(diào)用。Gemma 3 提供四種規(guī)格 (1B、4B、12B 和 27B),既有可針對您自己的用例和領(lǐng)域進(jìn)行微調(diào)的預(yù)訓(xùn)練模型,也有通用指令調(diào)優(yōu)版本。
Gemma 是如何構(gòu)建的?
Gemma 組合運(yùn)用蒸餾、強(qiáng)化學(xué)習(xí)和模型合并等技術(shù),優(yōu)化了預(yù)訓(xùn)練和后訓(xùn)練流程。這種方法提高了其在數(shù)學(xué)、編碼和指令遵循方面的性能。Gemma 3 使用了新的分詞器,以更好地支持 140 多種語言,并在 Google TPU 上使用 JAX 框架進(jìn)行了訓(xùn)練,數(shù)據(jù)量分別為:1B 模型 2T tokens,4B 模型 4T tokens,12B 模型 12T tokens,以及 27B 模型 14T tokens。
對于后訓(xùn)練流程,Gemma 3 使用 4 個(gè)組件:
從較大的 INSTRUCT 模型蒸餾到 Gemma 3 預(yù)訓(xùn)練檢查點(diǎn)。
從人類反饋 (RLHF) 中強(qiáng)化學(xué)習(xí),以使模型預(yù)測與人類偏好保持一致。
從機(jī)器反饋 (RLMF) 中強(qiáng)化學(xué)習(xí),以增強(qiáng)數(shù)學(xué)推理。
從執(zhí)行反饋 (RLEF) 中強(qiáng)化學(xué)習(xí),以提升編碼能力。
這些更新顯著改善了模型的數(shù)學(xué)、編碼和指令遵循能力,使其成為 LMArena 中最優(yōu)秀的開源緊湊模型,得分為 1,338。
Gemma 3 的指令版本沿用與 Gemma 2 相同的對話格式,因此您無需更新工具即可更新到最新版本以進(jìn)行純文本輸入。對于圖像輸入,Gemma 3 允許指定與文本交錯(cuò)的圖像。
多輪文本示例
user knock knock model who is there user Gemma model Gemma who?
交錯(cuò)圖像示例
user Image A: Image B: Label A: water lily Label B: model Desert rote
多模態(tài)性
Gemma 3 集成了基于 SigLIP 的視覺編碼器。Gemma 3 視覺模型在訓(xùn)練期間保持凍結(jié)狀態(tài),并且在不同規(guī)格 (4B、12B 和 27B) 的模型中都是相同的。因此,Gemma 可以使用圖像和視頻作為輸入,從而分析圖像、回答有關(guān)圖像的問題、比較圖像、識別物體,甚至回復(fù)圖像中的文本。雖然該模型最初是為處理 896x896 像素的圖像而創(chuàng)建的,但由于使用了一種新的自適應(yīng)窗口算法來分割輸入圖像,Gemma 3 現(xiàn)在能夠處理高分辨率和非方形圖像。
△ 輸出:根據(jù)圖像,可能會打開加熱功能的按鈕是暖房 (Danbou)。在日語中,"暖房" 意為 "加熱"。您可以按下該按鈕來激活空調(diào)/溫度控制系統(tǒng)的加熱功能。帶有加號 (+) 的按鈕可能會在您選擇加熱模式后用來調(diào)節(jié)溫度。
ShieldGemma 2
ShieldGemma 2 是基于 Gemma 3 構(gòu)建的 4B 圖像安全分類器。它針對各個(gè)關(guān)鍵安全類別輸出標(biāo)簽,以安全審核合成圖像 (來自圖像生成模型) 和自然圖像 (可作為諸如 Gemma 3 等視覺語言模型的輸入過濾器)。了解有關(guān) ShieldGemma 2 的更多信息。
您要開發(fā)哪些應(yīng)用?
Gemma 社區(qū)的創(chuàng)造力和 Gemmaverse 的爆發(fā)式增長,正不斷給我們帶來驚喜。從研究實(shí)驗(yàn)室探索創(chuàng)新微調(diào)技術(shù)的實(shí)踐,到開發(fā)者用全新模態(tài)訓(xùn)練 Gemma,我們熱切期待看到您的下一個(gè)突破。普林斯頓 NLP 開發(fā)的 SimPO 方法,該方法在沒有參考模型的情況下直接針對人類偏好進(jìn)行優(yōu)化,是實(shí)驗(yàn)室創(chuàng)新微調(diào)的典型案例;另一例子是 INSAIT 針對保加利亞語訓(xùn)練出最先進(jìn)的大語言模型。而 Nexa 在 OmniAudio 上的嘗試為開發(fā)者使用全新模態(tài)訓(xùn)練 Gemma 提供了典型案例。我們迫不及待地想看看您接下來會取得哪些突破。
Gemma 3 快速入門指南
準(zhǔn)備好探索 Gemma 3 的潛力了嗎?下面是操作步驟:
直接體驗(yàn):只需點(diǎn)擊幾下,即可在 Google AI Studio 中試用 Gemma 3。
下載模型:在 Hugging Face 和 Kaggle 上查找模型權(quán)重。
學(xué)習(xí)并整合:深入了解我們的技術(shù)報(bào)告和全面的文檔,以快速將 Gemma 集成到您的項(xiàng)目中;您也可以從我們的推理指南開始體驗(yàn),或嘗試使用自定義數(shù)據(jù)集進(jìn)行微調(diào)。
使用您喜歡的開發(fā)工具:運(yùn)用您偏好的工具和框架,包括 Hugging Face Transformers、Ollama、我們的新 Gemma JAX 庫、MaxText、LiteRTGemma.cpp、llama.cpp 和 Unsloth。
靈活部署:Gemma 3 提供多種部署選項(xiàng),包括 Google GenAI API、Vertex AI、Cloud Run、Cloud TPU、Cloud GPU 以及跨平臺集成,讓您靈活選擇最適合自身用例的方案。
-
Google
+關(guān)注
關(guān)注
5文章
1787瀏覽量
58680 -
gpu
+關(guān)注
關(guān)注
28文章
4912瀏覽量
130665 -
AI
+關(guān)注
關(guān)注
87文章
34271瀏覽量
275429 -
模型
+關(guān)注
關(guān)注
1文章
3487瀏覽量
49998 -
開發(fā)者
+關(guān)注
關(guān)注
1文章
628瀏覽量
17373
原文標(biāo)題:Gemma 3 開發(fā)者指南 | 快速集成與部署,輕松釋放 AI 潛力
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
谷歌開發(fā)者大會2016北京站圖文直播 Google開發(fā)者大會精彩內(nèi)容回顧
【轉(zhuǎn)載】Google Glass應(yīng)用開發(fā)探索
Android開發(fā)者如何快速體驗(yàn)Android N
OpenHarmony開發(fā)者文檔
java開發(fā)者現(xiàn)在可以使用Google的PaaS云服務(wù)來構(gòu)建網(wǎng)頁應(yīng)用
【數(shù)轉(zhuǎn)時(shí)事】Google年度開發(fā)者大會傳達(dá)出怎樣的技術(shù)趨勢?
華為開發(fā)者大會OpenHarmony開發(fā)樣例共建與開發(fā)者成長圖譜

一文知曉 2023 Google 游戲開發(fā)者峰會主要產(chǎn)品更新
助力游戲開發(fā)者,看 Google 有哪些 "上新"?
【出海日系列活動(dòng)】谷歌開發(fā)者社區(qū) | 今日起航,谷歌陪中國開發(fā)者出海!

明日開幕|2023 Google 谷歌開發(fā)者大會線上觀看指南

多元共進(jìn)|2023 Google 谷歌開發(fā)者大會主旨演講亮點(diǎn)回顧

Zynq UltraScale+ MPSoC:軟件開發(fā)者指南

評論