NVIDIA今天在其官方博客中表示,今天與谷歌合作,在所有NVIDIA AI平臺上為Gemma推出了優(yōu)化。Gemma是谷歌最先進的新輕量級2B(20億)和7B(70億)參數(shù)開放語言模型,可以在任何地方運行,降低了成本,加快了特定領域用例的創(chuàng)新工作。
這兩家公司的團隊密切合作,主要是使用NVIDIA TensorRT LLM加速谷歌Gemma開源模型的性能。開源模型Gemma采用與Gemini模型相同的底層技術構建,而NVIDIA TensorRT LLM是一個開源庫,用于在數(shù)據(jù)中心的NVIDIA GPU、云服務器以及帶有NVIDIA RTX GPU的PC上運行時,可以極大優(yōu)化大型語言模型推理。這也這使得開發(fā)人員能夠完全利用全球超過1億臺數(shù)量的RTX GPU AI PC完成自己的工作。
同時,開發(fā)人員還可以在云計算服務器中的NVIDIA GPU上運行Gemma,包括在谷歌云基于H100 Tensor Core GPU,以及很快谷歌將于今年部署的NVIDIA H200 TensorCore GPU——該GPU具有141GB的HBM3e內(nèi)存,內(nèi)存帶寬可以達到4.8TB/s。
另外,企業(yè)開發(fā)人員還可以利用NVIDIA豐富的工具生態(tài)系統(tǒng),包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM,對Gemma進行微調(diào),并在其生產(chǎn)應用程序中部署優(yōu)化模型。
NVIDIA表示,先期上線支持Gemma的是Chat with RTX,這是一款NVIDIA技術演示應用,使用檢索增強生成和TensorRT LLM擴展,在基于RTX GPU的本地Windows PC上為用戶提供生成式AI應用的功能。通過RTX聊天,用戶可以輕松地將PC上的本地文件連接到大型語言模型,從而使用自己的數(shù)據(jù)對聊天機器人進行個性化設置。
由于該模型在本地運行,因此可以快速提供結(jié)果,并且用戶數(shù)據(jù)保留在設備上。與基于云的LLM服務不同,使用Chat with RTX聊天可以讓用戶在本地PC上處理敏感數(shù)據(jù),而無需與第三方共享或連接互聯(lián)網(wǎng)。
審核編輯:劉清
-
NVIDIA
+關注
關注
14文章
5274瀏覽量
105972 -
GPU芯片
+關注
關注
1文章
305瀏覽量
6152 -
LLM
+關注
關注
1文章
322瀏覽量
738 -
生成式AI
+關注
關注
0文章
528瀏覽量
724
原文標題:TensorRT LLM加速Gemma!NVIDIA與谷歌牽手,RTX助推AI聊天
文章出處:【微信號:Microcomputer,微信公眾號:Microcomputer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
Google發(fā)布最新AI模型Gemma 3
NVIDIA RTX 4500 Ada與NVIDIA RTX A5000的對比
NVIDIA推出面向RTX AI PC的AI基礎模型
在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能
NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

TensorRT-LLM低精度推理優(yōu)化

NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

評論