古风名字,遮天辰东小说,灵域

在今年的國(guó)際學(xué)習(xí)表征大會(huì)（ICLR）上，NVIDIA 發(fā)表了 70 余篇論文，其內(nèi)容涵蓋醫(yī)療、機(jī)器人、自動(dòng)駕駛汽車以及大語(yǔ)言模型等領(lǐng)域。

推動(dòng) AI 進(jìn)步需要采用全棧式方法，這依賴于包括加速處理器和網(wǎng)絡(luò)技術(shù)在內(nèi)的強(qiáng)大計(jì)算基礎(chǔ)設(shè)施，并將其與優(yōu)化的編譯器、算法及應(yīng)用程序相連接。

NVIDIA Research 正在該領(lǐng)域進(jìn)行全方位的創(chuàng)新，并在此過(guò)程中為幾乎所有行業(yè)提供支持。在近日舉行的國(guó)際學(xué)習(xí)表征大會(huì)（ICLR）上，NVIDIA 提交了 70 余篇論文，展示了 AI 在自動(dòng)駕駛汽車、醫(yī)療、多模態(tài)內(nèi)容創(chuàng)作、機(jī)器人等領(lǐng)域的應(yīng)用進(jìn)展。

NVIDIA 應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 表示：“ICLR 是全球最具影響力的 AI 會(huì)議之一，研究人員在此發(fā)布推動(dòng)各行各業(yè)進(jìn)步的關(guān)鍵技術(shù)創(chuàng)新。NVIDIA 今年提交的研究成果旨在加速計(jì)算堆棧的各個(gè)層級(jí)，從而增強(qiáng) AI 在各行業(yè)的影響力和實(shí)用性。”

解決現(xiàn)實(shí)世界挑戰(zhàn)的研究工作

NVIDIA 在 ICLR 上提交的多篇論文聚焦多模態(tài)生成式 AI 領(lǐng)域的突破性進(jìn)展，以及 AI 訓(xùn)練和合成數(shù)據(jù)生成的新方法，具體包括：

Fugatto：Fugatto 是世界上最靈活的音頻生成式 AI 模型。根據(jù)輸入的文本提示和音頻文件，它能夠生成或修改包含任意的音樂(lè)、人聲和聲音組合的作品。在 ICLR 上展示的其他 NVIDIA 模型對(duì)音頻大語(yǔ)言模型（LLM）進(jìn)行了改進(jìn)，以使其更好地理解語(yǔ)音。

HAMSTER：這篇論文提出了一種視覺(jué)-語(yǔ)言-動(dòng)作模型的分層設(shè)計(jì)方案，它可以更好地從域外微調(diào)數(shù)據(jù)（即無(wú)需在真實(shí)機(jī)器人硬件上收集的低成本數(shù)據(jù)）中遷移知識(shí)，進(jìn)而提升機(jī)器人在測(cè)試場(chǎng)景中的技能水平。

Hymba：這個(gè)小語(yǔ)言模型家族采用混合模型架構(gòu)，由此創(chuàng)造的 LLM 融合了 Transformer 模型和狀態(tài)空間模型的優(yōu)勢(shì)，實(shí)現(xiàn)了高分辨率記憶檢索、高效的上下文總結(jié)以及常識(shí)推理任務(wù)。借助這種混合模型架構(gòu)，Hymba 在保持性能的前提下將吞吐量提升了 3 倍，緩存減少至約1/4。

LongVILA：該訓(xùn)練流程實(shí)現(xiàn)了高效的視覺(jué)語(yǔ)言模型訓(xùn)練與推理，以支持長(zhǎng)視頻理解。使用長(zhǎng)視頻訓(xùn)練 AI 模型時(shí)，需要大量算力和密集內(nèi)存，而這篇論文提出的系統(tǒng)可以高效地并行處理長(zhǎng)視頻的訓(xùn)練和推理，在 256 塊 GPU 上進(jìn)行訓(xùn)練時(shí)可擴(kuò)展到多達(dá) 200 萬(wàn)個(gè) token。LongVILA 在 9 個(gè)主流視頻基準(zhǔn)測(cè)試中均達(dá)到當(dāng)前最優(yōu)性能。

LLaMaFlex：這篇論文提出了一種全新的零樣本生成技術(shù)，可從單個(gè)大型模型來(lái)構(gòu)建一系列壓縮 LLM 家族。研究人員發(fā)現(xiàn)，LLaMaFlex 生成的壓縮模型在精度上媲美或優(yōu)于現(xiàn)有剪枝、彈性架構(gòu)及從頭訓(xùn)練的模型。相比剪枝和知識(shí)蒸餾等技術(shù)，這種能力能夠顯著降低訓(xùn)練模型家族的成本。

Proteina：該模型可以生成多樣且可設(shè)計(jì)的蛋白質(zhì)骨架，即維持蛋白質(zhì)結(jié)構(gòu)的框架。它采用 Transformer 模型架構(gòu)，參數(shù)數(shù)量是此前模型的 5 倍。

SRSA：這個(gè)框架解決了使用現(xiàn)有技能庫(kù)教會(huì)機(jī)器人執(zhí)行新任務(wù)的難題。這意味著機(jī)器人無(wú)需從頭學(xué)習(xí)，而是能夠?qū)F(xiàn)有技能應(yīng)用并適配到新任務(wù)中。研究人員開(kāi)發(fā)了預(yù)測(cè)最相關(guān)預(yù)置技能的框架，使機(jī)器人在執(zhí)行未知任務(wù)時(shí)的零樣本成功率提高了 19%。

STORM：通過(guò)僅需少量快照即可推斷出精確的 3D 表示，該模型能夠重建動(dòng)態(tài)戶外場(chǎng)景，比如行駛的汽車或隨風(fēng)搖曳的樹(shù)木。該模型能夠在 200 毫秒內(nèi)重建大規(guī)模戶外場(chǎng)景，在自動(dòng)駕駛開(kāi)發(fā)中具有應(yīng)用潛力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
29654

瀏覽量
212330
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5284

瀏覽量
106137
AI

AI

+關(guān)注

關(guān)注
88

文章
34890

瀏覽量
277687

原文標(biāo)題：NVIDIA Research 在 ICLR 大會(huì)引領(lǐng)新一波多模態(tài)生成式 AI 浪潮

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

NVIDIA在多模態(tài)生成式AI領(lǐng)域的突破性進(jìn)展

評(píng)論