在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語(yǔ)言融入NeRF,給點(diǎn)文字就生成3D圖的LERF來(lái)了

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:機(jī)器之心 ? 2023-03-22 10:10 ? 次閱讀

NeRF 大家都很熟悉了,但是你聽(tīng)說(shuō)過(guò) LERF 嗎?本文中,來(lái)自 UC 伯克利的研究者將語(yǔ)言嵌入到 NeRF 中,并在 3D 場(chǎng)景中實(shí)現(xiàn)靈活的自然語(yǔ)言查詢。

NeRF(Neural Radiance Fields)又稱神經(jīng)輻射場(chǎng),自從被提出以來(lái),火速成為最為熱門(mén)的研究領(lǐng)域之一,效果非常驚艷。然而,NeRF 的直接輸出只是一個(gè)彩色的密度場(chǎng),對(duì)研究者來(lái)說(shuō)可用信息很少,缺乏上下文就是需要面對(duì)的問(wèn)題之一,其效果是直接影響了與 3D 場(chǎng)景交互界面的構(gòu)建。

但自然語(yǔ)言不同,自然語(yǔ)言與 3D 場(chǎng)景交互非常直觀。我們可以用圖 1 中的廚房場(chǎng)景來(lái)解釋?zhuān)ㄟ^(guò)詢問(wèn)餐具在哪,或者詢問(wèn)用來(lái)攪拌的工具在哪,以這種方式就可以在廚房里找到物體。不過(guò)完成這項(xiàng)任務(wù)不僅需要模型的查詢能力,還需要能夠在多個(gè)尺度上合并語(yǔ)義等。

本文中,來(lái)自 UC 伯克利的研究者提出了一種新穎的方法,并命名為 LERF(Language Embedded Radiance Fields),該方法將 CLIP(Contrastive Language-Image Pre-training)等模型中的語(yǔ)言嵌入到 NeRF 中,從而使得這些類(lèi)型的 3D 開(kāi)放式語(yǔ)言查詢成為可能。LERF 直接使用 CLIP,無(wú)需通過(guò) COCO 等數(shù)據(jù)集進(jìn)行微調(diào),也不需要依賴掩碼區(qū)域建議。LERF 在多個(gè)尺度上保留了 CLIP 嵌入的完整性,還能夠處理各種語(yǔ)言查詢,包括視覺(jué)屬性(如黃色)、抽象概念(如電流)、文本等,如圖 1 所示。

ab800b4c-c801-11ed-bfe3-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2303.09553v1.pdf

項(xiàng)目主頁(yè):https://www.lerf.io/

LERF 可以實(shí)時(shí)交互地為語(yǔ)言提示提取 3D 相關(guān)示圖。例如在一張有小羊和水杯的桌子上,輸入提示小羊、或者水杯,LERF 就可以給出相關(guān) 3D 圖:

?

aba56626-c801-11ed-bfe3-dac502259ad0.gif

對(duì)于復(fù)雜的花束,LERF 也可以精準(zhǔn)定位:

?

b1733f10-c801-11ed-bfe3-dac502259ad0.gif

廚房中的不同物體:

b2b39c3a-c801-11ed-bfe3-dac502259ad0.gif

方法

該研究通過(guò)與 NeRF 聯(lián)合優(yōu)化語(yǔ)言場(chǎng)構(gòu)建了新方法 LERF。LERF 將位置和物理尺度作為輸入并輸出單個(gè) CLIP 向量。在訓(xùn)練期間,場(chǎng)(field)使用多尺度特征金字塔(pyramid)進(jìn)行監(jiān)督,該金字塔包含從訓(xùn)練視圖的圖像裁剪(crop)生成的 CLIP 嵌入。這允許 CLIP 編碼器捕獲不同尺度的圖像語(yǔ)境,從而將相同的 3D 位置與不同尺度的語(yǔ)言嵌入相關(guān)聯(lián)。LERF 可以在測(cè)試期間以任意尺度查詢語(yǔ)言場(chǎng)以獲得 3D 相關(guān)性映射。

b3094d7e-c801-11ed-bfe3-dac502259ad0.png

由于從多尺度的多個(gè)視圖中提取 CLIP 嵌入,因此通過(guò) LERF 的 3D CLIP 嵌入獲得的文本查詢的相關(guān)性映射與通過(guò) 2D CLIP 嵌入獲得的相比更加本地化(localized),并且是 3D 一致的,可以直接在 3D 場(chǎng)中進(jìn)行查詢,而無(wú)需渲染多個(gè)視圖。

b3e1fd9a-c801-11ed-bfe3-dac502259ad0.png

LERF 需要在以樣本點(diǎn)為中心的體積上學(xué)習(xí)語(yǔ)言嵌入場(chǎng)。具體來(lái)說(shuō),該場(chǎng)的輸出是包含指定體積的圖像裁剪的所有訓(xùn)練視圖的平均 CLIP 嵌入。通過(guò)將查詢從點(diǎn)重構(gòu)為體積,LERF 可以有效地從輸入圖像的粗略裁剪中監(jiān)督密集場(chǎng),這些圖像可以通過(guò)在給定的體積尺度上進(jìn)行調(diào)節(jié)以像素對(duì)齊的方式呈現(xiàn)。

b48d0546-c801-11ed-bfe3-dac502259ad0.png

LERF 本身會(huì)產(chǎn)生連貫的結(jié)果,但生成的相關(guān)性映射有時(shí)可能是不完整的,并且包含一些異常值,如下圖 5 所示。

b5247732-c801-11ed-bfe3-dac502259ad0.png

為了規(guī)范優(yōu)化的語(yǔ)言場(chǎng),該研究通過(guò)共享瓶頸引入了自監(jiān)督的 DINO。

在架構(gòu)方面,優(yōu)化 3D 中的語(yǔ)言嵌入不應(yīng)該影響底層場(chǎng)景表征中的密度分布,因此該研究通過(guò)訓(xùn)練兩個(gè)獨(dú)立的網(wǎng)絡(luò)來(lái)捕獲 LERF 中的歸納偏置(inductive bias):一個(gè)用于特征向量(DINO、CLIP),另一個(gè)用于標(biāo)準(zhǔn) NeRF 輸出(顏色、密度)。

實(shí)驗(yàn)

為了展示 LERF 處理真實(shí)世界數(shù)據(jù)的能力,該研究收集了 13 個(gè)場(chǎng)景,其中包括雜貨店、廚房、書(shū)店、小雕像等場(chǎng)景。圖 3 選擇了 5 個(gè)具有代表性的場(chǎng)景,展示了 LERF 處理自然語(yǔ)言的能力。

b58229c2-c801-11ed-bfe3-dac502259ad0.png

圖 3。

圖 7 為 LERF 與 LSeg 的 3D 視覺(jué)對(duì)比,在標(biāo)定碗里的雞蛋中,LSeg 不如 LERF:

b771d462-c801-11ed-bfe3-dac502259ad0.png

圖 8 表明,在有限的分割數(shù)據(jù)集上訓(xùn)練的 LSeg 缺乏有效表示自然語(yǔ)言的能力。相反,它僅在訓(xùn)練集分布范圍內(nèi)的常見(jiàn)對(duì)象上表現(xiàn)良好,如圖 7 所示。

b7f33606-c801-11ed-bfe3-dac502259ad0.png

不過(guò) LERF 方法還不算完美,下面為失敗案例,例如在標(biāo)定西葫蘆蔬菜時(shí),會(huì)出現(xiàn)其他蔬菜:

b80d1224-c801-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2921

    瀏覽量

    108105
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1210

    瀏覽量

    24858
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13410

原文標(biāo)題:自然語(yǔ)言融入NeRF,給點(diǎn)文字就生成3D圖的LERF來(lái)了

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    自然語(yǔ)言處理包括哪些內(nèi)容 自然語(yǔ)言處理技術(shù)包括哪些

    Classification and Clustering):將文本按照相似性進(jìn)行分類(lèi)或聚類(lèi)。 信息提取(Information Extraction):從文本中提取有用的信息。 自然語(yǔ)言生成(Natural Language Generation):
    的頭像 發(fā)表于 08-03 16:22 ?7643次閱讀

    python自然語(yǔ)言

    最近,python自然語(yǔ)言是越來(lái)越火了,那么什么是自然語(yǔ)言自然語(yǔ)言(Natural Language )廣納了眾多技術(shù),對(duì)自然或人類(lèi)語(yǔ)言進(jìn)
    發(fā)表于 05-02 13:50

    【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

    `相信大家對(duì)NLP自然語(yǔ)言處理的技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的一個(gè)分支,它與計(jì)算機(jī)和人類(lèi)之間使用自然語(yǔ)言進(jìn)行交互密切相關(guān),而NLP的最終目標(biāo)是使計(jì)算機(jī)能夠像人類(lèi)一樣理解語(yǔ)言。目前
    發(fā)表于 10-09 15:28

    自然語(yǔ)言處理的語(yǔ)言模型

    自然語(yǔ)言處理——53 語(yǔ)言模型(數(shù)據(jù)平滑)
    發(fā)表于 04-16 11:11

    什么是自然語(yǔ)言處理?

    會(huì)識(shí)別出我們正確說(shuō)的話。 我們使用免費(fèi)服務(wù)將在線遇到的外語(yǔ)短語(yǔ)翻譯成英語(yǔ), 有時(shí)它們可以為我們提供準(zhǔn)確的翻譯。 盡管自然語(yǔ)言處理取得了長(zhǎng)足的進(jìn)步,但仍有很大的改進(jìn)空間。[理...
    發(fā)表于 07-23 10:22

    什么是自然語(yǔ)言處理

    什么是自然語(yǔ)言處理?自然語(yǔ)言處理任務(wù)有哪些?自然語(yǔ)言處理的方法是什么?
    發(fā)表于 09-08 06:51

    自然語(yǔ)言處理怎么最快入門(mén)_自然語(yǔ)言處理知識(shí)了解

    自然語(yǔ)言處理就是實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信,實(shí)現(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的,造成困難的根本原因是
    發(fā)表于 12-28 17:10 ?5339次閱讀

    基于用于自然語(yǔ)言生成的“語(yǔ)境調(diào)優(yōu)”技術(shù)

    自然語(yǔ)言生成(又稱為文本生成)旨在基于輸入數(shù)據(jù)用人類(lèi)語(yǔ)言生成合理且可讀的文本。隨著預(yù)訓(xùn)練語(yǔ)言模型
    的頭像 發(fā)表于 10-14 15:38 ?1104次閱讀

    LERF:當(dāng)CLIP遇見(jiàn)NeRF!讓自然語(yǔ)言3D場(chǎng)景交互更直觀

    自然語(yǔ)言不同,自然語(yǔ)言3D 場(chǎng)景交互非常直觀。我們可以用 1 中的廚房場(chǎng)景來(lái)解釋?zhuān)ㄟ^(guò)詢問(wèn)餐具在哪,或者詢問(wèn)用來(lái)攪拌的工具在哪,以這種方式就可以在廚房里找到物體。不過(guò)完成這項(xiàng)任
    的頭像 發(fā)表于 03-24 10:45 ?1168次閱讀

    自然語(yǔ)言處理的概念和應(yīng)用 自然語(yǔ)言處理屬于人工智能嗎

      自然語(yǔ)言處理(Natural Language Processing)是一種人工智能技術(shù),它是研究自然語(yǔ)言與計(jì)算機(jī)之間的交互和通信的一門(mén)學(xué)科。自然語(yǔ)言處理旨在研究機(jī)器如何理解人類(lèi)語(yǔ)言
    發(fā)表于 08-23 17:31 ?1782次閱讀

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動(dòng)起來(lái)的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類(lèi)別擴(kuò)散模型,能直接根據(jù)模型
    的頭像 發(fā)表于 01-30 16:20 ?973次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓文本、圖像都動(dòng)起來(lái)的新方法!

    自然語(yǔ)言處理包括哪些內(nèi)容

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到計(jì)算機(jī)與人類(lèi)語(yǔ)言之間的交互。NLP的目標(biāo)是讓計(jì)算機(jī)能夠理解、生成和處理人類(lèi)
    的頭像 發(fā)表于 07-03 14:15 ?1245次閱讀

    ASR與自然語(yǔ)言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)與自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域的兩個(gè)重要分支,它們?cè)谠S多應(yīng)用中緊密結(jié)合,共同構(gòu)成了自然語(yǔ)言理解和生成的技術(shù)體系
    的頭像 發(fā)表于 11-18 15:19 ?557次閱讀

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    在人工智能的快速發(fā)展中,語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使得機(jī)器能夠理解人類(lèi)的語(yǔ)音,而自然語(yǔ)言處理則讓機(jī)器能夠理解、解釋和生成人類(lèi)語(yǔ)言。這兩項(xiàng)技術(shù)
    的頭像 發(fā)表于 11-26 09:21 ?628次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它致力于研究如何讓計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言。機(jī)器學(xué)習(xí)(Ma
    的頭像 發(fā)表于 12-05 15:21 ?786次閱讀
    主站蜘蛛池模板: 网站色 | 四虎影院网 | h在线观看视频 | 99精品国产高清自在线看超 | 欧美一二三区 | 114毛片免费观看网站 | 成人欧美一区二区三区白人 | 韩毛片 | 特极毛片| 免费的黄色毛片 | 色婷婷影院在线视频免费播放 | 欧美xxxx做受欧美88bbw | 5060精品国产福利午夜 | 日本黄色片在线播放 | 亚洲一区二区三区中文字幕5566 | 国产高清片 | 精品久久看 | 三级网址在线观看 | 天天色综合社区 | 99久久国产免费 - 99久久国产免费 | 日韩中文字幕电影 | 国产亚洲人成a在线v网站 | 免费观看高清视频 | 国产普通话一二三道 | 在线观看网站黄 | 欧美色视频日本片高清在线观看 | 日本经典在线三级视频 | 国产男靠女免费视频网站 | 一级毛片aaaaaa视频免费看 | 久久久久久久久久免免费精品 | 国产亚洲综合一区 柠檬导航 | 久久99热精品这里久久精品 | 成年在线视频 | 午夜视 | 亚州一级毛片在线 | 色秀网站| 天天操操操操操操 | 不卡视频一区 | 亚洲国产丝袜精品一区杨幂 | 国产成人综合网在线播放 | 尤物蜜芽福利国产污在线观看 |