微軟視覺語言模型有顯著超越人類的表現(xiàn)

視覺語言（Vision-Language，VL）系統(tǒng)允許為文本查詢搜索相關(guān)圖像（或反之），并使用自然語言描述圖像的內(nèi)容。一般來說，一個VL系統(tǒng)使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發(fā)了一種新的圖像編碼對象屬性檢測模型，稱為VinVL（Visual features in Vision-Language），有著顯著超越人類的表現(xiàn)。

當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后，微軟新的VL系統(tǒng)能夠在競爭最激烈的VL排行榜上取得第一，包括視覺問題回答（VQA）、微軟COCO圖像字幕和新穎對象字幕（nocaps）。微軟研究團隊還強調(diào)，在nocaps排行榜上，這種新的VL系統(tǒng)在CIDEr（92.5對85.3）方面的表現(xiàn)明顯超過了人類的同形式表現(xiàn)。

微軟解釋道：

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益，正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結(jié)果，比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn)，但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括（1）利用海量圖像分類/標(biāo)記數(shù)據(jù)，進一步擴大對象屬性檢測預(yù)訓(xùn)練的規(guī)模；（2）將跨模態(tài)VL表征學(xué)習(xí)的方法擴展到構(gòu)建感知基礎(chǔ)的語言模型，可以像人類一樣將視覺概念建立在自然語言中，反之亦然。

微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中，Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐，如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6676

瀏覽量
105447
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1094

瀏覽量
41077
模型

模型

+關(guān)注

關(guān)注
1

文章
3500

瀏覽量
50099

精選推薦
更多

文章

資料

帖子

SiC MOSFET模塊的損耗計算

三菱電機半導(dǎo)體
6小時前

246 閱讀

適用TI ADS1299器件的ADS129x設(shè)備SPI通信問題調(diào)試步驟教程

向上
8小時前

205 閱讀

5G-A與AI共舞，廣東移動烹出高鐵網(wǎng)絡(luò)加速包

腦極體
13小時前

425 閱讀

性能提升2.7倍！索尼推出新款車載激光雷達傳感器，助力L3級自動駕駛落地

章鷹觀察
13小時前

2759 閱讀

LHE7909與ADS1299兩款模數(shù)轉(zhuǎn)換器(ADC)在腦電圖實驗中的對比測試

領(lǐng)慧立芯
14小時前

366 閱讀

W3A SOC Web日志審計與網(wǎng)絡(luò)監(jiān)控

李輝
42.03 MB

2積分

1下載

Automa Chrome自動化擴展

楊靜
0.67 MB

2積分

2下載

BitPay Android的比特幣支付應(yīng)用

余溫重顧
0.46 MB

2積分

2下載

Valet鑰匙鏈中存儲數(shù)據(jù)的iOS庫

陳霞
0.19 MB

免費

0下載

DIY Arduino nRF24L01遙控器

康大爭
0.12 MB

2積分

10下載

【正點原子STM32MP257開發(fā)板試用】4.人臉識別體驗

jf_47210120
1天前

124 閱讀

過孔處理：SMT訂單中的隱形裁判

鄒夢雨
1天前

147 閱讀

30V30A開關(guān)電源電路圖

yuu_cool
1天前

147 閱讀

HarmonyOS NEXT意圖框架習(xí)慣推薦一場景說明

李洋水蛟龍
1天前

157 閱讀

反激電源——TL431及光耦反饋電路計算

yuu_cool
1天前

126 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

微軟視覺語言模型有顯著超越人類的表現(xiàn)

評論