在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟視覺語言模型有顯著超越人類的表現(xiàn)

如意 ? 來源:cnBeta.COM ? 作者:cnBeta.COM ? 2021-01-19 14:32 ? 次閱讀

視覺語言(Vision-Language,VL)系統(tǒng)允許為文本查詢搜索相關(guān)圖像(或反之),并使用自然語言描述圖像的內(nèi)容。一般來說,一個VL系統(tǒng)使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發(fā)了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。

當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后,微軟新的VL系統(tǒng)能夠在競爭最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對象字幕(nocaps)。微軟研究團隊還強調(diào),在nocaps排行榜上,這種新的VL系統(tǒng)在CIDEr(92.5對85.3)方面的表現(xiàn)明顯超過了人類的同形式表現(xiàn)。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益,正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結(jié)果,比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn),但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標(biāo)記數(shù)據(jù),進一步擴大對象屬性檢測預(yù)訓(xùn)練的規(guī)模;(2)將跨模態(tài)VL表征學(xué)習(xí)的方法擴展到構(gòu)建感知基礎(chǔ)的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。

微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中,Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6676

    瀏覽量

    105447
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41077
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3500

    瀏覽量

    50099
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?3155次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    TeleAI提出COPO對齊方法:8B模型超越Llama3-70B的表現(xiàn)

    新大陸。 正如人類在面對未知時展現(xiàn)出的探索行為,在人工智能領(lǐng)域,尤其在大型語言模型(LLMs)理解語言和知識中,研究人員正嘗試賦予 LLM 類似的探索能力,從而突破其在給定數(shù)據(jù)集中學(xué)習(xí)
    的頭像 發(fā)表于 02-17 17:31 ?370次閱讀
    TeleAI提出COPO對齊方法:8B<b class='flag-5'>模型</b><b class='flag-5'>超越</b>Llama3-70B的<b class='flag-5'>表現(xiàn)</b>

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1586次閱讀
    一文詳解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    馬斯克預(yù)言:AI將全面超越人類智力

    近日,科技巨頭馬斯克作出了一個關(guān)于人工智能(AI)的大膽預(yù)測。他斷言,AI的發(fā)展速度將超乎人類的想象,并將在不久的將來全面超越人類的智力。 馬斯克在X平臺上明確表示,AI的迅猛進步不容忽視。他預(yù)測
    的頭像 發(fā)表于 12-28 14:23 ?696次閱讀

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    閱讀之旅。在翻開這本書之前,我對大模型的認(rèn)知僅僅停留在它是一種強大的人工智能技術(shù),可以進行自然語言處理、圖像識別等任務(wù)。我知道像 ChatGPT 這樣的應(yīng)用是基于大模型開發(fā)的,能夠與人類
    發(fā)表于 12-24 13:10

    NaVILA:加州大學(xué)與英偉達聯(lián)合發(fā)布新型視覺語言模型

    日前,加州大學(xué)的研究人員攜手英偉達,共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機器人導(dǎo)航領(lǐng)域展現(xiàn)出了獨特的應(yīng)用潛力,為智能機器人的自主導(dǎo)航提供了一種全新的解決方案。
    的頭像 發(fā)表于 12-13 10:51 ?625次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?626次閱讀

    基于視覺語言模型的導(dǎo)航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無需任何微調(diào)或?qū)Ш綌?shù)據(jù)的端到端策略來使用。這使得該
    的頭像 發(fā)表于 11-22 09:42 ?742次閱讀

    通義千問發(fā)布第二代視覺語言模型Qwen2-VL

    阿里巴巴旗下的通義千問近日宣布,其第二代視覺語言模型Qwen2-VL正式問世,并宣布旗艦模型Qwen2-VL-72B的API已順利接入阿里云百煉平臺,標(biāo)志著這一創(chuàng)新技術(shù)成果正式對外開放
    的頭像 發(fā)表于 09-03 16:31 ?818次閱讀

    IBM Granite系列模型被Forrester評為“強勁表現(xiàn)者”

    近日,IBM 憑借其旗艦 Granite 系列模型,在 2024年第二季度的《Forrester Wave:語言 AI 基礎(chǔ)模型》報告中,被評為“強勁表現(xiàn)者”。
    的頭像 發(fā)表于 08-16 11:34 ?757次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    、機器翻譯、文本生成等領(lǐng)域具有廣泛應(yīng)用。它們能夠基于用戶的提問或描述生成相關(guān)的答案或執(zhí)行指令,極大地提升了信息檢索和利用的效率。 2. 局限性 盡管大語言模型在自然語言理解方面取得了顯著
    發(fā)表于 08-02 11:03

    語言模型的預(yù)訓(xùn)練

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)作為人工智能領(lǐng)域的一個重要分支,取得了顯著的進步。其中,大語言模型(Large Language Model, LLM)憑借其強大的
    的頭像 發(fā)表于 07-11 10:11 ?920次閱讀

    基于神經(jīng)網(wǎng)絡(luò)的語言模型哪些

    基于神經(jīng)網(wǎng)絡(luò)的語言模型(Neural Language Models, NLMs)是現(xiàn)代自然語言處理(NLP)領(lǐng)域的一個重要組成部分,它們通過神經(jīng)網(wǎng)絡(luò)來捕捉語言的統(tǒng)計特性和語義信息,從
    的頭像 發(fā)表于 07-10 11:15 ?1360次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的一個重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,NLP領(lǐng)域取得了
    的頭像 發(fā)表于 07-05 09:59 ?1097次閱讀

    nlp自然語言處理模型哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)和人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領(lǐng)域一些模型
    的頭像 發(fā)表于 07-05 09:57 ?1759次閱讀
    主站蜘蛛池模板: 亚洲综合亚洲综合网成人 | 欧美三页| 色综合久久98天天综合 | 国产三级a三级三级天天 | 久久久精品免费观看 | 人人干综合 | 四虎永久在线观看免费网站网址 | 日本黄色大全 | 色老头网址| 天堂中文最新版www 天堂资源8中文最新版在线 | 一级一黄在线观看视频免费 | 天天操天天干天天舔 | 真实偷清晰对白在线视频 | 婷婷在线网 | 永久在线免费 | 久久国产免费观看精品 | 日本动漫免费看 | 天堂最新版资源www在线 | 特级一级毛片免费看 | 亚洲免费视频一区二区三区 | 久久综合九色综合欧洲色 | 九九国产精品视频 | 伊人网网 | 午夜视频国语 | 亚洲日本精品 | 欧美综合在线视频 | 狠狠色狠狠色狠狠五月ady | 久久综合色88 | 久久99热狠狠色精品一区 | 久久精品国产免费看久久精品 | 日本加勒比一区 | 五月欧美| 亚洲一区二区综合 | 久热精品视频 | 亚洲天堂手机在线 | 视频一区二区三区在线观看 | 免费大片看黄在观看 | 欧美大狠狠大臿蕉香蕉大视频 | 福利片午夜 | 男人天堂bt | 日韩美a一级毛片 |