在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

多模態機器學習的圖像語言轉換器

傳感器技術 ? 來源:麻省科技評論 ? 作者:麻省科技評論 ? 2022-04-24 15:59 ? 次閱讀

對于 AI 系統來說,將語言與視覺聯系起來是它需要面對并學會解決的基本問題,例如在進行圖像的檢索時,AI 系統需要既能識別圖像,也能識別語言,并將二者相關聯起來。

對于這類需要 AI 系統識別不同種類或形式的信息來源的任務中,就需要多模態機器學習(MML/Multimodal Machine Learning)來發揮作用。所謂模態,指的是一種信息的來源或形式,例如文字、圖像、視頻音頻等都是模態。多模態機器學習是指利用機器學習來處理多種模態的信息。

近些年來,在多模態機器學習領域中,多模態圖像語言轉換器(Multimodal image–language transformers)已經取得了深刻進展,尤其在解決各種需要微調的任務,如視覺問答、圖像檢索中發揮了關鍵性作用。

但是,在既需要處理圖像又需要處理語言文本的多模態機器學習任務中,有一類問題對于多模態圖像語言轉換器來說尤其棘手,那就是對文本中的動詞的理解。例如要求 AI 系統來在圖像中區分識別找出“踢球”和“拋球”這兩種情景。在這一任務中,AI 系統不僅需要識別出圖像中的“球”這一對象,還需要識別圖像中不同對象之間的關系。

為了評估近年來多模態圖像語言轉換器的預訓練水平,尤其是在“看圖理解”中對于上文所說的動詞的識別能力。近日,DeepMind 開發出一套方法,并引入了名為 SVO-Probes 的“圖像-句子對” 數據集,來評估不同 AI 系統的多模態預訓練模型對于動詞的理解水平,尤其是了解這些 AI 系統多模態轉換器的預訓練模型在結合語言文本來識別圖像時,到底是既能夠識別中圖片中的物體、也能區分中圖像中的動作,還是只能夠識別出圖中的物體。

為了達到這一目的,DeepMind 建立的 SVO-Probes 數據集包含了 48000 個圖像-句子對,可以測試 AI 系統對 447 個動詞的理解,這些動詞要么是視覺可以區分的,要么是在預訓練數據中常見的,例如許多概念字幕數據集。這個數據集中的每個句子都可以分解成 一個 <主語、動詞、賓語> 三元組,也就是 SVO 三元組,并分別配對有與句子描述的內容相符和不符的圖像,它們在是實驗中分別被稱為“正實例圖像” 和 “負實例圖像”。

69a52362-c3a0-11ec-bce3-dac502259ad0.png

圖|評估多模態語言圖像轉換器對于動詞的識別能力的 SVO- Probes 數據集中的圖像-句子對(來源:DeepMind)

上圖顯示了圖像-句子對的幾個例子,以左上角的圖像-句子對為例,分別顯示了與句子“孩子、過、馬路”相符的正示例圖像,以及與“女士、過、馬路”不符的負示例圖像,通過這一對可以測試 AI 系統識別圖中的對象——也就是名詞的能力;而上方中間的圖像-句子對,則分別顯示了”人、唱歌、演唱會上“ 的正示例圖像和”“人、跳舞、演唱會上“ 的負示例圖像。通過這一對就可以既測試 AI 系統識別圖中的名詞的能力,也能測試 AI 識別動詞的能力。

在實驗中使用這一 SVO-Probes 數據集以零樣本的方式對 AI 預訓練模型進行評估之后,DeepMind 的工程師發現,相比名詞等其他詞性,預訓練模型在需要動詞理解的情況下錯誤率要高很多。

下面的條形圖詳細說明了測試的結果。標準多模態轉換器模型經過測試后總體準確率達到 64.3%,這也顯示了 SVO- Probes 數據集確實具有挑戰性。而這一 AI 模型在對于主語和賓語判斷的準確率分別為 67.0% 和 73.4%,但是對于動詞判斷的準確率卻下降到 60.8%。這一結果表明,動詞識別確實對 AI 系統模型具有挑戰性。

此外,該公司的工程師們還進一步總結調查了哪些類別的動詞對于這些 AI 預訓練模型尤其具有挑戰性。結果發現,像“抓”這樣的運動性動詞以及“帶領”這樣在不同類型的語境中經常出現的動詞對于 AI 來說更容易。而 AI 模型判斷的正確率最高的動詞有“打斗”“包圍”“滑雪”“參加”等;而錯誤率最高的幾個動詞有“切”“爭論”“斷”等。

69be475c-c3a0-11ec-bce3-dac502259ad0.png

圖|多模態機器學習的圖像語言轉換器對于 SVO-Probes 數據集進行判斷測試之后的結果(來源:DeepMind)

值得一提的是,當工程師們對哪些模型架構在 SVO-Probes 數據集上的表現更好這一問題進行探索時,他們驚訝地發現,相比圖像建模能力更強的標準圖像語言轉換器模型,那些圖像建模較弱的模型反而表現更好。對這一與直覺相反的發現的解釋的一個假設是,標準轉換器模型在圖像識別方面可能有些“過度訓練”了。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 轉換器
    +關注

    關注

    27

    文章

    8762

    瀏覽量

    148384
  • AI
    AI
    +關注

    關注

    87

    文章

    31982

    瀏覽量

    270799
  • 數據集
    +關注

    關注

    4

    文章

    1212

    瀏覽量

    24895

原文標題:AI多模態圖像語言轉換器在看圖理解中對動詞的識別力

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種模態、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發表于 02-12 11:13 ?259次閱讀
    一文詳解視覺<b class='flag-5'>語言</b>模型

    2025年Next Token Prediction范式會統一模態

    各種模態的信息(如圖像、視頻和音頻片段)分解為最小的單元序列(Token),以便 Transformer 結構為基礎的 NTP 模型學習。 Tokenization 方法可以分為離散(Discrete
    的頭像 發表于 01-21 10:11 ?106次閱讀
    2025年Next Token Prediction范式會統一<b class='flag-5'>多</b><b class='flag-5'>模態</b>嗎

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    模態融合的創新與突破 機器人控制技術的另一個重要突破在于模態大模型的應用。相比于僅通過文字進行人機交互的傳統方法,現代
    發表于 12-29 23:04

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?404次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它致力于研究如何讓計算機能夠理解、解釋和生成人類語言機器
    的頭像 發表于 12-05 15:21 ?868次閱讀

    一文理解模態語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態語言模型 - 上》介紹了什么是模態
    的頭像 發表于 12-03 15:18 ?261次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b>模型——下

    一文理解模態語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態語言模型的論文和博客,在此基礎上,推薦了一篇解讀
    的頭像 發表于 12-02 18:29 ?539次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b>模型——上

    vga接口轉hdmi轉換器圖像沒反應怎么回事

    VGA轉HDMI轉換器是一種常見的視頻信號轉換設備,它允許用戶將VGA信號轉換為HDMI信號,以便在現代顯示或投影儀上顯示圖像。然而,有時
    的頭像 發表于 10-21 09:59 ?5677次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說
    的頭像 發表于 10-18 09:39 ?629次閱讀

    AMC7812具有通道模數轉換器(ADC)數模轉換器(DAC)和溫度傳感數據表

    電子發燒友網站提供《AMC7812具有通道模數轉換器(ADC)數模轉換器(DAC)和溫度傳感數據表.pdf》資料免費下載
    發表于 07-27 10:08 ?0次下載
    AMC7812具有<b class='flag-5'>多</b>通道模數<b class='flag-5'>轉換器</b>(ADC)數模<b class='flag-5'>轉換器</b>(DAC)和溫度傳感<b class='flag-5'>器</b>數據表

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    的大語言模型設計技術人員閱讀,主要包括大語言模型的優化方法、Agent系統調優以及模型的安全技術。 展望篇分析了大語言模型的發展前景,介紹了模態
    發表于 07-21 13:35

    李未可科技正式推出WAKE-AI模態AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互,同時
    發表于 04-18 17:01 ?679次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    AI機器人迎來模態模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的模態信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發表于 04-12 10:39 ?321次閱讀

    機器視覺圖像采集卡:關鍵的圖像處理設備

    視覺圖像采集卡的工作原理。機器視覺圖像采集卡通常由模擬-數字轉換器(ADC)、數字信號處理(DSP)和接口電路等組成。當光線照射到傳感
    的頭像 發表于 02-22 16:23 ?586次閱讀
    <b class='flag-5'>機器</b>視覺<b class='flag-5'>圖像</b>采集卡:關鍵的<b class='flag-5'>圖像</b>處理設備
    主站蜘蛛池模板: www.av在线.com | 伊人7| 美女被猛男躁免费视频网站 | 国产免费久久精品99 | 7777奇米影视 | 日韩特级毛片 | 亚洲视频入口 | 欧美一区二区三区视频 | 久久久久久国产精品免费免费 | 四虎永久精品视频在线 | 免费看黄在线 | 在线观看免费精品国产 | 中文字幕一区二区精品区 | 毛片一区二区三区 | 色视频在线免费观看 | 7m凹凸精品分类大全免费 | 日本三级中文字幕 | 一区二区高清在线观看 | 午夜国产精品理论片久久影院 | 天天噜噜噜 | 欧美日韩一区不卡 | 天天爽夜夜爽每晚高澡 | 亚洲成a人片在线观看导航 亚洲成a人片在线观看尤物 | 成 年 人 视频在线播放 | 最新版天堂中文在线官网 | 一本到中文字幕高清不卡在线 | www.av天天| 特黄特色大片免费视频播放 | 色偷偷综合网 | 老师在办公室被躁得舒服小说 | 三级毛片在线 | 最新天堂| 好爽毛片一区二区三区四 | 最新亚洲一区二区三区四区 | 免费大片看黄在观看 | 成人黄色激情网 | 欧美一二三区在线 | 四虎影库在线播放 | 日本毛片在线观看 | 国产亚洲精品线观看77 | 精品综合久久88色鬼首页 |