在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于多模態(tài)命名實體識別的通用匹配對齊框架

深度學習自然語言處理 ? 來源:知識工場 ? 作者:知識工場 ? 2022-09-06 16:17 ? 次閱讀

命名實體識別是NLP領(lǐng)域中的一項基礎(chǔ)任務,在文本搜索、文本推薦、知識圖譜構(gòu)建等領(lǐng)域都起著至關(guān)重要的作用,一直是熱點研究方向之一。多模態(tài)命名實體識別在傳統(tǒng)的命名實體識別基礎(chǔ)上額外引入了圖像,可以為文本補充語義信息來進行消岐,近些年來受到人們廣泛的關(guān)注。

盡管當前的多模態(tài)命名實體識別方法取得了成功,但仍然存在著兩個問題:(1)當前大部分方法基于注意力機制來進行文本和圖像間的交互,但由于不同模態(tài)的表示來自于不同的編碼器,想要捕捉文本中token和圖像中區(qū)域之間的關(guān)系是困難的。如下圖所示,句子中的‘Rob’應該和圖像中存在貓的區(qū)域(V5,V6,V9等)有著較高的相似度,但由于文本和圖像的表示并不一致,在通過點積等形式計算相似度時,‘Rob’可能會和其它區(qū)域有著較高的相似度得分。因此,表示的不一致會導致模態(tài)之間難以建立起較好的關(guān)系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)當前的方法認為文本與其隨附的圖像是匹配的,并且可以幫助識別文本中的命名實體。然而,并不是所有的文本和圖像都是匹配的,模型考慮這種不匹配的圖像將會做出錯誤的預測。如下圖所示,圖片中沒有任何與命名實體“Siri”相關(guān)的信息,如果模型考慮這張不匹配的圖像,便會受圖中“人物”的影響將“Siri”預測為PER(人)。而在只有文本的情況下,預訓練模型(BERT等)通過預訓練任務中學到的知識可以將“Siri”的類型預測為MISC(雜項)。

Text: Ask [Siri MISC] what 0 divided by 0 is and watch her put you in your place.

為了解決上述存在的問題,本文提出了MAF,一種通用匹配對齊框架(General Matching and Alignment Framework),將文本和圖像的表示進行對齊并通過圖文匹配的概率過濾圖像信息 。由于該框架中的模塊是插件式的,其可以很容易地被拓展到其它多模態(tài)任務上。

本文研究成果已被WSDM2022接收,文章和代碼鏈接如下:

論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3488560.3498475

代碼:https://github.com/xubodhu/MAF

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png

整體框架

本文框架如下圖所示,由5個主要部分組成:

Input Representations

將原始的文本輸入轉(zhuǎn)為token序列的表示以及文本整體的表示,將原始的圖像輸入轉(zhuǎn)為圖像區(qū)域的表示以及圖像整體的表示。

Cross-Modal Alignment Module

接收文本整體的表示和圖像整體的表示作為輸入,通過對比學習將文本和圖像的表示變得更為一致。

Cross-Modal Interaction Module

接收token序列的表示以及圖像區(qū)域的表示作為輸入,使用注意力機制建立起文本token和圖像區(qū)域之間的聯(lián)系得到文本增強后的圖像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增強后的圖像的表示作為輸入,用于判斷文本和圖像匹配的概率,并用輸出的概率對圖像信息進行過濾。

Cross-Modal Fusion Module

將文本token序列的表示和最終圖像的表示結(jié)合在一起輸入到CRF層進行預測。

7cf10116-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

本文使用BERT作為文本編碼器,當文本輸入到BERT后,便可以得到token序列的表示,其中n為token的數(shù)量,為[CLS],為[SEP],,本文使用[CLS]的表示作為整個文本的表示。

本文使用ResNet作為圖像編碼器,當圖像輸入到ResNet后,其最后一層卷積層的輸出被作為圖像區(qū)域的表示,其中為圖像區(qū)域的數(shù)量,即將整張圖像均分為49個區(qū)域。接著,使用大小為的平均池化層對進行平均池化得到整個圖像的表示。由于后續(xù)和需要進行交互,所以將通過一個全連接層將其投影到與相同的維度,其中。

Cross-Modal Alignment Module (CA)

該模塊遵循SimCLR[1]進行對比學習的訓練過程使得文本的表示和圖像的表示更趨于一致,接收以及作為輸入,通過對比學習來調(diào)整編碼器的參數(shù)。本文在構(gòu)造正負樣例階段中認為原始的文本-圖像對為正樣例,除此之外的文本-圖像對均為負樣例,因此在大小為N的batch中,只有N個原始的文本-圖像對為正樣例,對于batch中的每個文本來說,除了其原始的image外,其余任意image與其都構(gòu)成負樣例,對于batch中的每個圖像來說也是如此。如下圖所示,當N為3時,可以得到3個正樣例以及個負樣例。

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

接著,本文使用兩個不同的MLP作為投影層分別對和進行投影得到以及。然后,通過最小化對比學習損失來最大化正樣例之間的相似度并且最小化負樣例之間的相似度來使得文本的表示和圖像的表示更加一致,image-to-text對比學習損失如下所示:

其中為余弦相似度,為溫度參數(shù)。text-to-image對比學習損失如下所示:

我們將上述兩個對比學習損失函數(shù)合并,得到最終的對比學習損失函數(shù):

其中為超參數(shù)。

補充:

Q:在“背景”部分提到的第(2)個問題是圖文可能是不匹配的,為什么在CA中還是認為來自同一文本-圖像對的數(shù)據(jù)為正樣例?

A:在EBR[2]中,作者通過類似于對比學習的方式來訓練一個向量召回模型(通過搜索文本來召回淘寶商品),并且認為點擊和購買的商品為正樣例,但這種點擊和購買的信號除了和搜索內(nèi)容有關(guān)之外還受到商品價格、銷量、是否包郵等因素影響,類似于本文中將原始的文本-圖像對看作正例,都是存在噪聲的。由于本身可以調(diào)節(jié)分布的特性,EBR作者通過增加的大小來減少數(shù)據(jù)噪聲的影響,并且通過實驗證明將增大到一定數(shù)值(設置為3時達到最好)可以提高模型的表現(xiàn)。本文最終的也是一個相對較大的數(shù)字為0.1。而在其它數(shù)據(jù)噪聲相對較少的對比學習的工作中,如SimCSE[3],被設置為0.05,MoCo[4]中的被設置為0.07。

總的來說,CA中會存在一定數(shù)量的噪聲數(shù)據(jù),但可以通過提高的方式來顯著地降低其帶來的影響。

Cross-Modal Interaction Module (CI)

該模塊通過注意力機制建立起文本和圖像之間的關(guān)系,使用文本token序列表示作為Query,使用圖像的區(qū)域表示作為Key和Value,最終得到文本增強后的圖像表示。

Cross-Modal Matching Module (CM)

該模塊用于判斷圖文匹配的概率,并用概率調(diào)整圖像應保留的信息。該模塊接受和作為輸入,輸出為和匹配的概率。由于缺少用于標記圖文是否匹配的監(jiān)督數(shù)據(jù),本文使用一種自監(jiān)督的學習方式來訓練該模塊。

首先,本文在大小為N的batch中構(gòu)造正負樣例,其中原始的文本-圖像對為正樣例,其余的為負樣例。本文通過隨機交換batch中前2k個樣例的來構(gòu)造負樣例,如下圖所示,在大小為3的batch中,交換前2*1個樣例的得到2個負樣例,而剩余的3-2=1個沒有被交換的樣例則為正樣例。

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

接著,將構(gòu)造好的每個樣例中的和拼接起來作為輸入到一個激活函數(shù)為sigmoid的全連接層中用于預測圖文匹配的概率。

判斷圖文是否匹配可以被看做是一個二分類任務,因此在獲取的正負樣例后,可以自然地獲得每個樣例的真實標簽(正樣例為1,負樣例為0),再通過上述公式得到預測概率后,便可以使用二元交叉熵來訓練該模塊。

最后,使用該模塊輸出的概率與進行逐元素相乘來獲得圖像應保留的信息(該模塊輸出的概率越大說明圖文匹配的概率越高,則逐元素相乘圖像保留的信息越多)。

Cross-Modal Fusion Module (CF)

該模塊用于將文本token序列以及最終圖像的表示融合在一起。首先,本文使用門機制動態(tài)地調(diào)整應與文本結(jié)合的圖像表示:

最后將和拼接在一起得到,其中。將輸入到CRF層中,便可以得到每個token對應的類別。

訓練時,CA和CM中的損失會和命名實體識別的損失同步訓練。

實驗

主要結(jié)果

本文的方法在Twitter-2015和Twitter-2017數(shù)據(jù)集上效果均優(yōu)于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

運行時間

本文的方法相比于之前的方法除了有著模態(tài)之間交互的模塊(本文中為CI),還添加了對齊模態(tài)表示的CA以及判斷圖文是否匹配的CM,這可能會導致訓練成本以及預測成本增加。但本文簡化了模態(tài)之間交互的過程,因此整體訓練和預測時間以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融實驗

本文進行了消融實驗,驗證了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

樣例分析

本文還進行了樣例分析來更加直觀地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png

參考資料

[1] A Simple Framework for Contrastive Learning of Visual Representations:http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

[2] Embedding-based Product Retrieval in Taobao Search:https://arxiv.org/pdf/2106.09297.pdf?ref=https://githubhelp.com

[3] SimCSE: Simple Contrastive Learning of Sentence Embeddings:https://arxiv.org/pdf/2104.08821.pdf?ref=https://githubhelp.com

[4] Momentum Contrast for Unsupervised Visual Representation Learning:https://openaccess.thecvf.com/content_CVPR_2020/papers/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.pdf

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1089

    瀏覽量

    40606
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    403

    瀏覽量

    17564
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22131
收藏 人收藏

    評論

    相關(guān)推薦

    海康威視發(fā)布模態(tài)大模型文搜存儲系列產(chǎn)品

    模態(tài)大模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,海康威視將大參數(shù)量、大樣本量的圖文模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布
    的頭像 發(fā)表于 02-18 10:33 ?128次閱讀

    字節(jié)跳動發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動近日發(fā)布了一項重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢在于其強大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻,就能生成
    的頭像 發(fā)表于 02-07 17:50 ?418次閱讀

    體驗MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    商湯日日新模態(tài)大模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?401次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言模型,以及構(gòu)建
    的頭像 發(fā)表于 12-03 15:18 ?246次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——下

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,模態(tài)
    的頭像 發(fā)表于 10-18 09:39 ?622次閱讀

    云知聲山海模態(tài)大模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態(tài)人工智能模型基準評測集MMMU更新榜單,云知聲山海模態(tài)大模型UniGPT-mMed以通用能力、醫(yī)療專業(yè)能力雙雙排名第一的優(yōu)異成
    的頭像 發(fā)表于 10-12 14:09 ?360次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型UniGPT-mMed登頂MMMU測評榜首

    云知聲推出山海模態(tài)大模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨運的山海模態(tài)大模型,正式宣告“Her時代
    的頭像 發(fā)表于 08-27 15:20 ?452次閱讀

    如何設計人臉識別的神經(jīng)網(wǎng)絡

    人臉識別技術(shù)是一種基于人臉特征信息進行身份識別的技術(shù),廣泛應用于安全監(jiān)控、身份認證、智能門禁等領(lǐng)域。神經(jīng)網(wǎng)絡是實現(xiàn)人臉識別的關(guān)鍵技術(shù)之一,本文將介紹如何設計人臉
    的頭像 發(fā)表于 07-04 09:20 ?783次閱讀

    人臉檢測與識別的方法有哪些

    人臉檢測與識別是計算機視覺領(lǐng)域中的一個重要研究方向,具有廣泛的應用前景,如安全監(jiān)控、身份認證、智能視頻分析等。本文將詳細介紹人臉檢測與識別的方法。 引言 人臉檢測與識別技術(shù)在現(xiàn)代社會中扮演著
    的頭像 發(fā)表于 07-03 14:45 ?877次閱讀

    人大系初創(chuàng)公司智子引擎發(fā)布全新模態(tài)大模型Awaker 1.0

    人大系初創(chuàng)公司智子引擎近日震撼發(fā)布了新一代模態(tài)大模型Awaker 1.0,這一里程碑式的成果標志著公司在通用人工智能(AGI)領(lǐng)域取得了重要突破。與前代ChatImg序列模型相比,Awaker 1.0憑借其獨特的MOE架構(gòu)和業(yè)
    的頭像 發(fā)表于 05-06 09:59 ?688次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互,同時
    發(fā)表于 04-18 17:01 ?679次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    語音識別的技術(shù)歷程及工作原理

    語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別,即通過學習,系統(tǒng)能夠把輸入的語音按一定模式進行分類,進而依據(jù)判定準則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?4077次閱讀
    語音<b class='flag-5'>識別的</b>技術(shù)歷程及工作原理

    螞蟻集團推出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團聯(lián)合武漢大學宣布成功研發(fā)出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學共同完成,是迄今為止國際上參數(shù)規(guī)模最大、覆蓋任務最全、識別精度最高的
    的頭像 發(fā)表于 03-04 11:22 ?915次閱讀

    螞蟻推出20億參數(shù)模態(tài)遙感模型SkySense

    據(jù)了解,負責開發(fā)的百靈團隊利用自身擁有的19億遙感影像數(shù)據(jù)集進行了預訓練,從而生成了具有20.6億參數(shù)的SkySense大模型。官方稱其為全球范圍內(nèi)參數(shù)規(guī)模最大、任務覆蓋最全且識別精度最高的模態(tài)遙感大模型。
    的頭像 發(fā)表于 02-28 15:53 ?765次閱讀
    主站蜘蛛池模板: 亚洲不卡视频在线观看 | 国产亚洲午夜精品a一区二区 | 亚洲成网站www久久九 | 亚洲欧美一区二区久久香蕉 | 高清一级毛片一本到免费观看 | 97精品伊人久久久大香线焦 | 天天色天天碰 | 手机毛片 | 免费高清视频在线观看 | 色多多黄| 久久久久久天天夜夜天天 | 夜夜爱夜夜爽 | 99热国内精品| 狠狠色噜噜狠狠狠狠98 | 午夜片在线观看 | 欧美人另类zooz | 一夜七次郎久久综合伊人 | 98pao强力打造高清免费 | 欧美成人精品一区二区 | 色窝视频| 国产一级特黄全黄毛片 | 久久久噜噜噜久久中文字幕色伊伊 | 永久黄网站色视频免费观看 | 三级精品 | 日日拍拍 | 亚洲午夜视频在线观看 | 日韩一级片免费在线观看 | 青青青久97在线观看香蕉 | 欧美精品综合一区二区三区 | 四虎影院4hu| 天天综合久久久网 | 国产成人精品一区 | 久久综合免费 | 四虎最新网 | 久久国产免费观看 | 亚洲线精品一区二区三区 | 国产免费一区二区三区最新 | 日韩毛片免费视频一级特黄 | 成人性色生活片免费看爆迷你毛片 | 欧美一级免费 | 天天操天天射天天舔 |