01
研究動(dòng)機(jī)
面向目標(biāo)的多模態(tài)情感分類(TMSC)是方面級情感分析的一個(gè)新的子任務(wù),旨在預(yù)測一對句子和圖片中提到的意見目標(biāo)的情感極性。該任務(wù)背后的假設(shè)是圖片信息可以幫助文本內(nèi)容識別意見目標(biāo)的情感。圖1給出了兩個(gè)代表性的示例。我們可以看到僅僅根據(jù)非正式的簡短句子很難檢測出意見目標(biāo)的情感,但與意見目標(biāo)相關(guān)的視覺內(nèi)容(即笑臉)可以清晰地反映其情感極性。
圖1:面向目標(biāo)的多模態(tài)情感分類 (TMSC) 的兩個(gè)示例。意見目標(biāo)及其相應(yīng)的情感極性在句子中突出顯示。紅色邊框表示意見目標(biāo)關(guān)注到的視覺線索。
從上面的示例中我們可以看出,對齊兩種模態(tài)的意見目標(biāo)并捕獲有用的視覺情感特征在TMSC任務(wù)中起著至關(guān)重要的作用。鑒于其重要性,主流的工作采用了注意力機(jī)制來自動(dòng)學(xué)習(xí)文本和圖片的對齊關(guān)系,然后將捕獲的意見目標(biāo)的視覺表示聚合為證據(jù)來進(jìn)行情感預(yù)測。
盡管取得了一些改進(jìn),但上述方法仍然存在兩個(gè)關(guān)鍵問題:
(1)由于文本和圖片中意見目標(biāo)的粒度存在很大的差距,之前的這些方法很難對齊兩種模態(tài)。具體來說,圖片中出現(xiàn)的意見目標(biāo)通常是指粗粒度的對象(例如,圖片中的man),而句子中的意見目標(biāo)通常是細(xì)粒度的實(shí)體(例如,人名 “Vince Gilligan)。意見目標(biāo)粒度的不一致導(dǎo)致視覺注意力有時(shí)無法捕捉到相應(yīng)的視覺表征。
(2)即使捕獲到了,表達(dá)相同情緒的多樣化視覺表示也給情感預(yù)測帶來了很大的挑戰(zhàn)。以圖1(c)和圖1(d)為例,意見目標(biāo)“Vince Gilligan”和“Sammy”分別關(guān)注了圖片中的粗粒度對象man和girl,從他們的面部表情我們可以看出他們都在微笑,但微笑的角度和幅度卻大不相同。視覺表示的多樣性不可避免地導(dǎo)致其稀疏性,這使得學(xué)習(xí)視覺表示和情感標(biāo)簽之間的映射函數(shù)變得困難。
在這項(xiàng)工作中,我們提供了解決上述問題的新思路,即利用從圖片中提取的形容詞-名詞對 (ANPs) .(例如圖2(a)中的“nice clouds”, “bad car”, “happy man”, “clear sky”和“dry grass”)。對于第一個(gè)問題,我們觀察到ANPs中的名詞也是粗粒度的概念,因此一個(gè)很直觀的想法是將細(xì)粒度的意見目標(biāo)(例如“Vince Gilligan”)映射到粗粒度名詞中(例如“man”)。
通過這種方式更容易彌合兩種模態(tài)的粒度差距并對齊文本和圖片。對于第二個(gè)問題,我們觀察到 ANPs 通常可以從表達(dá)相同情緒的不同視覺內(nèi)容中提取到相同的形容詞,因此一個(gè)很直觀的想法是將多樣化的視覺表征(例如笑臉)映射到同一個(gè)形容詞(例如“happy”)。顯然,學(xué)習(xí)這些相同形容詞和情感標(biāo)簽之間的映射函數(shù)更容易。
圖2:從每個(gè)圖片中提取前 5 個(gè)形容詞-名詞對 (ANPs)
為了使用 ANPs促進(jìn) TMSC 任務(wù),我們提出了一個(gè)知識增強(qiáng)框架(簡稱KEF), 它主要包含兩個(gè)組件:視覺注意力增強(qiáng)器和情感預(yù)測增強(qiáng)器。前者首先使用我們設(shè)計(jì)的映射方法從 ANPs 中找到與意見目標(biāo)最相關(guān)的名詞,然后用它來提高視覺注意力的有效性。后者的目的是建立形容詞和目標(biāo)相關(guān)視覺表示之間的聯(lián)系,然后將其用作視覺表示的補(bǔ)充信息,以降低預(yù)測情感標(biāo)簽的難度。
02
貢獻(xiàn)
1.據(jù)我們所知,我們是第一個(gè)提出利用從圖片中提取的形容詞-名詞對(ANPs)來幫助TMSC 任務(wù)對齊文本和圖片的工作;
2.我們提出了一種新穎的知識增強(qiáng)框架(KEF),它包含一個(gè)視覺注意力增強(qiáng)器來提高視覺注意力的有效性,以及一個(gè)情感預(yù)測增強(qiáng)器來降低情感預(yù)測的難度。
3.KEF 具有良好的兼容性,很容易組合或者擴(kuò)展到現(xiàn)有的基于注意力的多模態(tài)模型。在這項(xiàng)工作中,我們將其應(yīng)用于兩個(gè)最新的 TMSC 模型:SaliencyBERT[6]和 TomBERT[2]。兩個(gè)公開數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明了我們框架的有效性。
03
解決方案
圖 3 展示了 KEF 的整體架構(gòu),主要包含兩個(gè)組件:視覺注意力增強(qiáng)器和情感預(yù)測增強(qiáng)器。具體來說,我們首先基于TomBERT[2]和 SaliencyBERT模型抽象出一個(gè)通用的注意力架構(gòu)。然后,在 ANPs 的幫助下,我們依次提出了視覺注意力增強(qiáng)器和情感預(yù)測增強(qiáng)器。前者旨在通過映射方法和重構(gòu)損失來提高視覺注意力的有效性,后者引入了一種簡單而有效的轉(zhuǎn)換方法來降低預(yù)測情感標(biāo)簽的難度。
圖3:知識增強(qiáng)框架(KEF)的整體架構(gòu)
3.1 視覺注意力增強(qiáng)器
問題
如前所述,圖片中出現(xiàn)的意見目標(biāo)是一個(gè)粗粒度的概念,而句子中提到的意見目標(biāo)是一個(gè)細(xì)粒度的概念,意見目標(biāo)粒度的不一致導(dǎo)致了視覺注意力有時(shí)無法捕獲到相應(yīng)的視覺表示。
基本的直覺
顯然,從圖片中提取出來的名詞也是粗粒度的概念,所以一個(gè)直觀的想法是將細(xì)粒度的意見目標(biāo)映射到粗粒度的名詞上,然后將它作為橋梁來捕獲粗粒度的視覺特征.。但是,從圖片中提取的大部分名詞都是與意見目標(biāo)無關(guān)的,因此我們不能直接使用它們。
映射方法(Mapping Method.)
為了應(yīng)對上述挑戰(zhàn),我們首先通過計(jì)算嵌入空間中名詞表示和目標(biāo)表示之間的語義相似度來衡量目標(biāo)-名詞相關(guān)性的強(qiáng)度:
根據(jù)最大相似度得分,我們可以找到與意見目標(biāo)最相關(guān)的名詞:
接下來,我們將它們聚合在一起作為意見目標(biāo)的補(bǔ)充信息以捕獲相應(yīng)的視覺表示:
重構(gòu)損失(Reconstruction Loss.)
為了確保視覺注意力能夠更準(zhǔn)確地捕獲到與意見目標(biāo)相關(guān)的視覺特征,我們還設(shè)計(jì)了一種重構(gòu)損失來最小化目標(biāo)相關(guān)名詞表示和目標(biāo)相關(guān)視覺表示之間的差異:
3.2 情感預(yù)測增強(qiáng)器
問題
即使視覺特征被捕獲到了,但是表達(dá)相同情緒的視覺表征之間仍然存在顯著差異,這給學(xué)習(xí)視覺表征和情感標(biāo)簽之間的映射函數(shù)帶來了挑戰(zhàn)。
基本的直覺
考慮到 ANPs 通常可以從表達(dá)相同情緒的不同視覺表征中提取相同的形容詞,因此一個(gè)直觀的想法是將多樣化的視覺表征映射到同一個(gè)形容詞。然而,與視覺表示最相關(guān)的形容詞是未知的,我們需要明確地找到它。
轉(zhuǎn)換方法(Transformation Method.)
實(shí)際上,在映射方法中,我們發(fā)現(xiàn)名詞表示與目標(biāo)感知視覺表示最相關(guān)。由于形容詞是名詞的修飾語,因此與該名詞對應(yīng)的形容詞也與目標(biāo)感知視覺表示最相關(guān)。最后,我們將其用作視覺表示的補(bǔ)充信息,以降低情感預(yù)測的難度:
04
實(shí)驗(yàn)
我們在兩個(gè)公開的數(shù)據(jù)集Twitter2015和Twitter2017上進(jìn)行了實(shí)驗(yàn),并且使用準(zhǔn)確率(Accuracy)和Macro-F1分?jǐn)?shù)作為評估指標(biāo)。KEF包含兩個(gè)即插即用的組件,可以輕松組合或擴(kuò)展到現(xiàn)有的基于注意力的方法。為了更好地驗(yàn)證KEF的有效性,我們選擇了兩個(gè)最近的基于BERT的多模態(tài)模型作為我們工作的基礎(chǔ),即TomBERT和Saliencybert。
換句話說,我們將KEF集成到TomBERT和Saliencybert中,得到最終模型KEF-TomBERT和KEF-Saliencybert。從表1可以看出,KEF-Saliencybert和KEF-TomBERT在TWITTER-15和TWITTER-17數(shù)據(jù)集上均取得了具有競爭力的結(jié)果。
具體來說,與TomBERT相比,KEF-TomBERT在Macro-F1和Accuracy分別獲得了大約2.0%和1.5%的改進(jìn)。相比之下,KEF-Saliencybert的表現(xiàn)平均優(yōu)于Saliencybert1.5%和1.7%。這些結(jié)果表明我們的框架具有良好的兼容性。此外,在大多數(shù)情況下,KEF-TomBERT的表現(xiàn)優(yōu)于KEFSaliencybert,這表明我們的框架對TomBERT更有效。
表1:主實(shí)驗(yàn)結(jié)果
在不失一般性的情況下,我們選擇 KEF-TomBERT 模型進(jìn)行消融實(shí)驗(yàn),以研究 KEF 中單個(gè)模塊對模型整體效果的影響。視覺注意力增強(qiáng)器簡稱VAE,-情感預(yù)測增強(qiáng)器簡稱SPE。根據(jù)表2報(bào)告的結(jié)果,我們可以觀察到以下幾點(diǎn):
表2:消融實(shí)驗(yàn)結(jié)果
1. 與基礎(chǔ)模型 TomBERT 相比,TomBERT+VAE 和TomBERT+SPE在兩個(gè)數(shù)據(jù)集上均取得了具有競爭力的表現(xiàn),這驗(yàn)證了利用形容詞-名詞對提高視覺注意力能力和情感預(yù)測能力的合理性;
2. 將SPE集成到TomBERT+VAE后,KEF-TomBERT實(shí)現(xiàn)了state-of-the-art的性能,這證明了SPE可以通過形容詞-名詞對提高情感預(yù)測能力;
3. VAE 比 SPE 更有效,這是合理的因?yàn)樽⒁饬C(jī)制的有效性是情感預(yù)測的核心因素。因此,它對我們的框架貢獻(xiàn)更大;
4. 如圖 4 所示,我們可以看到 KEF-TomBERT 學(xué)習(xí)到的多模態(tài)表示明顯比 TomBERT+VAE 學(xué)習(xí)的更可分離,這表明SPE確實(shí)可以降低情感預(yù)測的難度。
圖4:TomBERT+VAE 和 KEF-TomBERT 的多模態(tài)表示的可視化
為了驗(yàn)證 ANPs 對 KEF-TomBERT 模型的影響,我們從每張圖片中提取前 1、3、5 和 7 個(gè) ANPs進(jìn)行了實(shí)驗(yàn),結(jié)果如圖 5 所示。顯然,隨著 ANPs 數(shù)量的增加,KEF-TomBERT 的性能變得更好。而且當(dāng) ANPs 的數(shù)量等于 5 時(shí),KEF-TomBERT 的效果最好。
但是,一旦 ANP 的數(shù)量大于 5,性能就不會(huì)繼續(xù)增加,甚至開始下降。這背后的原因可能是:每個(gè)句子最多包含5個(gè)意見目標(biāo),所以當(dāng)ANPs的數(shù)量大于意見目標(biāo)的最大數(shù)量時(shí)會(huì)帶來一些噪音。
圖5:不同數(shù)量 ANPs 對KEF-TomBERT的影響
05
案例分析
為了更好地理解視覺注意力增強(qiáng)器 (VAE) 和情感預(yù)測增強(qiáng)器 (SPE) 的優(yōu)勢,我們從 Twitter 數(shù)據(jù)集中隨機(jī)選擇一些樣本進(jìn)行案例研究。
視覺注意力增強(qiáng)器的影響
如圖 6(a) 所示,基礎(chǔ)模型 TomBERT 錯(cuò)誤地預(yù)測了意見目標(biāo)“Korkie”的情感。這是合理的因?yàn)槲覀儼l(fā)現(xiàn) TomBERT關(guān)注了與意見目標(biāo)無關(guān)的視覺線索(由黃色邊界框突出顯示)。在將 VAE 集成到 TomBERT 之后,TomBERT+VAE將細(xì)粒度的意見目標(biāo)“Korkie”映射到 ANPs 中的粗粒度名詞“man”。在名詞“man”的幫助下,TomBERT+VAE 成功地捕捉到了目標(biāo)相關(guān)的視覺線索(由紅色邊界框突出顯示),從而給出了正確的預(yù)測。
情感預(yù)測增強(qiáng)器的影響
如圖 6(b) 和6(c) 所示,雖然 TomBERT+VAE 準(zhǔn)確地捕捉到了意見目標(biāo)的相應(yīng)視覺表征(即笑臉),但微笑表情的多樣化增加了情感預(yù)測的難度,因此 TomBERT +VAE 錯(cuò)誤地預(yù)測了圖 6(c) 中“Sammy”的情感。在將 SPE 集成到 TomBERT+VAE 之后,KEFTomBERT 將不同的笑臉映射到同一個(gè)形容詞“happy”。顯然,KEF-TomBERT 更容易學(xué)習(xí)這些“happy”和情感標(biāo)簽“positive”之間的映射函數(shù),從而做出正確的預(yù)測。
圖6:案例分析
06
總結(jié)
在本文中,我們?yōu)?TMSC 任務(wù)提出了一種新穎的知識增強(qiáng)框架 (KEF)。具體來說,在 ANPs 的幫助下,我們設(shè)計(jì)了兩個(gè)新穎的知識增強(qiáng)器,視覺注意力增強(qiáng)器和情感預(yù)測增強(qiáng)器,以提高 TMSC 任務(wù)的視覺注意力能力和情感預(yù)測能力。大量實(shí)驗(yàn)的結(jié)果表明,我們的框架與其它最先進(jìn)的方法相比具有更好的性能。進(jìn)一步的分析也驗(yàn)證了我們框架的優(yōu)越性。
在未來,我們希望將我們的想法應(yīng)用于其他多模態(tài)任務(wù),因?yàn)閺膱D片中提取的形容詞-名詞對很容易擴(kuò)展到其他多模態(tài)任務(wù),例如多模態(tài)實(shí)體鏈接、多模態(tài)機(jī)器理解和多模態(tài)對話生成。
審核編輯:劉清
-
增強(qiáng)器
+關(guān)注
關(guān)注
1文章
46瀏覽量
8313 -
ANP
+關(guān)注
關(guān)注
0文章
4瀏覽量
6369
原文標(biāo)題:COLING2022 | 南大提出:面向目標(biāo)的多模態(tài)情感分類的知識增強(qiáng)框架
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
用ADS1258做了一塊采集卡,請問有比較簡單的測試方法來測試我的采集卡的性能和精度嗎?
如何有效提高BUCK電路占空比的方法
基于LSTM神經(jīng)網(wǎng)絡(luò)的情感分析方法
一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測方法
![<b class='flag-5'>一種</b>創(chuàng)新的動(dòng)態(tài)軌跡<b class='flag-5'>預(yù)測</b><b class='flag-5'>方法</b>](https://file1.elecfans.com/web2/M00/0B/46/wKgaomcfMJmAXFYrAAEzgGcXUbU308.jpg)
一文看懂如何降低貼片微型共模電感的噪音
簡單認(rèn)識雙積分型A/D轉(zhuǎn)換器
rup是一種什么模型
基于助聽器開發(fā)的一種高效的語音增強(qiáng)神經(jīng)網(wǎng)絡(luò)
AD8338有沒有可行的方法來測量大增益?
如果是使用六步方波的方法來控制電機(jī),要如何實(shí)現(xiàn)過電流保護(hù)?
如何降低DC-DC轉(zhuǎn)換器的紋波噪聲
一種有效降低損耗的壓電式DC-DC轉(zhuǎn)換器開發(fā)案例
一個(gè)簡單而有效的晶體管/二極管測試電路
![<b class='flag-5'>一</b>個(gè)<b class='flag-5'>簡單</b><b class='flag-5'>而有效</b>的晶體管/二極管測試電路](https://file1.elecfans.com/web2/M00/C0/E9/wKgZomXa6kWAKs8VAACaft8upew780.jpg)
評論