如何使用多模態信息做prompt

自多模態大火以來，井噴式地出現了許多工作，通過改造預訓練語言模型，用圖像信息來增強語義信息，但主要集中在幾個 NLU 任務上，在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務場景則是以多模態信息作為條件做 conditional 的 NLG任務。這種任務設置有許多實際的應用場景。比如，生成商品介紹文案時，僅僅基于該商品的文字標題是不夠的。如果能結合商品的圖片，必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2，而多模態信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀，但具備一定通用性，未來或許有進一步挖掘的可能。

論文題目：

Multimodal Conditionality for Natural Language Generation

論文鏈接：

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實十分簡單，一切語言模型都是為了衡量一段文字序列的概率，即：

而如果引入了多模態的輸入，就相當于在生成時多了一個條件，即條件概率為：

其中為多模態輸入序列。

以文中生成商品文案的運用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態序列引入到自然語言生成模型呢？

本文使用了一個十分直觀的方法，稱作MANTIS，將作為條件的多模態序列作為前綴放置到decoder輸入序列的前面，進而中解碼過程中分享多模態信息。其中圖片輸入借助ResNet-152，將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入，即這里的product title，和生成序列一同進行編碼。

效果數據集采用FACAD，提供了商品的標題和圖片，目標是生成產品描述，效果如下：

文中提出的模型在所有指標中都取得了最優結果，相比于baseline，將BLEU4提升了0.8，CIDEr提升了7.2，METEOR提升了0.8，ROUGE-L提升了1.0。同時，由于衡量生成文本質量具有主觀性，作者也進行了人工評分，結果表明MANTIS依然取得了最優結果。

從生成效果來看，生成的描述成功地結合了圖片信息，使得描述更加準確，而非籠統的介紹。

總結這篇文章方法十分直觀，但是結合最近火熱的 Prompt，似乎又有了更多的啟發。同樣是生成，同樣是加前綴，似乎給定條件的生成就是加上編碼好的前綴？那么多模態未來能不能成為一種新的prompt呢？作者認為他們的模型可以借助各種不同的多模態條件生成，然而不得不說本文的方法對模態融合的部分做的馬虎了些。本文只是單純借助解碼器進行融合，并沒有在編碼階段就分享跨模態的信息。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

信息

信息

+關注

關注
0

文章
407

瀏覽量
35859
模型

模型

+關注

關注
1

文章
3499

瀏覽量
50053

原文標題：用多模態信息做 prompt，解鎖 GPT 新玩法

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學習和實踐經驗

精選推薦
更多

文章

資料

帖子

原廠方案：VX1000廣泛支持ARM架構ECU的高速測量與標定

Vector維克多
9小時前

253 閱讀

一文讀懂Allegro先進磁性開關和鎖存器

我快閉嘴
9小時前

218 閱讀

瑞薩RA8系列教程 | 基于e2s在RA8上跑RTOS實現的方法

RA生態工作室
1天前

221 閱讀

DC/DC轉換器選型的三個要點

駿龍電子
10小時前

287 閱讀

基于Vicor DC-DC轉換器實現網絡交換機高效供電

Vicor
10小時前

283 閱讀

示波器的使用視頻教程

子何默
69632

免費

0下載

Minitab做柏拉圖分析

張龍祥
322

10積分

52下載

Tiny6410 Linux開發指南詳解

yezi888
5.59 MB

免費

210下載

iconsize圖片批量制作工具

李輝
9.49 MB

免費

0下載

PADS詳細入門教程

jf_51383636
15.93 MB

3積分

109下載

【干貨分享】RP2040 + Cyclone 10 FPGA PCB 設計

dianzi_0101
1天前

291 閱讀

Q3管的頻率與Q1管的頻率不一樣，代碼如何實現？Q3管為什么在兩個周期結束后電平才變化？謝謝

jf_90292841
1天前

386 閱讀

鴻蒙5開發寶藏案例分享---Pura X開發案例分享

jf_83680738
1天前

394 閱讀

【RA4L1-SENSOR】DHT11測溫濕度OLED顯示

gtbestom
1天前

433 閱讀

【高云GW5AT-LV60 開發套件試用體驗】基于開發板進行深度學習實踐，并盡量實現皮膚病理圖片的識別

yinxiangxv
2天前

425 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

如何使用多模態信息做prompt

評論