在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用多模態信息做prompt

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-11-03 09:39 ? 次閱讀

自多模態大火以來,井噴式地出現了許多工作,通過改造預訓練語言模型,用圖像信息來增強語義信息,但主要集中在幾個 NLU 任務上,在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務場景則是以多模態信息作為條件做 conditional 的 NLG任務。這種任務設置有許多實際的應用場景。比如,生成商品介紹文案時,僅僅基于該商品的文字標題是不夠的。如果能結合商品的圖片,必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2,而多模態信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀,但具備一定通用性,未來或許有進一步挖掘的可能。

論文題目:

Multimodal Conditionality for Natural Language Generation

論文鏈接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實十分簡單,一切語言模型都是為了衡量一段文字序列的概率,即:

而如果引入了多模態的輸入,就相當于在生成時多了一個條件,即條件概率為:

其中為多模態輸入序列。

以文中生成商品文案的運用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態序列引入到自然語言生成模型呢?

本文使用了一個十分直觀的方法,稱作MANTIS,將作為條件的多模態序列作為前綴放置到decoder輸入序列的前面,進而中解碼過程中分享多模態信息。其中圖片輸入借助ResNet-152,將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入,即這里的product title,和生成序列一同進行編碼。

效果數據集采用FACAD,提供了商品的標題和圖片,目標是生成產品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指標中都取得了最優結果,相比于baseline,將BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同時,由于衡量生成文本質量具有主觀性,作者也進行了人工評分,結果表明MANTIS依然取得了最優結果。

從生成效果來看,生成的描述成功地結合了圖片信息,使得描述更加準確,而非籠統的介紹。

總結這篇文章方法十分直觀,但是結合最近火熱的 Prompt,似乎又有了更多的啟發。同樣是生成,同樣是加前綴,似乎給定條件的生成就是加上編碼好的前綴?那么多模態未來能不能成為一種新的prompt呢?作者認為他們的模型可以借助各種不同的多模態條件生成,然而不得不說本文的方法對模態融合的部分做的馬虎了些。本文只是單純借助解碼器進行融合,并沒有在編碼階段就分享跨模態的信息。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 信息
    +關注

    關注

    0

    文章

    407

    瀏覽量

    35859
  • 模型
    +關注

    關注

    1

    文章

    3499

    瀏覽量

    50053

原文標題:用多模態信息做 prompt,解鎖 GPT 新玩法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    模態+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式

    模態+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式
    的頭像 發表于 06-12 10:17 ?21次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態</b>+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態大模型

    熟悉愛芯通元NPU的網友很清楚,從去年開始我們在端側模態大模型適配上一直處于主動緊跟的節奏。先后適配了國內最早開源的模態大模MiniCPM V 2.0,上海人工智能實驗室的書生
    的頭像 發表于 04-21 10:56 ?1215次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型

    基于MindSpeed MM玩轉Qwen2.5VL模態理解模型

    模態理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數據背后的語義、情感、邏輯或場景,從而完成推理、決策等任務。
    的頭像 發表于 04-18 09:30 ?767次閱讀
    基于MindSpeed MM玩轉Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態</b>理解模型

    海康威視發布模態大模型AI融合巡檢超腦

    基于海康觀瀾大模型技術體系,海康威視推出新一代模態大模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業帶來全新的模態大模型巡檢體驗,以更準確、更高效的智慧巡檢,為各行各
    的頭像 發表于 04-17 17:12 ?606次閱讀

    ?模態交互技術解析

    模態交互 模態交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動等)與計算機系統進行自然、
    的頭像 發表于 03-17 15:12 ?1657次閱讀

    海康威視發布模態大模型文搜存儲系列產品

    模態大模型為安防行業帶來重大技術革新,基于觀瀾大模型技術體系,海康威視將大參數量、大樣本量的圖文模態大模型與嵌入式智能硬件深度融合,發布
    的頭像 發表于 02-18 10:33 ?532次閱讀

    2025年Next Token Prediction范式會統一模態

    訓練方法與推理策略 性能評測體系 現存挑戰與未來方向 綜述的完整目錄如下: 模態的 Tokenization 我們認為模態的 Tokenization 是 MMNTP 的基石和最重
    的頭像 發表于 01-21 10:11 ?383次閱讀
    2025年Next Token Prediction范式會統一<b class='flag-5'>多</b><b class='flag-5'>模態</b>嗎

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?886次閱讀

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言模型,以及構建
    的頭像 發表于 12-03 15:18 ?526次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——下

    AI對話魔法 Prompt Engineering 探索指南

    作者:京東物流 李雪婷 一、什么是 Prompt Engineering? 想象一下,你在和一個智能助手聊天,你需要說出非常清晰和具體的要求,才能得到你想要的答案。Prompt
    的頭像 發表于 11-07 10:11 ?1365次閱讀
    AI對話魔法 <b class='flag-5'>Prompt</b> Engineering 探索指南

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?1093次閱讀

    云知聲山海模態大模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態人工智能模型基準評測集MMMU更新榜單,云知聲山海模態大模型UniGPT-mMed以通用能力、醫療專業能力雙雙排名第一的優異成績登頂榜首,力壓GPT-4V,充分彰顯其硬核
    的頭像 發表于 10-12 14:09 ?611次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型UniGPT-mMed登頂MMMU測評榜首

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Meta在AI
    的頭像 發表于 09-27 11:44 ?636次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態大模型,正式宣告“Her時代
    的頭像 發表于 08-27 15:20 ?592次閱讀
    主站蜘蛛池模板: 免费视频网站在线看视频 | 在线色网| 能看的黄色网址 | 校园春色亚洲欧美 | 夭天干天天做天天免费看 | 天天干夜夜怕 | 亚洲 欧美 中文字幕 | 亚洲 另类色区 欧美日韩 | 99久久精品久久久久久婷婷 | 天天干夜夜夜 | 亚洲三级小视频 | 欧美特黄视频在线观看 | 国产福利在线观看一区二区 | 亚洲免费播放 | 亚洲成人在线播放 | 天天操天天干天天摸 | 国产精品爱啪在线线免费观看 | 高清视频一区二区 | 欧洲人体超大胆露私视频 | 国产热视频| 精品99久久| 天天狠天天透天干天天怕处 | 亚洲网站大全 | 亚洲天堂h | 国产日韩精品一区二区三区 | 国产高清免费在线 | 一区二区免费在线观看 | 国产黄色网 | 天天色狠狠干 | 欧美在线视频一区二区三区 | 一区二区三区免费视频网站 | 高清一本之道加勒比在线 | 丁香五月情 | 男男np主受高h啪啪肉 | 一级日本高清视频免费观看 | 免费看黄色片网站 | 中文字幕在线一区 | 四虎影院免费在线播放 | 色噜噜狠狠色综合中文字幕 | 中文在线三级中文字幕 | 国内一区二区三区精品视频 |