在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VisCPM:邁向多語言多模態(tài)大模型時代

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-07-10 10:05 ? 次閱讀

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進,多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個前沿焦點。總體而言,面向圖像和文本的多模態(tài)生成能力可以大致分為兩類:

1. 在圖生文(image-to-text generation)方面,以 GPT-4 為代表的多模態(tài)大模型,可以面向圖像進行開放域?qū)υ捄蜕疃韧评恚?/span>

2. 在文生圖(text-to-image generation)方面,以 Stable Diffusion 為代表的多模態(tài)模型,可以根據(jù)文本生成圖像內(nèi)容。由這些多模態(tài)模型掀起的 AIGC 浪潮,廣泛而深刻地改變著學(xué)術(shù)界和工業(yè)界的思想實踐。

然而,目前多模態(tài)大模型的成功很大程度上局限于英文世界,而中文等其他非英語語言的多模態(tài)能力明顯落后。這是因為相比于英文世界,中文等其他非英語語言的多模態(tài)數(shù)據(jù)嚴重稀缺,難以滿足多模態(tài)大模型對大規(guī)模高質(zhì)量圖文對數(shù)據(jù)的需求。這些問題使得多語言多模態(tài)大模型的構(gòu)建極具挑戰(zhàn)性。

為了解決上述挑戰(zhàn),我們提出使用高資源語言(如英語)作為橋接圖像信號和低資源語言(如中文)的橋梁,實現(xiàn)多語言多模態(tài)大模型能力的快速泛化,從而緩解對低資源語言下模態(tài)對齊數(shù)據(jù)(圖文對數(shù)據(jù))的依賴。

通過類比人類的學(xué)習(xí)過程,我們可以直觀地理解該方法:人類學(xué)習(xí)者可以僅通過母語與視覺信號的對應(yīng)關(guān)系,以及母語與不同語言之間的對應(yīng)關(guān)系,自然地建立起不同語言下對視覺信號的統(tǒng)一認知。這是由于不同的自然語言符號系統(tǒng),很大程度上都是以描述相同的客觀世界為驅(qū)動力演化發(fā)展而來的,這為多語言多模態(tài)能力的快速泛化提供了基礎(chǔ)。

為了驗證上述方法,我們以中英雙語的多模態(tài)大模型為例,構(gòu)建了 VisCPM 系列模型,建立中英雙語的多模態(tài)對話能力(VisCPM-Chat 模型)和文到圖生成能力(VisCPM-Paint 模型)。

多語言對齊方面,我們選用百億參數(shù)量的 CPM-Bee 10B 作為基底語言模型。該模型優(yōu)秀的中英雙語能力,提供了多語言對齊的基礎(chǔ)。在多模態(tài)對齊方面,我們?yōu)镃PM-Bee分別融合視覺編碼器(Q-Former)和視覺解碼器(Diffusion-UNet)以支持視覺信號的輸入和輸出。得益于 CPM-Bee 基座優(yōu)秀的雙語能力,VisCPM 可以僅通過英文多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練,泛化實現(xiàn)優(yōu)秀的中文多模態(tài)能力。

c50d57a8-1ec4-11ee-962d-dac502259ad0.png

中英雙語多模態(tài)對話模型VisCPM-Chat

VisCPM-Chat 模型使用 Q-Former 作為視覺編碼器,使用 CPM-Bee(10B)作為語言基座模型,并通過語言建模訓(xùn)練目標(biāo)融合視覺和語言模型。模型訓(xùn)練包括預(yù)訓(xùn)練和指令精調(diào)兩階段:

  • 預(yù)訓(xùn)練:我們使用約 100M 高質(zhì)量英文圖文對數(shù)據(jù)對 VisCPM-Chat 進行了預(yù)訓(xùn)練,數(shù)據(jù)包括 CC3M、CC12M、COCO、Visual Genome、LAION 等。在預(yù)訓(xùn)練階段,語言模型參數(shù)保持固定,僅更新Q-Former部分參數(shù),以支持大規(guī)模視覺-語言表示的高效對齊。

  • 指令精調(diào):我們采用 LLaVA-150K 英文指令精調(diào)數(shù)據(jù),并混合相應(yīng)翻譯后的中文數(shù)據(jù)對模型進行指令精調(diào),以對齊模型多模態(tài)基礎(chǔ)能力和用戶使用意圖。在指令精調(diào)階段,我們更新全部模型參數(shù),以提升指令精調(diào)數(shù)據(jù)的利用效率。有趣的是,我們發(fā)現(xiàn)即使僅采用英文指令數(shù)據(jù)進行指令精調(diào),模型也可以理解中文問題,但僅能用英文回答。這表明模型的多語言多模態(tài)能力已經(jīng)得到良好的泛化。在指令精調(diào)階段進一步加入少量中文翻譯數(shù)據(jù),可以將模型回復(fù)語言和用戶問題語言對齊。

我們在 LLaVA 標(biāo)準(zhǔn)英文測試集和翻譯的中文測試集對模型進行了評測,該評測基準(zhǔn)考察模型在開放域?qū)υ挕D像細節(jié)描述、復(fù)雜推理方面的表現(xiàn),并使用 GPT-4 進行打分。可以觀察到,在不使用任何中文圖文對預(yù)訓(xùn)練數(shù)據(jù)的情況下,VisCPM-Chat 在中文多模態(tài)能力方面取得了最佳的平均性能,在通用域?qū)υ捄蛷?fù)雜推理表現(xiàn)出色,同時也表現(xiàn)出了不錯的英文多模態(tài)能力。

在上述平衡的中英雙語能力(VisCPM-Chat-balance)基礎(chǔ)上,我們在預(yù)訓(xùn)練階段額外加入 20M 清洗后的原生中文圖文對數(shù)據(jù)和 120M 翻譯到中文的圖文對數(shù)據(jù),可以實現(xiàn)中文多模態(tài)能力的進一步強化(VisCPM-Chat-zhplus)。

c53a43b2-1ec4-11ee-962d-dac502259ad0.png

VisCPM-Chat 表現(xiàn)出令人印象深刻的圖像理解能力,并能夠在對話中運用世界知識和常識知識。例如在下圖中,VisCPM 能夠識別染色的地圖和人像,并正確理解出染色代表的不同含義。除此之外,VisCPM-Chat 還具有不錯的中文特色能力,比如能用李白的詩描繪黃河的景象并作解讀,在面對中秋月夜時還能用蘇軾的《水調(diào)歌頭》借景抒情。

c5b3070c-1ec4-11ee-962d-dac502259ad0.png

中英雙語文生圖模型VisCPM-Paint

VisCPM-Paint 使用 CPM-Bee(10B)作為文本編碼器,使用 UNet 作為圖像解碼器,并通過擴散模型訓(xùn)練目標(biāo)融合語言和視覺模型。在訓(xùn)練過程中,語言模型參數(shù)始終保持固定。我們使用 Stable Diffusion 2.1 的 UNet 參數(shù)初始化視覺解碼器,并通過逐步解凍其中關(guān)鍵的橋接參數(shù)將其與語言模型融合。該模型在 LAION 2B 英文圖文對數(shù)據(jù)上進行了訓(xùn)練。

我們在標(biāo)準(zhǔn)圖像生成測試集 MSCOCO 上采樣了 3 萬張圖片,計算了常用評估圖像生成指標(biāo) FID(Fréchet Inception Distance)評估生成圖片的質(zhì)量。與 VisCPM 類似,我們發(fā)現(xiàn)得益于 CPM-Bee 的雙語能力,VisCPM-Paint 可以僅通過英文圖文對訓(xùn)練,泛化實現(xiàn)良好的中文文到圖生成能力,達到中文開源模型的最佳效果。在中英平衡能力(VisCPM-Paint-balance)的基礎(chǔ)上,通過進一步加入 20M 清洗后的原生中文圖文對數(shù)據(jù),以及 120M 翻譯到中文的圖文對數(shù)據(jù),模型的中文文到圖生成能力可以獲得進一步提升(VisCPM-Paint-zhplus)。

c5dc28e4-1ec4-11ee-962d-dac502259ad0.png

VisCPM-Paint 模型中分別輸入“海上生明月,天涯共此時,唯美風(fēng)格,抽象風(fēng)格”和“人閑桂花落,月靜春山空”兩條 prompts,生成了以下兩張圖片。可以看出,VisCPM-Paint 對中國特色意向也有較好的把握能力。

為了推動多模態(tài)大模型開源社區(qū)和相關(guān)研究領(lǐng)域的發(fā)展,我們將 VisCPM 系列的所有模型免費開源(https://github.com/OpenBMB/VisCPM),歡迎個人和研究用途自由使用。未來我們也會將 VisCPM 整合到 huggingface代碼框架中,以及陸續(xù)完善安全模型、 支持快速網(wǎng)頁部署、 支持模型量化功能、支持模型微調(diào)等功能,歡迎持續(xù)關(guān)注。

· ·


原文標(biāo)題:VisCPM:邁向多語言多模態(tài)大模型時代

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:VisCPM:邁向多語言多模態(tài)大模型時代

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)模態(tài)模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的模態(tài)大模MiniCP
    的頭像 發(fā)表于 04-21 10:56 ?1271次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數(shù)據(jù)背后的語義、情感、邏輯或場景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?863次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>理解<b class='flag-5'>模型</b>

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺語言模態(tài)AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設(shè)備,均可無縫融合
    發(fā)表于 03-21 14:12 ?243次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺語言模態(tài)AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設(shè)備,均可無縫融合
    的頭像 發(fā)表于 03-20 19:03 ?382次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗

    商湯“日日新”融合大模型登頂大語言模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評測》結(jié)果顯示:在語言模態(tài)核心能力測評中,商湯“日日新”融合大
    的頭像 發(fā)表于 03-18 10:35 ?517次閱讀

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?3207次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    海康威視發(fā)布模態(tài)模型文搜存儲系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,海康威視將大參數(shù)量、大樣本量的圖文模態(tài)
    的頭像 發(fā)表于 02-18 10:33 ?560次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1591次閱讀
    一文詳解視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    商湯日日新模態(tài)模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?926次閱讀

    一文理解模態(tài)語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)語言模型 - 上》介紹了什么是
    的頭像 發(fā)表于 12-03 15:18 ?544次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下

    一文理解模態(tài)語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)模態(tài)語言模型的論文和博客,在此基礎(chǔ)上,推薦了一篇解
    的頭像 發(fā)表于 12-02 18:29 ?1061次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

    ChatGPT 的多語言支持特點

    )技術(shù)迎來了巨大的挑戰(zhàn)和機遇。ChatGPT,作為一個領(lǐng)先的語言模型,其多語言支持的特點成為了它在眾多應(yīng)用場景中不可或缺的優(yōu)勢。 1. 多語言理解能力 ChatGPT 的
    的頭像 發(fā)表于 10-25 17:30 ?1443次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言模型

    ,科大訊飛以其一貫的創(chuàng)新精神,開創(chuàng)性地發(fā)布了星火多語言模型。這一創(chuàng)新之舉不僅進一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位,更將語言的支持范圍大幅擴展,涵蓋了俄語、日語、阿拉伯語、韓語、法語、西班牙語、葡萄牙語以及
    的頭像 發(fā)表于 10-24 13:58 ?847次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?1117次閱讀

    云知聲推出山海模態(tài)模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨運的山海模態(tài)
    的頭像 發(fā)表于 08-27 15:20 ?600次閱讀
    主站蜘蛛池模板: 男人和女人在床做黄的网站 | 91学院派女神 | 丁香欧美 | 黄色的视频网站在线观看 | 俄罗斯美女69xxxxxx | 最新仑乱免费视频 | 欧美69色| 色噜噜亚洲男人的天堂 | 午夜在线播放视频 | 欧美宗合网 | 一区二区三区中文字幕 | 视频一区二区中文字幕 | 自拍偷拍综合网 | 色老头免费视频 | 秋霞麻豆| 一级做a爱片特黄在线观看免费看 | 国产一级特黄在线视频 | 国产在线免 | 久久一级毛片 | 日韩综合nv一区二区在线观看 | 午夜影视免费完整高清在线观看网站 | www色视频 | 4455ee日本高清免费观看 | 日韩亚洲欧洲在线rrrr片 | 天天爽夜夜爽精品视频一 | 天堂日本 | 婷婷六月丁香色婷婷网 | 五月激情丁香 | 欧美黄色免费网站 | 亚洲乱码卡一卡二卡三永久 | 日韩精品一区二区三区免费视频 | 四虎影永久在线观看精品 | 在线亚洲一区二区 | 欧美在线精品一区二区三区 | 国产区精品高清在线观看 | 国产青青草 | 91日韩精品天海翼在线观看 | xxxx 欧美| 美女色18片黄黄色 | 成人国产在线24小时播放视频 | 色最快国产|