在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

VisCPM:邁向多語言多模態大模型時代

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-07-10 10:05 ? 次閱讀

隨著 GPT-4 和 Stable Diffusion 等模型多模態能力的突飛猛進,多模態大模型已經成為大模型邁向通用人工智能(AGI)目標的下一個前沿焦點。總體而言,面向圖像和文本的多模態生成能力可以大致分為兩類:

1. 在圖生文(image-to-text generation)方面,以 GPT-4 為代表的多模態大模型,可以面向圖像進行開放域對話和深度推理;

2. 在文生圖(text-to-image generation)方面,以 Stable Diffusion 為代表的多模態模型,可以根據文本生成圖像內容。由這些多模態模型掀起的 AIGC 浪潮,廣泛而深刻地改變著學術界和工業界的思想實踐。

然而,目前多模態大模型的成功很大程度上局限于英文世界,而中文等其他非英語語言的多模態能力明顯落后。這是因為相比于英文世界,中文等其他非英語語言的多模態數據嚴重稀缺,難以滿足多模態大模型對大規模高質量圖文對數據的需求。這些問題使得多語言多模態大模型的構建極具挑戰性。

為了解決上述挑戰,我們提出使用高資源語言(如英語)作為橋接圖像信號和低資源語言(如中文)的橋梁,實現多語言多模態大模型能力的快速泛化,從而緩解對低資源語言下模態對齊數據(圖文對數據)的依賴。

通過類比人類的學習過程,我們可以直觀地理解該方法:人類學習者可以僅通過母語與視覺信號的對應關系,以及母語與不同語言之間的對應關系,自然地建立起不同語言下對視覺信號的統一認知。這是由于不同的自然語言符號系統,很大程度上都是以描述相同的客觀世界為驅動力演化發展而來的,這為多語言多模態能力的快速泛化提供了基礎。

為了驗證上述方法,我們以中英雙語的多模態大模型為例,構建了 VisCPM 系列模型,建立中英雙語的多模態對話能力(VisCPM-Chat 模型)和文到圖生成能力(VisCPM-Paint 模型)。

多語言對齊方面,我們選用百億參數量的 CPM-Bee 10B 作為基底語言模型。該模型優秀的中英雙語能力,提供了多語言對齊的基礎。在多模態對齊方面,我們為CPM-Bee分別融合視覺編碼器(Q-Former)和視覺解碼器(Diffusion-UNet)以支持視覺信號的輸入和輸出。得益于 CPM-Bee 基座優秀的雙語能力,VisCPM 可以僅通過英文多模態數據預訓練,泛化實現優秀的中文多模態能力。

c50d57a8-1ec4-11ee-962d-dac502259ad0.png

中英雙語多模態對話模型VisCPM-Chat

VisCPM-Chat 模型使用 Q-Former 作為視覺編碼器,使用 CPM-Bee(10B)作為語言基座模型,并通過語言建模訓練目標融合視覺和語言模型。模型訓練包括預訓練和指令精調兩階段:

  • 預訓練:我們使用約 100M 高質量英文圖文對數據對 VisCPM-Chat 進行了預訓練,數據包括 CC3M、CC12M、COCO、Visual Genome、LAION 等。在預訓練階段,語言模型參數保持固定,僅更新Q-Former部分參數,以支持大規模視覺-語言表示的高效對齊。

  • 指令精調:我們采用 LLaVA-150K 英文指令精調數據,并混合相應翻譯后的中文數據對模型進行指令精調,以對齊模型多模態基礎能力和用戶使用意圖。在指令精調階段,我們更新全部模型參數,以提升指令精調數據的利用效率。有趣的是,我們發現即使僅采用英文指令數據進行指令精調,模型也可以理解中文問題,但僅能用英文回答。這表明模型的多語言多模態能力已經得到良好的泛化。在指令精調階段進一步加入少量中文翻譯數據,可以將模型回復語言和用戶問題語言對齊。

我們在 LLaVA 標準英文測試集和翻譯的中文測試集對模型進行了評測,該評測基準考察模型在開放域對話、圖像細節描述、復雜推理方面的表現,并使用 GPT-4 進行打分。可以觀察到,在不使用任何中文圖文對預訓練數據的情況下,VisCPM-Chat 在中文多模態能力方面取得了最佳的平均性能,在通用域對話和復雜推理表現出色,同時也表現出了不錯的英文多模態能力。

在上述平衡的中英雙語能力(VisCPM-Chat-balance)基礎上,我們在預訓練階段額外加入 20M 清洗后的原生中文圖文對數據和 120M 翻譯到中文的圖文對數據,可以實現中文多模態能力的進一步強化(VisCPM-Chat-zhplus)。

c53a43b2-1ec4-11ee-962d-dac502259ad0.png

VisCPM-Chat 表現出令人印象深刻的圖像理解能力,并能夠在對話中運用世界知識和常識知識。例如在下圖中,VisCPM 能夠識別染色的地圖和人像,并正確理解出染色代表的不同含義。除此之外,VisCPM-Chat 還具有不錯的中文特色能力,比如能用李白的詩描繪黃河的景象并作解讀,在面對中秋月夜時還能用蘇軾的《水調歌頭》借景抒情。

c5b3070c-1ec4-11ee-962d-dac502259ad0.png

中英雙語文生圖模型VisCPM-Paint

VisCPM-Paint 使用 CPM-Bee(10B)作為文本編碼器,使用 UNet 作為圖像解碼器,并通過擴散模型訓練目標融合語言和視覺模型。在訓練過程中,語言模型參數始終保持固定。我們使用 Stable Diffusion 2.1 的 UNet 參數初始化視覺解碼器,并通過逐步解凍其中關鍵的橋接參數將其與語言模型融合。該模型在 LAION 2B 英文圖文對數據上進行了訓練。

我們在標準圖像生成測試集 MSCOCO 上采樣了 3 萬張圖片,計算了常用評估圖像生成指標 FID(Fréchet Inception Distance)評估生成圖片的質量。與 VisCPM 類似,我們發現得益于 CPM-Bee 的雙語能力,VisCPM-Paint 可以僅通過英文圖文對訓練,泛化實現良好的中文文到圖生成能力,達到中文開源模型的最佳效果。在中英平衡能力(VisCPM-Paint-balance)的基礎上,通過進一步加入 20M 清洗后的原生中文圖文對數據,以及 120M 翻譯到中文的圖文對數據,模型的中文文到圖生成能力可以獲得進一步提升(VisCPM-Paint-zhplus)。

c5dc28e4-1ec4-11ee-962d-dac502259ad0.png

VisCPM-Paint 模型中分別輸入“海上生明月,天涯共此時,唯美風格,抽象風格”和“人閑桂花落,月靜春山空”兩條 prompts,生成了以下兩張圖片。可以看出,VisCPM-Paint 對中國特色意向也有較好的把握能力。

為了推動多模態大模型開源社區和相關研究領域的發展,我們將 VisCPM 系列的所有模型免費開源(https://github.com/OpenBMB/VisCPM),歡迎個人和研究用途自由使用。未來我們也會將 VisCPM 整合到 huggingface代碼框架中,以及陸續完善安全模型、 支持快速網頁部署、 支持模型量化功能、支持模型微調等功能,歡迎持續關注。

· ·


原文標題:VisCPM:邁向多語言多模態大模型時代

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2913

    文章

    44924

    瀏覽量

    377019

原文標題:VisCPM:邁向多語言多模態大模型時代

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    商湯日日新模態模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?345次閱讀

    一文理解模態語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態語言模型 - 上》介紹了什么是
    的頭像 發表于 12-03 15:18 ?201次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下

    一文理解模態語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態語言模型的論文和博客,在此基礎上,推薦了一篇解
    的頭像 發表于 12-02 18:29 ?462次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

    ChatGPT 的多語言支持特點

    )技術迎來了巨大的挑戰和機遇。ChatGPT,作為一個領先的語言模型,其多語言支持的特點成為了它在眾多應用場景中不可或缺的優勢。 1. 多語言理解能力 ChatGPT 的
    的頭像 發表于 10-25 17:30 ?903次閱讀

    科大訊飛發布訊飛星火4.0 Turbo大模型及星火多語言模型

    ,科大訊飛以其一貫的創新精神,開創性地發布了星火多語言模型。這一創新之舉不僅進一步鞏固了科大訊飛在中文和英文處理領域的領先地位,更將語言的支持范圍大幅擴展,涵蓋了俄語、日語、阿拉伯語、韓語、法語、西班牙語、葡萄牙語以及
    的頭像 發表于 10-24 13:58 ?472次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?552次閱讀

    谷歌全新推出開放式視覺語言模型PaliGemma

    這種熱烈的反響非常鼓舞人心,開發者們打造了一系列多樣的項目,例如用于印度語言多語言變體 Navarasa,以及設備端側動作模型 Octopus v2。開發者們展示了 Gemma 在打造極具影響力且易于使用的 AI 解決方案方面
    的頭像 發表于 10-15 17:37 ?451次閱讀

    云知聲推出山海模態模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態
    的頭像 發表于 08-27 15:20 ?436次閱讀

    Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

    Mistral AI 和 NVIDIA 于近日共同發布了一款全新的領先語言模型Mistral NeMo 12B。開發者可以輕松定制和部署該模型,令其適用于支持聊天機器人、多語言任務、編
    的頭像 發表于 07-27 11:04 ?721次閱讀

    智譜AI發布全新模態開源模型GLM-4-9B

    近日,智譜AI在人工智能領域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態能力,再次刷新了業界對于大型語言
    的頭像 發表于 06-07 09:17 ?822次閱讀

    【大語言模型:原理與工程實踐】大語言模型的評測

    至關重要。 在大語言模型應用中,翻譯類評測任務主要聚焦于兩大核心要求:高質量翻譯和多語言適應性。高質量翻譯作為跨文化和跨地域信息傳播的基礎,對全球化背景下的商業活動、科研合作和多元文化交流具有至關重要
    發表于 05-07 17:12

    李未可科技正式推出WAKE-AI模態AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互,同時
    發表于 04-18 17:01 ?661次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>

    這個多語言包 怎么搜不到

    大家好,這個多語言包怎么搜不到 seven language lib 誰有離線包不 感謝分享,
    發表于 03-24 10:06

    語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內部處理過程,并探討了模型中是否存在特定于語言的神經元。
    發表于 03-07 14:44 ?698次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLMs)如何處理<b class='flag-5'>多語言</b>輸入問題

    語言模型中的語言與知識:一種神秘的分離現象

    自然語言處理領域存在著一個非常有趣的現象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對齊關系。
    發表于 02-20 14:53 ?586次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語言</b>與知識:一種神秘的分離現象
    主站蜘蛛池模板: 亚洲婷婷综合色高清在线 | 日日爱视频 | 天天干狠狠干 | 老头天天吃我奶躁我的动图 | 久草视频这里只有精品 | 色噜噜色偷偷 | 久久青青成人亚洲精品 | 成年免费大片黄在线观看免费 | 三级在线免费观看 | 一区二区三区亚洲 | 天堂在线观看视频观看www | 欧美精品aaa久久久影院 | 69女porenhd| 萌白酱一线天粉嫩喷水在线观看 | 激情六月天婷婷 | 男女爱爱视频免费 | 男人和女人在床做黄的网站 | 天堂网在线.www天堂在线 | 亚洲一区欧美二区 | 亚洲精品久久久久午夜 | 美国bj69video18 | 视频一区二区中文字幕 | 国产四虎精品 | 国产黄色在线观看 | 亚洲午夜久久久精品影院视色 | 久久精品男人影院 | 68日本xxxxxxxxx | 国产yw855.c免费观看网站 | 伊人狼人综合网 | 小优视频在线 | 911精品国产91久久久久 | 激情有码 | 色五婷婷 | 一级黄色日本 | 成人爽爽激情在线观看 | 亚洲一区二区中文字幕 | xxx日本69hd | 午夜大片在线观看 | 一国产大片在线观看 | avtt天堂网永久资源 | 婷婷六月综合网 |