在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開(kāi)源!

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-12-24 21:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——

這一次,只需一句話命令,多模態(tài)大模型 Vary 直接端到端輸出結(jié)果:

無(wú)論是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

還是包含了公式的文檔圖片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手機(jī)頁(yè)面截圖:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

當(dāng)然,作為多模大模型,通用能力的保持也是必須的:

Vary 表現(xiàn)出了很大的潛力和極高的上限,OCR 可以不再需要冗長(zhǎng)的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過(guò) LLM 極強(qiáng)的語(yǔ)言先驗(yàn),這種架構(gòu)還可以避免 OCR 中的易錯(cuò)字,比如“杠桿”和“杜桿”等, 對(duì)于模糊文檔,也有望在語(yǔ)言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的 OCR 效果。

項(xiàng)目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么這樣的效果,是如何做到的呢?

背后原理

目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說(shuō)視覺(jué)詞表。確實(shí),在 400M 圖像文本對(duì)訓(xùn)練的 CLIP 有很強(qiáng)的視覺(jué)文本對(duì)齊能力,可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。但是對(duì)于密集和細(xì)粒度感知任務(wù),比如文檔級(jí)別的 OCR、Chart 理解,特別是在非英文場(chǎng)景,CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問(wèn)題。

受語(yǔ)言的 LLMs 啟發(fā),純 NLP 大模型(如 LLaMA)從英文到中文(外語(yǔ))時(shí)因?yàn)樵荚~表編碼中文效率低,必須要擴(kuò)大 text 詞表。那么對(duì)于現(xiàn)在基于 CLIP 視覺(jué)詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁(yè)論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問(wèn)題,在不 overwrite 原有詞表前提下,高效擴(kuò)充視覺(jué)詞表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表,Vary 分兩個(gè)階段:第一階段先用一個(gè)很小的 Decoder-only 網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個(gè)強(qiáng)大的新視覺(jué)詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓(xùn)練多模大模型擁有新 feature。Vary 的訓(xùn)練方法和模型結(jié)構(gòu)如下圖:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通過(guò)在公開(kāi)數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練,Vary 極大增強(qiáng)了細(xì)粒度的視覺(jué)感知能力。在保持 Vanilla 多模態(tài)能力的同時(shí),激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,原本可能需要幾千 tokens 的頁(yè)面內(nèi)容,通過(guò)文檔圖片輸入,信息被Vary壓縮在了 256 個(gè)圖像 tokens 中。這也為進(jìn)一步的頁(yè)面分析和總結(jié)提供了更多的想象空間。

目前,Vary 的代碼和模型均已開(kāi)源,還給出了供大家試玩的網(wǎng)頁(yè) demo。感興趣的小伙伴可以去試試了~

項(xiàng)目主頁(yè):

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

參考鏈接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg ?

https://zhuanlan.zhihu.com/p/671420712

· ·


原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開(kāi)源!

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開(kāi)源!

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OCR識(shí)別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識(shí)別 一共弄了26張圖片,都標(biāo)注好了,點(diǎn)擊開(kāi)始訓(xùn)練,顯示訓(xùn)練成功了,也將壓縮包發(fā)到郵箱了,下載下來(lái)后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您添加點(diǎn),參考我們的ocr
    發(fā)表于 05-28 06:46

    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)模態(tài)模型

    熟悉愛(ài)芯通元NPU的網(wǎng)友很清楚,從去年開(kāi)始我們?cè)诙藗?cè)模態(tài)模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國(guó)內(nèi)最早開(kāi)源
    的頭像 發(fā)表于 04-21 10:56 ?1328次閱讀
    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    海康威發(fā)布模態(tài)模型AI融合巡檢超腦

    基于海康觀瀾大模型技術(shù)體系,海康威推出新一代模態(tài)模型AI融合巡檢超腦,全面升級(jí)人、車(chē)、行為、事件等算法,為行業(yè)帶來(lái)全新的
    的頭像 發(fā)表于 04-17 17:12 ?745次閱讀

    模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注在OCR標(biāo)注場(chǎng)景的應(yīng)用

    OCR,即光學(xué)字符識(shí)別,簡(jiǎn)單來(lái)說(shuō)就是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,最終將圖片中的文字轉(zhuǎn)換為可編輯和可搜索的文本。在數(shù)字化時(shí)代,OCR(光學(xué)字符識(shí)別)技術(shù)作為處理圖像中文字信息的關(guān)鍵手段,其標(biāo)注
    的頭像 發(fā)表于 04-15 15:18 ?322次閱讀

    階躍星辰開(kāi)源模態(tài)模型,天數(shù)智芯迅速適配

    近日,頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內(nèi)引起了軒然大波,宣布正式開(kāi)源兩款Step系列模態(tài)模型——Step-Video-T2V視頻生成
    的頭像 發(fā)表于 02-19 14:30 ?489次閱讀

    海康威發(fā)布模態(tài)模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,海康威將大參數(shù)量、大樣本量的圖文
    的頭像 發(fā)表于 02-18 10:33 ?628次閱讀

    字節(jié)跳動(dòng)發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動(dòng)近日發(fā)布了一項(xiàng)重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢(shì)在于其強(qiáng)大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻,就能生成
    的頭像 發(fā)表于 02-07 17:50 ?766次閱讀

    商湯日日新模態(tài)模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?957次閱讀

    亮相2024數(shù)字科技生態(tài)大會(huì)

    2024數(shù)字科技生態(tài)大會(huì)上,展示了多項(xiàng)聯(lián)網(wǎng)領(lǐng)域的前沿技術(shù)及應(yīng)用成果,包括大模型、行業(yè)場(chǎng)景方案以及創(chuàng)新智能終端。
    的頭像 發(fā)表于 12-06 10:34 ?688次閱讀

    ElfBoard開(kāi)源項(xiàng)目|車(chē)牌識(shí)別項(xiàng)目技術(shù)文檔

    車(chē)牌識(shí)別項(xiàng)目基于百度智能云平臺(tái),旨在利用其強(qiáng)大的OCR服務(wù)實(shí)現(xiàn)車(chē)牌號(hào)碼的自動(dòng)識(shí)別。選擇百度智能云的原因是其高效的API接口和穩(wěn)定的服務(wù)質(zhì)量,能夠幫助開(kāi)發(fā)者快速實(shí)現(xiàn)車(chē)牌識(shí)別應(yīng)用。這個(gè)開(kāi)源項(xiàng)目使用攝像頭
    的頭像 發(fā)表于 12-06 10:30 ?608次閱讀
    ElfBoard<b class='flag-5'>開(kāi)源</b>項(xiàng)目|車(chē)牌識(shí)別項(xiàng)目技術(shù)<b class='flag-5'>文檔</b>

    SAE J1939中英文資料

    最全的J1939中英文協(xié)議資料
    發(fā)表于 11-26 15:06 ?2次下載

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?1169次閱讀

    明治案例 | PE編織袋【大視野】【OCR識(shí)別】

    OCR識(shí)別技術(shù)OCR識(shí)別技術(shù)在工業(yè)生產(chǎn)中扮演著至關(guān)重要的角色。它利用先進(jìn)的圖像處理技術(shù),自動(dòng)、高效地識(shí)別并轉(zhuǎn)換圖像中的文字信息為可編輯的文本數(shù)據(jù)。這一技術(shù)的應(yīng)用確保了生產(chǎn)數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,為生
    的頭像 發(fā)表于 08-13 08:25 ?747次閱讀
    明治案例 | PE編織袋【大視野】【<b class='flag-5'>OCR</b>識(shí)別】

    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)模態(tài)模型

    2.8B參數(shù)。MiniCPM-V 2.0具有領(lǐng)先的光學(xué)字符識(shí)別(OCR)和模態(tài)理解能力。該模型在綜合性OCR能力評(píng)測(cè)基準(zhǔn)OCRBench上
    的頭像 發(fā)表于 07-15 09:34 ?1450次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 欧美色频| 欧美成人精品一级高清片 | 性欧美xxxx视频 | 五月婷婷综合基地 | 国产激烈床戏无遮挡在线观看 | 午夜激情福利网 | 免费在线视频观看 | 免费啪视频在线观看 | 久久婷婷是五月综合色狠狠 | 丁香婷婷色综合 | 最近最新视频中文字幕4 | 色图视频| 天天做天天爱天天一爽一毛片 | 欧美巨大xxxx做受中文字幕 | 大杳蕉伊人狼人久久一本线 | 欧美日韩影院 | 天堂网在线免费 | tube日本xxxx69| 三级网站免费看 | 日本黄色激情视频 | 美女中出视频 | 欧美zooz人与禽交 | 亚洲欧洲一区二区三区在线 | 色综合小说天天综合网 | 亚洲男人天堂手机版 | 欧美另类色| 人人做人人澡人人人爽 | 亚洲综合成人网 | 91久久澡人人爽人人添 | 亚洲你懂的 | 亚洲无线码一区在线观看 | 日不卡| 久久综合香蕉久久久久久久 | 亚洲另类电击调教在线观看 | free性欧美高清另类 | 国产三级精品视频 | 制服丝袜中文字幕第一页 | 婷婷深爱五月 | 男人午夜视频 | 免费你懂的 | 一级美女视频 |