在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OCR終結了?曠視提出可以文檔級OCR的多模態大模型框架Vary,支持中英文,已開源!

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-12-24 21:40 ? 次閱讀

想將一份文檔圖片轉換成 Markdown 格式?以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——

這一次,只需一句話命令,多模態大模型 Vary 直接端到端輸出結果:

無論是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

還是包含了公式的文檔圖片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手機頁面截圖:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以將圖片中的表格轉換成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

當然,作為多模大模型,通用能力的保持也是必須的:

Vary 表現出了很大的潛力和極高的上限,OCR 可以不再需要冗長的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強的語言先驗,這種架構還可以避免 OCR 中的易錯字,比如“杠桿”和“杜桿”等, 對于模糊文檔,也有望在語言先驗的幫助下實現更強的 OCR 效果。

項目一出,引發了不少網友的關注,有網友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么這樣的效果,是如何做到的呢?

背后原理

目前的多模態大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實,在 400M 圖像文本對訓練的 CLIP 有很強的視覺文本對齊能力,可以覆蓋多數日常任務下的圖像編碼。但是對于密集和細粒度感知任務,比如文檔級別的 OCR、Chart 理解,特別是在非英文場景,CLIP 表現出了明顯的編碼低效和 out-of-vocabulary問題。

受語言的 LLMs 啟發,純 NLP 大模型(如 LLaMA)從英文到中文(外語)時因為原始詞表編碼中文效率低,必須要擴大 text 詞表。那么對于現在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴充視覺詞表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于現有方法直接用現成的 CLIP 詞表,Vary 分兩個階段:第一階段先用一個很小的 Decoder-only 網絡用自回歸方式幫助產生一個強大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓練多模大模型擁有新 feature。Vary 的訓練方法和模型結構如下圖:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通過在公開數據集以及渲染生成的文檔圖表等數據上訓練,Vary 極大增強了細粒度的視覺感知能力。在保持 Vanilla 多模態能力的同時,激發出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,原本可能需要幾千 tokens 的頁面內容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個圖像 tokens 中。這也為進一步的頁面分析和總結提供了更多的想象空間。

目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網頁 demo。感興趣的小伙伴可以去試試了~

項目主頁:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

參考鏈接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg ?

https://zhuanlan.zhihu.com/p/671420712

· ·


原文標題:OCR終結了?曠視提出可以文檔級OCR的多模態大模型框架Vary,支持中英文,已開源!

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2914

    文章

    44938

    瀏覽量

    377073

原文標題:OCR終結了?曠視提出可以文檔級OCR的多模態大模型框架Vary,支持中英文,已開源!

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    商湯日日新模態模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?351次閱讀

    亮相2024數字科技生態大會

    2024數字科技生態大會上,展示了多項聯網領域的前沿技術及應用成果,包括大模型、行業場景方案以及創新智能終端。
    的頭像 發表于 12-06 10:34 ?341次閱讀

    ElfBoard開源項目|車牌識別項目技術文檔

    車牌識別項目基于百度智能云平臺,旨在利用其強大的OCR服務實現車牌號碼的自動識別。選擇百度智能云的原因是其高效的API接口和穩定的服務質量,能夠幫助開發者快速實現車牌識別應用。這個開源項目使用攝像頭
    的頭像 發表于 12-06 10:30 ?316次閱讀
    ElfBoard<b class='flag-5'>開源</b>項目|車牌識別項目技術<b class='flag-5'>文檔</b>

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言
    的頭像 發表于 12-03 15:18 ?202次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>——下

    SAE J1939中英文資料

    最全的J1939中英文協議資料
    發表于 11-26 15:06 ?0次下載

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?552次閱讀

    云知聲推出山海模態模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態
    的頭像 發表于 08-27 15:20 ?436次閱讀

    明治案例 | PE編織袋【大視野】【OCR識別】

    OCR識別技術OCR識別技術在工業生產中扮演著至關重要的角色。它利用先進的圖像處理技術,自動、高效地識別并轉換圖像中的文字信息為可編輯的文本數據。這一技術的應用確保了生產數據的準確性和實時性,為生
    的頭像 發表于 08-13 08:25 ?517次閱讀
    明治案例 | PE編織袋【大視野】【<b class='flag-5'>OCR</b>識別】

    基于AX650N芯片部署MiniCPM-V 2.0高效端側模態模型

    2.8B參數。MiniCPM-V 2.0具有領先的光學字符識別(OCR)和模態理解能力。該模型在綜合性OCR能力評測基準OCRBench上
    的頭像 發表于 07-15 09:34 ?1029次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0高效端側<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    語坤川大模型智能體平臺亮相2024世界人工智能大會

    語坤川大模型智能體平臺兼容多種尺寸的大語言模型模態
    的頭像 發表于 07-09 14:38 ?283次閱讀
    <b class='flag-5'>視</b>語坤川大<b class='flag-5'>模型</b>智能體平臺亮相2024世界人工智能大會

    智能手機充電頭OCR精準識別

    文本是人類最重要的信息來源之一,自然場景中充滿了形形色色的文字符號。光學字符識別(OCR)相信大家都不陌生。而工業場景的圖像文字識別更加復雜,OCR出現在很多不同的場合,對某些特殊的表面、產品整體上
    的頭像 發表于 06-11 08:24 ?518次閱讀
    智能手機充電頭<b class='flag-5'>OCR</b>精準識別

    智譜AI發布全新模態開源模型GLM-4-9B

    近日,智譜AI在人工智能領域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態能力,再次刷新了業界對于大型語言
    的頭像 發表于 06-07 09:17 ?822次閱讀

    《環球時報》中英文刊發中國第三代自主超導量子計算機“悟空”研制團隊主要負責人專訪

    《環球時報》中英文刊發中國第三代自主超導量子計算機“悟空”研制團隊主要負責人專訪
    的頭像 發表于 06-01 08:22 ?421次閱讀
    《環球時報》<b class='flag-5'>中英文</b>刊發中國第三代自主超導量子計算機“悟空”研制團隊主要負責人專訪

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI
    發表于 04-18 17:01 ?661次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>

    如何判斷觸摸屏用有機硅OCR/LOCA性能的優劣

    判斷OCR/LOCA性能的優劣
    的頭像 發表于 02-29 10:48 ?672次閱讀
    主站蜘蛛池模板: 日本一二线不卡在线观看 | ass嫩美女胴体 | 国产精品影视 | 特级毛片免费看 | 插插插操操操 | 日本不卡一区在线 | 欧美黑人巨大xxxx猛交 | 久久伊人男人的天堂网站 | 国产色视频一区 | 国产激情片 | 国产精品香蕉在线一区 | 一级做a爰片久久毛片免费看 | 狠狠色狠狠色综合日日小蛇 | 色老久久精品偷偷鲁一区 | 国产午夜毛片v一区二区三区 | 久久精品国产99国产精品免费看 | 久久久精品波多野结衣 | www爽| 特级做a爰片毛片免费看一区 | 在线视频观看你懂的 | 午夜视频在线观看免费高清 | 欧美亚洲综合另类型色妞 | 日本黄色免费在线观看 | 午夜看片网址 | 精品伊人久久香线蕉 | 夜间视频在线观看 | 免费观看a黄一级视频 | 免费网址视频在线看 | 6一10周岁毛片免费 717影院理论午夜伦不卡久久 | 国产1区二区 | 老师受年下高h男 | 性过程很黄的小说男男 | 狠狠色狠狠色综合久久一 | 天天av天天翘天天综合网 | 青青导航 | 欧美在线高清视频 | 欧美另类xx| 清朝荒淫牲艳史在线播放 | 国产成人精品怡红院 | 亚洲嫩草影院在线观看 | 片黄免费 |