在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OCR算法能較好識別水平排布的常規文本

電子工程師 ? 來源:CVer ? 作者:CVer ? 2022-08-08 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡要介紹ECCV 2022錄用的論文“When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。該論文旨在緩解目前大部分基于注意力機制的手寫數學公式識別算法在處理較長或者空間結構較復雜的數學公式時,容易出現的注意力不準確的情況。本文通過將符號計數任務和手寫數學公式識別任務聯合優化來增強模型對于符號位置的感知,并驗證了聯合優化和符號計數結果都對公式識別準確率的提升有貢獻。

一、研究背景

OCR技術發展到今天,對于常規文本的識別已經達到了較高的準確率。但是對于在自動閱卷、數字圖書館建設、辦公自動化等領域經常出現的手寫數學公式,現有OCR算法的識準確率依然不太理想。不同于常規文本,手寫數學公式有著復雜的空間結構以及多樣化的書寫風格,如圖1所示。其中復雜的空間結構主要是由數學公式獨特的分式、上下標、根號等結構造成的。雖然目前的OCR算法能較好地識別水平排布的常規文本,甚至對于一些多方向以及彎曲文本也能夠有不錯的識別效果,但是依然不能很好地識別具有復雜空間結構的數學公式。

563b8a44-16c2-11ed-ba43-dac502259ad0.png

圖1 手寫數學公式示例

二、研究動機

現有的大部分手寫數學公式識別算法采用的是基于注意力機制的編碼器-解碼器結構,模型在識別每一個符號時,需要注意到圖像中該符號對應的位置區域。在識別常規文本時,注意力的移動規律比較單一,往往是從左至右或從右至左。但是在識別數學公式時,注意力在圖像中的移動具有更多的可能性。因此,模型在解碼較復雜的數學公式時,容易出現注意力不準確的現象,導致重復識別某符號或者是漏識別某符號。

為了緩解上述現象,本文提出將符號計數引入手寫數學公式識別。這種做法主要基于以下兩方面的考慮:1)符號計數(如圖2(a)所示)可以隱式地提供符號位置信息,這種位置信息可以使得注意力更加準確(如圖2(b)所示)。2)符號計數結果可以作為額外的全局信息來提升公式識別的準確率。

564af72c-16c2-11ed-ba43-dac502259ad0.png

圖2 (a)符號計數任務;(b)符號計數任務讓模型擁有更準確的注意力

三、方法簡述

模型整體框架:如圖3所示,CAN模型由主干特征提取網絡、多尺度計數模塊(MSCM)和結合計數的注意力解碼器(CCAD)構成。主干特征提取網絡采用的是DenseNet[1]。對于給定的輸入圖像,主干特征提取網絡提取出2D特征圖F。隨后該特征圖F被輸入到多尺度計數模塊MSCM,輸出計數向量V。特征圖F和計數向量V都會被輸入到結合計數的注意力解碼器CCAD來產生最終的預測結果。

5659117c-16c2-11ed-ba43-dac502259ad0.png

圖3 CAN模型整體框架

多尺度計數模塊:在人群計數等任務中,部分方法采用弱監督的范式,在不需要使用人群位置標注的情況下預測人群密度圖。本文借鑒了這一做法,在只使用公式識別原始標注(即LaTeX序列)而不使用符號位置標注的情況下進行多類符號計數。針對符號計數任務,該計數模塊做了兩方面獨特的設計:1)用計數圖的通道數表征類別數,并在得到計數圖前使用Sigmoid激活函數將每個元素的值限制在(0,1)的范圍內,這樣在對計數圖進行H和W維度上的加和后,可以直接表征各類符號的計數值。2)針對手寫數學公式符號大小多變的特點,采用多尺度的方式提取特征以提高符號計數準確率。

56693f16-16c2-11ed-ba43-dac502259ad0.png

圖4 多尺度計數模塊MSCM

結合計數的注意力解碼器:為了加強模型對于空間位置的感知,使用位置編碼表征特征圖中不同空間位置。另外,不同于之前大部分公式識別方法只使用局部特征進行符號預測的做法,在進行符號類別預測時引入符號計數結果作為額外的全局信息來提升識別準確率。

568c5d98-16c2-11ed-ba43-dac502259ad0.png

圖5 結合計數的注意力解碼器CCAD

四、實驗結果

在廣泛使用的CROHME數據集以及新出現的HME100K[2]數據集上都進行了實驗并與之前的最優方法做了比較。如表1和表2所示,可以看出CAN取得了目前最高的識別準確率。此外,使用經典模型DWAP[3]作為baseline得到的CAN-DWAP以及使用之前最優模型ABM[4]作為baseline得到的CAN-ABM,其結果都分別優于對應的baseline模型,這說明本文所提出的方法可以被應用在目前大部分編碼器-解碼器結構的公式識別模型上并提升它們的識別準確率。

表1 在CROHME數據集上的結果 56a7e824-16c2-11ed-ba43-dac502259ad0.png 表2 在HME100K數據集上的結果? 56e3dd5c-16c2-11ed-ba43-dac502259ad0.png ? 56f70800-16c2-11ed-ba43-dac502259ad0.png

圖6 在CROHME數據集上DWAP和CAN-DWAP的識別結果展示

對于模型各部分帶來的提升,本文做了消融實驗。如表3所示,加入位置編碼、將兩種任務聯合優化以及融合符號計數結果進行預測都能提升模型對于手寫數學公式的識別準確率。此外,為了驗證采用多尺度的方式提取特征的有效性以及研究符號計數結果對于公式識別準確率的影響,本文做了實驗進行驗證。如表4所示,使用大小不同的卷積核提取多尺度特征有助于獲得更高的符號計數準確率。并且計數結果越準確,對公式識別的提升也越大。表5則展示了當使用符號計數的GT(Ground Truth)時對于模型識別準確率的提升。

表3 模型各部分帶來的提升

5710f17a-16c2-11ed-ba43-dac502259ad0.png

表4 計數模塊中卷積核大小的影響

572529f6-16c2-11ed-ba43-dac502259ad0.png 表5 符號計數結果對公式識別準確率的影響? 5738e8e2-16c2-11ed-ba43-dac502259ad0.png

符號計數對于公式識別有促進作用,那么反過來公式識別能否提升符號計數的準確率呢?本文對這一問題也做了探討,實驗結果和符號計數可視化結果如表6和圖7所示,可以看出公式識別任務也可以提升符號計數的準確率。本文認為這是因為公式識別的解碼過程提供了符號計數任務缺少的上下文語義信息。

表6 公式識別對符號計數準確率的影響

57473e9c-16c2-11ed-ba43-dac502259ad0.png

5757917a-16c2-11ed-ba43-dac502259ad0.png 圖7 符號計數結果及計數圖可視化

五、文本結論

本文設計了一種新穎的多尺度計數模塊,該計數模塊能夠在只使用公式識別原始標注(即LaTeX序列)而不使用符號位置標注的情況下進行多類別符號計數。通過將該符號計數模塊插入到現有的基于注意力機制的編碼器-解碼器結構的公式識別網絡中,能夠提升現有模型的公式識別準確率。此外,本文還驗證了公式識別任務也能通過聯合優化來提升符號計數的準確率。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3791

    瀏覽量

    137865
  • 模型
    +關注

    關注

    1

    文章

    3516

    瀏覽量

    50342
  • OCR
    OCR
    +關注

    關注

    0

    文章

    161

    瀏覽量

    16780

原文標題:ECCV 2022 | 白翔團隊提出CAN:手寫數學公式識別新算法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    提供銀行卡識別API免費接入的OCR SDK開發者平臺

    戶進行綁定銀行卡的操作,而這時實現“拍照輸入銀行卡號”的云脈OCR銀行卡識別技術,就成了他們的香餑餑了。云脈銀行卡識別,它是利用OCR技術
    發表于 09-16 17:35

    首發 | 告別手動錄入,開放平臺OCR上線印刷文字識別

    的就是印刷字體的轉化。二、印刷文字識別應用廣泛正如文章開頭我們提到的,生活中有很多需要將印刷字體轉換為設備可編輯的文本場景。而作為OCR家族的重要成員,印刷文字識別在這時候就大有作為,
    發表于 05-17 15:18

    c#+halcon1.5 ocr字符識別

    `一直以來halcon都是工業界高效穩定準確的視覺算法庫的代表,其定位,檢測和識別算法都比較好,有很多學員不太了解其ocr字符
    發表于 07-26 01:36

    自編通用視覺框架實現基本算子以及OCR識別功能

    進行算法添加,如下圖:利用左鍵以下拉列表的形式設置算法參數至表格中如下圖:然后將表格數據轉換視覺參數進行有序的步驟運行:OCR字符識別在上次的公眾文章中有進行講解,這里就不多說了,我們
    發表于 08-16 17:56

    Python OCR 識別庫-ddddocr

    與易用,讓不會用 opencv, pytorch, tensorflow 的小伙伴也快速的破解網站的登錄驗證碼。小伙伴們如果有其他好的 ocr 識別也可以在留言中分享出來。
    發表于 03-30 17:26

    【KV260視覺入門套件試用體驗】七、VITis AI字符和文本檢測(OCR&Textmountain)

    _pt sample_ocr.jpg OCR 該網絡用于光學字符識別,包括文本檢測和文本識別
    發表于 09-26 16:31

    基于FPGA的OCR文字識別技術的深度解析

    OCR在通用文字識別等場景下有廣泛應用,基于FPGA異構加速的OCR識別相比CPU/GPU實現具有延時小、成本低的優勢。我們設計了多FPGA芯片協同的異構加速架構,
    發表于 01-26 12:19 ?4285次閱讀

    關于開放平臺OCR上線印刷文字識別的介紹

    我們為什么用OCR?因為可以快速將文字轉為可在設備上編輯的數字文本。因此能夠得到用戶青睞的OCR小編認為應能夠準確生成文本,所見即所得,同時對不同字體,不同環境,不同顏色形狀的
    的頭像 發表于 09-27 09:51 ?2895次閱讀

    一篇包羅萬象的場景文本檢測算法綜述

    提到文本檢測識別,我們會聯想到的一個詞就是 OCROCR 是光學字符識別 Optical Character Recognition的簡稱
    的頭像 發表于 08-21 14:18 ?6311次閱讀

    OCR識別技術

    在爬蟲對驗證碼進行破解時,經常需要對圖片中的文字內容進行識別,這時就需要用到OCR技術了,那么 OCR識別技術是如何實現對文字內容“即拍即得”的呢?
    的頭像 發表于 03-12 09:07 ?5198次閱讀

    一篇包羅萬象的場景文本檢測算法綜述

    提到文本檢測識別,我們會聯想到的一個詞就是 OCROCR 是光學字符識別 Optical Character Recognition的簡稱
    的頭像 發表于 04-15 14:52 ?4059次閱讀
    一篇包羅萬象的場景<b class='flag-5'>文本</b>檢測<b class='flag-5'>算法</b>綜述

    機器視覺運動控制一體機應用例程|OCR字符識別應用

    應用背景 OCR字符識別的應用場景非常廣泛,例如在生產型企業領域中,OCR具有多樣性的應用,比如讀取儀表儀器上的文本,進行實時監控、讀取產品上的生產日期、批號,以此來獲得產品的信息和可
    的頭像 發表于 02-24 17:27 ?1695次閱讀
    機器視覺運動控制一體機應用例程|<b class='flag-5'>OCR</b>字符<b class='flag-5'>識別</b>應用

    OCR實戰教程

    OCR 是光學字符識別(英語:Optical Character Recognition,OCR)是指對文本資料的圖像文件進行分析識別處理,
    的頭像 發表于 02-24 10:36 ?1435次閱讀
    <b class='flag-5'>OCR</b>實戰教程

    easyocr:超級簡單且強大的OCR文本識別工具

    今天給大家介紹一個超級簡單且強大的OCR文本識別工具: easyocr . 這個模塊支持70多種語言的即用型OCR,包括中文,日文,韓文和泰文等。 下面是這個模塊的實戰教程。 1.準備
    的頭像 發表于 10-30 09:30 ?3733次閱讀
    easyocr:超級簡單且強大的<b class='flag-5'>OCR</b><b class='flag-5'>文本</b><b class='flag-5'>識別</b>工具

    OCR如何自動識別圖片文字

    OCR 是光學字符識別(英語:Optical Character Recognition,OCR)是指對文本資料的圖像文件進行分析識別處理,
    的頭像 發表于 10-31 16:45 ?1142次閱讀
    <b class='flag-5'>OCR</b>如何自動<b class='flag-5'>識別</b>圖片文字
    主站蜘蛛池模板: 欧美色图综合网 | 亚洲444kkk| 好大好硬好深好爽想要免费视频 | 手机看片国产免费永久 | 一品毛片 | 成人精品一区二区三区电影 | 欧美日韩在线一本卡 | 日韩在线视频www色 日韩在线视频免费观看 | 亚洲人成人 | 天天操天天干天天爱 | 色姑娘天天干 | 2021久久精品免费观看 | 四虎影视免费观看 | 99久久久精品 | 禁h粗大太大好爽好涨受不了了 | 噜噜噜噜噜久久久久久91 | 激情综合婷婷 | 5月丁香6月婷婷 | 伊人久久香 | 亚洲精品视频专区 | 97午夜精品 | 2022国产情侣真实露脸在线 | 在线永久免费观看黄网站 | 91一区二区三区四区五区 | 日日射天天射 | 国产国产人免费人成成免视频 | 狠狠干在线观看 | 天堂资源在线播放 | 亚洲福利秒拍一区二区 | 一区二区三区四区在线视频 | 男女爱爱免费高清 | 国产码一区二区三区 | 午夜在线观看cao | 一区二区高清在线观看 | 四虎影视免费看 | 91亚洲视频 | 日本写真高清视频免费网站网 | 日本一二区视频 | 99久久伊人一区二区yy5099 | 久久97精品久久久久久久看片 | 黄色在线观看视频 |