在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

了解光學字符識別技術識別票據(jù)原理

新機器視覺 ? 來源:新機器視覺 ? 作者:Ivan Ozhiganov ? 2020-11-27 10:28 ? 次閱讀

本文翻譯自dzone 中Ivan Ozhiganov 所發(fā)文章Deep Dive Into OCR for Receipt Recognition 文中版權、圖像代碼等數(shù)據(jù)均歸作者所有。為了本土化,翻譯內容略作修改。

光學字符識別技術(OCR)目前被廣泛利用在手寫識別、打印識別及文本圖像識別等相關領域。小到文檔識別、銀行卡身份證識別,大到廣告、海報。因為OCR技術的發(fā)明,極大簡化了我們處理數(shù)據(jù)的方式。

同時,機器學習(ML)和卷積神經(jīng)網(wǎng)絡(CNN)的快速發(fā)展也讓文本識別出現(xiàn)了巨大的飛躍!我們在本文的研究中也將使用卷積神經(jīng)網(wǎng)絡CNN技術來識別零售店的紙質票據(jù)。為了方便演示,我們本次將僅采用俄語版的票據(jù)進行測試。

我們的目標是項目開發(fā)一個客戶端來識別來獲取相關文檔,在有服務器端去識別解析數(shù)據(jù)。準備好了嗎?讓我們一起去看看怎么做吧!

預處理

首先,我們需要接收圖像相關數(shù)據(jù),使其水平豎直方向垂直,接下來使用算法進行檢測是否為票據(jù),最終二值化方便識別。

旋轉圖像識別收據(jù)

我們有三種方案來識別票據(jù),下文對這三種方案做了測試。

1. 高閾值的自適應二值化技術。2. 卷積神經(jīng)網(wǎng)絡(CNN)。3. Haar特征分類器。

自適應二值化技術

首先,我們看到,圖中圖像上包含了完整的數(shù)據(jù),同時票據(jù)又與背景有些差距。為了能更好識別相關數(shù)據(jù),我們需要將圖片進行旋轉。使其水平沿豎直方向對齊。

我們使用Opencv中的自適應閾值化函數(shù)adaptive_threshold和scikit-image框架來調整收據(jù)數(shù)據(jù)。利用這兩項函數(shù),我們可以在高梯度區(qū)域保留白色像素,低梯度區(qū)域保留黑色像素。這使得我們獲得了一個高反差的樣本圖片。這樣,通過裁剪,我們就能得到票據(jù)的相關信息了。

使用卷積神經(jīng)網(wǎng)絡(CNN)

起初我們決定使用CNN來做相關位置檢測的接收點,就像我們之前做對象檢測項目一樣。我們使用判斷角度來拾取相關關鍵點。這種方案雖然好用,但是和高閾值對比檢測裁剪更差。

因為CNN只能找到文本的角度坐標,而文字的角度變化很大,這就意味著CNN模型不是很精準。詳情請參考下面CNN測試的結果。

使用Haar特征分類器來識別收據(jù)

作為第三種選擇,我們嘗試使用Haar特征分類器來做分類篩選。然而經(jīng)過一周的分類訓練和改變相關參數(shù),我們并沒有得到什么比較積極的結果,甚至發(fā)現(xiàn)CNN都比Haar表現(xiàn)好得多。

二值化

最終我們使用opencv中的adaptive_threshold方法進行二值化,經(jīng)過二值化處理,我們得到了一個不錯的圖片。

文本檢測

接下來我們來介紹幾個不同的文本檢測組件。

通過鏈接組件檢測文本

首先,我們使用Opencv中的find Contours函數(shù)找到鏈接的文本組。大多數(shù)鏈接的組件是字符,但是也有二值化留下來嘈雜的文本,這里我們通過設置閾值的大小來過濾相關文本。

然后,我們執(zhí)行合成算法來合成字符,如:Й和=。通過搜索最臨近的字符組合合成單詞。這種算法需要你找到每個相關字字母最臨近的字符,然后從若干字母中找到最佳選擇展示。

接下來文字形成文字行。我們通過判斷文字是否高度一致來判斷文本是否屬于同一行。

當然,這個方案的缺點是不能識別有噪聲的文本。

使用網(wǎng)格對文本進行檢測

我們發(fā)現(xiàn)幾乎所有票據(jù)都是相同寬度的文本,所以我們設法在收據(jù)上畫出一個網(wǎng)格,并利用網(wǎng)格分割每個字符:

網(wǎng)格一下子精簡了票據(jù)識別的難度。神經(jīng)網(wǎng)絡可以精準識別每個網(wǎng)格內的字符。這樣就解決了文本嘈雜的情況。最終可以精確統(tǒng)計文本數(shù)量。

我們使用了以下算法來識別網(wǎng)格。

首先,我在二值化鏡像中使用這個連接組件算法。

然后我們發(fā)現(xiàn)圖中左下角有些是真,所喲我們通過二維周期函數(shù)來調整網(wǎng)格識別。

修正網(wǎng)格失真背后主要的思想是利用圖形峰值點找到非線性幾何失真,換句話說,我們必須找到這個函數(shù)的最大值的和。另外,我們還需要一個最佳失真值才行。

我們使用ScipyPython模塊中的RectBivariateSpline函數(shù)來參數(shù)化幾何失真。并用Scipy函數(shù)進行優(yōu)化。得到如下結果:

總而言之,這個方法緩慢且不穩(wěn)定,所以堅決不打算使用這個方案。

光學字符識別

我們通過組連接識別發(fā)現(xiàn)文本,并識別完整的單詞。

識別通過連接組發(fā)現(xiàn)的文本

對于文本識別,我們使用卷積神經(jīng)網(wǎng)絡(CNN)接收相關字體進行培訓。輸出部分,我們通過對比來提升概率。我們那個幾個最初的幾個選項多對比,發(fā)現(xiàn)有99%的準確識別率后。又通過對比字典來提高準確度,并消除相關類似的字符,如"З" 和 "Э"造成的錯誤。

然而,當涉及嘈雜的文本時,該方法性能卻十分低下。

識別完整的單詞

當文本太嘈雜的時候,需要找到完整的單詞才能進行單個字母的識別。我們使用下面兩個方法來解決這個問題:

LSTM網(wǎng)絡

圖像非均勻分割技術

LSTM網(wǎng)絡

您可以閱讀這些文章,以更加深入了解使用卷積神經(jīng)網(wǎng)絡識別序列中的文本 ,或我們可以使用神經(jīng)網(wǎng)絡建立與語言無關的OCR嗎?為此,我們使用了OCRopus庫來進行識別。

我們使用了等寬的字體來作為人工識別樣本進行訓練。

訓練結束后,我們由利用其他數(shù)據(jù)來測試我們的神經(jīng)網(wǎng)絡,當然,測試結果非常積極。這是我們得到的數(shù)據(jù):

訓練好的神經(jīng)網(wǎng)絡在簡單的例子上表現(xiàn)十分優(yōu)秀。同樣,我們也識別到了網(wǎng)格不適合的復雜情況。

我們抽取的相關的訓練樣本,并讓他通過神經(jīng)網(wǎng)絡進行訓練。

為了避免神經(jīng)網(wǎng)絡過度擬合,我們多次停止并修正訓練結果,并不斷加入新數(shù)據(jù)作為訓練樣本。最后我們得到以下結果:

新的網(wǎng)絡擅長識別復雜的詞匯,但是簡單的文字識別卻并不好。

我們覺得這個卷積神經(jīng)網(wǎng)絡可以細化識別單個字符來使文本識別更加優(yōu)秀。

圖像非均勻分割技術

因為收據(jù)字體是等寬的字體,所以我們決定按照字符分割字體。首先,我們需要知道每個字母的寬度。因此,字符的寬度尤為重要,我們需要估計每個字母的長度,利用函數(shù),我們得到下圖。選擇多種模式來選取特定的字母寬度。

我們得到一個單詞的近似寬度,通過除以字符中的字母數(shù),給出一個近似分類:

區(qū)分最佳的是:

這種分割方案的準確度是非常高的:

當然,也有識別不太好的情況:

分割后我們在使用CNN做識別處理。

從收據(jù)中提取含義

我們使用正則表達式來查找收據(jù)中購買情況。所有收據(jù)都有一個共通點:購買價格以XX.XX格式來撰寫。因此,可以通過提取購買的行來提取相關信息。個人納稅號碼是十位數(shù),也可以通過正則表達式輕松獲取。同樣,也可以通過正則表達式找到NAME / SURNAME等信息。

總結

不論你選擇什么方法,LSTM或者其他更加復雜的方案,都沒有錯誤,有些方法很難用,但是有些方法卻很簡單,因識別樣本而異。

我們將繼續(xù)優(yōu)化這個項目。目前來看,在沒有噪聲的情況下,系統(tǒng)性能更加優(yōu)秀。

原文鏈接:https://dzone.com/articles/using-ocr-for-receipt-recognition

責任編輯:xj

原文標題:深入淺出了解OCR識別票據(jù)原理

文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • OCR
    OCR
    +關注

    關注

    0

    文章

    147

    瀏覽量

    16428
  • 識別
    +關注

    關注

    3

    文章

    173

    瀏覽量

    32012

原文標題:深入淺出了解OCR識別票據(jù)原理

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    人臉識別技術的優(yōu)勢與劣勢

    人臉識別技術的優(yōu)勢 1. 高度準確性 人臉識別技術在理想條件下可以達到非常高的準確性。隨著深度學習技術的發(fā)展,現(xiàn)代人臉
    的頭像 發(fā)表于 02-06 18:23 ?330次閱讀

    人臉識別技術的應用場景

    在數(shù)字化時代,安全和便捷性成為了人們日益關注的話題。人臉識別技術以其獨特的優(yōu)勢,即無需物理接觸、快速識別和高準確率,成為了解決這些問題的關鍵技術
    的頭像 發(fā)表于 02-06 17:20 ?317次閱讀

    Litera Drafting:幫助改進發(fā)布文檔的方式(十)

    產(chǎn)品介紹 contentCrawler是一種光學字符識別(OCR)和文檔壓縮解決方案,可識別資源庫中不可搜索的文檔,并將其轉換為大小可控、可進行文本搜索的PDF文件。 contentCrawler可
    的頭像 發(fā)表于 01-06 10:57 ?118次閱讀

    語音識別技術的應用與發(fā)展

    語音識別技術的發(fā)展可以追溯到20世紀50年代,但直到近年來,隨著計算能力的提升和機器學習技術的進步,這項技術才真正成熟并廣泛應用于各個領域。語音識別
    的頭像 發(fā)表于 11-26 09:20 ?750次閱讀

    光學字符識別是什么的一種技術

    光學字符識別(Optical Character Recognition,簡稱OCR)是一種將文本資料轉換為計算機可編輯和可搜索的數(shù)據(jù)格式的技術。這項技術廣泛應用于文檔掃描、數(shù)據(jù)錄入、
    的頭像 發(fā)表于 09-10 15:48 ?579次閱讀

    光學識別技術的工作原理是什么?

    光學識別技術(Optical Character Recognition,簡稱OCR)是一種將圖像中的文字信息轉換成可編輯和可搜索的文本數(shù)據(jù)的技術。它廣泛應用于文檔掃描、數(shù)據(jù)錄入、自動識別
    的頭像 發(fā)表于 09-10 15:46 ?842次閱讀

    光學識別字符是自動識別技術

    光學識別字符(Optical Character Recognition,簡稱OCR)是一種自動識別技術,它能夠將各種類型文檔(如掃描的紙質文檔、PDF文件或數(shù)字相機拍攝的圖片)中的文字轉換成可編
    的頭像 發(fā)表于 09-10 15:43 ?551次閱讀

    光學識別的過程包含哪些

    光學識別(Optical Character Recognition,OCR)是一種將圖像中的文字轉換為機器可讀文本的技術。這個過程涉及多個步驟,包括圖像預處理、文本檢測、字符分割、字符識別
    的頭像 發(fā)表于 09-10 15:36 ?484次閱讀

    光學識別輸入的基本原理是什么

    光學字符識別(Optical Character Recognition,OCR)是一種將不同格式的文檔(如掃描的紙張文檔、PDF文件或數(shù)字相機拍攝的圖片)轉換成可編輯和可搜索的數(shù)據(jù)的技術。OCR
    的頭像 發(fā)表于 09-10 15:34 ?756次閱讀

    目標檢測與識別技術有哪些

    目標檢測與識別技術是計算機視覺領域的重要研究方向,廣泛應用于安全監(jiān)控、自動駕駛、醫(yī)療診斷、工業(yè)自動化等領域。 目標檢測與識別技術的基本概念 目標檢測(Object Detection)
    的頭像 發(fā)表于 07-17 09:40 ?753次閱讀

    人臉識別技術的原理介紹

    人臉識別技術是一種基于人臉特征信息進行身份識別的生物識別技術。它通過分析人臉圖像,提取人臉特征,然后與已知人臉特征進行匹配,從而實現(xiàn)身份識別
    的頭像 發(fā)表于 07-04 09:22 ?1663次閱讀

    智能手機充電頭OCR精準識別

    文本是人類最重要的信息來源之一,自然場景中充滿了形形色色的文字符號。光學字符識別(OCR)相信大家都不陌生。而工業(yè)場景的圖像文字識別更加復雜,OCR出現(xiàn)在很多不同的場合,對某些特殊的表
    的頭像 發(fā)表于 06-11 08:24 ?518次閱讀
    智能手機充電頭OCR精準<b class='flag-5'>識別</b>

    AOI字符識別機器視覺系統(tǒng)方案

    根據(jù)被測產(chǎn)品(字符)測量要求,需要對其字符進行檢查并判斷,屬于字符識別(OCR、OCV)檢測范疇。傳統(tǒng)上的這些參數(shù)測量主要依靠員工利用眼睛等進行人工檢查,且必須離線后單個測量,檢查正確與否易受人
    的頭像 發(fā)表于 05-17 00:33 ?583次閱讀
    AOI<b class='flag-5'>字符識別</b>機器視覺系統(tǒng)方案

    項目分享|基于ELF 1開發(fā)板的車牌識別系統(tǒng)

    方面,借助了百度提供的OCR(光學字符識別)服務來確保準確高效地讀取車牌數(shù)據(jù)。同時,手機APP則是采用Java編程語言進行開發(fā),可以便捷地接收和查看識別結果。一、
    的頭像 發(fā)表于 03-12 09:22 ?534次閱讀
    項目分享|基于ELF 1開發(fā)板的車牌<b class='flag-5'>識別</b>系統(tǒng)

    人臉識別技術的原理是什么 人臉識別技術的特點有哪些

    人臉識別技術的原理 人臉識別技術是一種通過計算機以圖像或視頻為輸入,識別、檢測、跟蹤和分析人臉的技術
    的頭像 發(fā)表于 02-18 13:52 ?2464次閱讀
    主站蜘蛛池模板: 欧美女同在线观看 | 久久99热狠狠色精品一区 | 国产一级又色又爽又黄大片 | 天堂最新版在线www在线 | 天堂资源中文在线 | 婷婷爱爱 | 色播五月婷婷 | 成人青草亚洲国产 | 色午夜在线 | 天天射天天射天天射 | 乱人伦xxxx国语对白 | 2018天天射 | 免费国产午夜高清在线视频 | 天堂bt种子资源地址在线 | 男人操女人视频在线观看 | 一级特一级特色生活片 | 美国色天使 | xxxx69日本| 免费美剧在线观看 | 午夜日批 | 天堂在线精品 | 久久天天躁夜夜躁狠狠85台湾 | 久草一本| 四虎最新免费观看网址 | 免费人成在线观看视频播放 | 看大片全色黄大色黄 | 色妞影视| 前后灌满白浆护士 | 国产一级在线观看www色 | 三级在线看 | 在线免费看污视频 | 五月天激情开心网 | 亚洲一区二区三区高清 | 天天更新影院 | 最近高清免费观看视频大全 | 222aaa天堂| 日本3级视频 | 九九视频热 | 四虎永久免费影院在线 | 亚洲免费视频一区二区三区 | 午夜色站|