在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種全新的基于旋轉的框架,能對自然場景中任意方向的文字進行檢測辨認

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-08 09:30 ? 次閱讀

編者按:對圖像中的文字進行識別已經有很多種方法了,但是大多是水平方向上的識別,一旦有了旋轉角度,這些方法可能就“失靈”了。來自復旦大學和中國科學院的幾位研究人員就提出了一種框架,可以識別圖像中經過旋轉的文本。以下為論智對論文的編譯。

摘要

本文介紹了一種全新的基于旋轉的框架,能對自然場景中任意方向的文字進行檢測辨認。我們提出了Rotation Region Proposal Networks(RRPN),用于生成傾斜的框架,同時還帶有圖像旋轉角度的信息。之后,這些信息會適應邊界框,從而能更精確地在不同方向上確定文本區域。Rotation Region-of-Interest(RRoI)池化層是將隨機方向的候選窗口映射到文本區域分類器的特征映射上。

整個框架是基于區域候選框的結構上搭建的,它與之前的文本檢測系統相比,能保證在隨機方向的文本檢測上有更高的計算效率。我們在三種現實場景中對該框架進行了實驗,發現了相較于之前的方法它所表現出的效率。

背景介紹

文本檢測是CV領域一大熱門話題,它的目標是在給定圖像中定位文字區域,這項任務是很多復雜任務的前提,例如視覺分類、視頻分析和其他移動應用。雖然已有很多商業產品落地,但是由于場景的復雜性,自然場景下的文字識別仍然受到很多限制,例如光線不均、圖片模糊、角度扭曲、方向不同等等。而本文正是關注現實生活中不水平的文字區域。

最近一些研究提出了針對隨機方向文本的檢測方法,總的來說,這些方法大致包括兩個步驟:分割網絡(全卷積網絡)以及用于傾斜候選框的幾何方法。然而,對圖像進行分割通常很耗時,并且一些系統需要多次后處理才能生成最終的文本區域候選框,所以并不如直接的檢測網絡高效。

在這篇論文中,我們提出了一種基于旋轉的方法,和端到端的文本檢測系統,該系統能生成任意方向的候選框。相較于之前的方法,我們的主要成果有:

這次的框架可以用基于候選框區域的方法預測文本線的方向,使候選框能更好地適應文本區域。框架中加入的新元素,例如RRoI池化層和旋轉的候選框都整合到了架構中,保證高效的計算力。

我們還提出了對候選框區域新型的微調方法,提高任意方向文本檢測的性能。

我們將新的框架應用到三種場景數據集上,發現它比此前的方法更精確、更高效。

具體框架

首先,框架的整體結構如下圖所示:

框架的前部是VGG-16的卷積層,其中由兩部分組成:RRPN和最后一個卷積層的特征映射的復制品。RRPN可以為文本樣本生成隨機方向的候選框,之后會對候選框進行回歸處理以更好地適應文本區域。而從RRPN分出去的兩個圖層是分類層(cls)和回歸層(reg)。

cls的分數和reg中的候選框信息組成了兩個圖層的輸出結果,并且他們的損失通過計算總結構會形成一個多任務的損失函數。之后,RRoI池化層會扮演一個最大池化層的角色,將RRPN上任意方向的文本候選框投射到特征映射上。

最后,兩個全卷積層結合成一個分類器,具有RRoI特征的區域被分為文本或者背景。

在訓練階段,真實的文本區域用五個元組表示旋轉后的邊界框,分別是(x, y, h, w, θ),(x, y)代表邊界框幾何中心的坐標,h和w分別代表邊界框較短和較長的兩邊,θ表示夾角。

旋轉連接點(anchors

傳統的連接點利用比例尺和長寬比參數表示,通常對現實中的文本檢測并不有效。所以我們通過調整設計了旋轉連接點(R-anchors)。具體表示可看下圖:

其中有六個不同的旋轉方向,是綜合考慮覆蓋和計算效率之后得出的結果。其次,由于文本區域經常有特殊的形狀,長寬比改成了1:2、1:5、1:8,以覆蓋更寬的文本。

學習旋轉候選框

R-anchors生成后,為了執行網絡學習,就需要對R-anchors進行采樣。候選框的損失函數形成了多任務損失,定義為:

其中l是類別標簽的表示器,參數p時softmax函數計算出的類別概率,v表示文本標簽的預測元組,v*表示真實數值。

下圖可以看到經過回歸后的圖像與未回歸的對比:

(a)是輸入的圖像,(b)是沒有經過回歸處理的方向和連接點,(c)是經過處理的點

白線的方向就表示R-anchors的方向,白線的長短表示連接點對文字的反饋。

下圖是不同多任務損失值的對比:

實驗效果

我們分別在三個數據集上進行了實驗:MSRA-TD500、ICDAR2015和ICDAR2013。三個數據集都是文本檢測常用的數據集。首先我們對比了旋轉和水平的候選框:

結果顯示,基于旋轉的方法能更精確地確定文字區域,不會包含太多的背景,這說明在框架中加入旋轉策略的有效性。但是雖然檢測效率有所提高,在MSRA-TD500中仍有檢測失敗的案例:

在不平衡的光線下(a)、非常小的字體上(b)以及過長的文本上(c)都會出現檢測失敗的情況

但最終在三種數據集上的表現還是很不錯的:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40592
  • 分類器
    +關注

    關注

    0

    文章

    152

    瀏覽量

    13237
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24850

原文標題:復旦&中科院成果:對任意方向的文字進行識別

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種基于圖像平移的目標檢測框架

    1、摘要近年來,在深度卷積神經網絡(CNNs)的幫助下,圖像和視頻監控在智能交通系統(ITS)取得了長足的進展。作為一種先進的感知方法,智能交通系統對視頻監控幀感興趣的目標
    發表于 08-31 07:43

    一種專門用于檢測小目標的框架Dilated Module

    1. 介紹本文提出一種專門用于檢測小目標的框架,框架結構如下圖:我們探索了可以提高小目標檢測能力的3個方面:Dilated模塊,特征融合以及
    發表于 11-04 11:14

    如何對運動的車輪進行測定

    在汽車,要使用車速表、牽引控制器、防抱死制動器和巡航控制器均需測知車輪的速度。應該對引擎的每分鐘轉數(RPM)進行監視,以控制變速器,使車速保持在最高安全速度以下。電動車窗通常由一種具有閉環
    發表于 11-18 06:16

    一種名片圖像的文字區塊分割方法

    針對以手機攝像頭作為圖像采集器獲得的名片圖像,該文介紹一種文字區塊的分割方法。對用手機攝像頭獲取的彩色名片圖像,利用4個方向的sobel算子進行邊緣
    發表于 04-15 09:00 ?24次下載

    檢測物體旋轉方向及轉速的電路

    檢測物體旋轉方向及轉速的電路
    發表于 04-24 21:48 ?1857次閱讀
    <b class='flag-5'>檢測</b>物體<b class='flag-5'>旋轉</b><b class='flag-5'>方向</b>及轉速的電路

    一種改進的CAMShift跟蹤算法及人臉檢測框架

    為充分利用人臉視頻圖像序列的時空信息,獲得更加準確的人臉比對圖像序列,提出一種結合人臉跟蹤的人臉檢測框架。使用簡單快速的正面人臉檢測算法對
    發表于 11-25 09:32 ?0次下載
    <b class='flag-5'>一種</b>改進的CAMShift跟蹤算法及人臉<b class='flag-5'>檢測</b><b class='flag-5'>框架</b>

    一種適用于旋轉角的人體檢測算法

    常用的人體檢測算法多應用于無旋轉角的情況,而在旋轉角可變的情況下檢測性能有限,為此提出了一種適用于有旋轉
    發表于 01-09 16:07 ?0次下載
    <b class='flag-5'>一種</b>適用于<b class='flag-5'>旋轉</b>角的人體<b class='flag-5'>檢測</b>算法

    一種新型分割圖像中人物的方法,基于人物動作辨認

    圖像分割的般方法是先對物體進行檢測,然后用邊界框對畫中物體進行分割。最近,例如Mask R-CNN的深度學習方法也被用于圖像分割任務,但是大多數研究都沒有注意到人類的特殊性:可以通過身體姿勢
    的頭像 發表于 04-10 15:02 ?5735次閱讀
    <b class='flag-5'>一種</b>新型分割圖像中人物的方法,基于人物動作<b class='flag-5'>辨認</b>

    如何提取和檢測視頻文字?數字視頻中文字檢測提取技術的分析

    作為一種高級語義特征, 視頻文字信息對視頻內容的理解、索引和檢索具有重要意義。本文針對非壓縮域中視頻文字檢測與提取技術做了詳盡的分析和
    發表于 09-17 17:58 ?26次下載
    如何提取和<b class='flag-5'>檢測</b>視頻<b class='flag-5'>中</b>的<b class='flag-5'>文字</b>?數字視頻中<b class='flag-5'>文字</b>的<b class='flag-5'>檢測</b>提取技術的分析

    一種硅片旋轉甩干裝置,它的應用優勢是什么

    本實用新型涉及一種機械裝置,尤其涉及一種干燥既全面又徹底、成本較低的硅片旋轉甩干裝置。 傳統的裝置具有以下的不足之處:1)干燥程度不徹底、不全面;2)成本較高、性價比不高。 為了克服現有技術
    發表于 12-31 09:34 ?1247次閱讀
    <b class='flag-5'>一種</b>硅片<b class='flag-5'>旋轉</b>甩干裝置,它的應用優勢是什么

    如何對typo 進行檢測和糾正

    自然語言文本中經常會出現些拼寫錯誤(typo),在中文文本里即所謂的錯別字,中文拼寫糾錯(Chinese Spelling Correction,CSC)可以對中文文本的 typo 進行檢
    的頭像 發表于 07-13 14:38 ?1716次閱讀

    一種基于HOG+SVM的行人檢測算法

    在先進駕駛輔助系統, 基于視覺的行人檢測能對攝像頭視野范圍內的無遮擋行人進行檢測, 并且易受天氣的影響, 在極端天氣下無法工作。
    的頭像 發表于 02-22 10:17 ?3027次閱讀

    一種適用于動態場景的多層次地圖構建算法

    本文提出了一種適用于動態場景的多層次地圖構建算法,如圖1所示的系統框架。首先,利用YOLOX[8]獲取場景的語義信息,采用多目標跟蹤算法對漏檢進行
    發表于 08-28 10:56 ?771次閱讀
    <b class='flag-5'>一種</b>適用于動態<b class='flag-5'>場景</b>的多層次地圖構建算法

    OpenVINO場景文字檢測文字識別教程

    OpenVINO是英特爾推出的深度學習模型部署框架,當前最新版本是OpenVINO2023版本。OpenVINO2023自帶各種常見視覺任務支持的預訓練模型庫Model Zoo,其中支持場景文字
    的頭像 發表于 09-24 15:31 ?1739次閱讀
    OpenVINO<b class='flag-5'>場景</b><b class='flag-5'>文字</b><b class='flag-5'>檢測</b>與<b class='flag-5'>文字</b>識別教程

    一種利用幾何信息的自監督單目深度估計框架

    本文方法是一種自監督的單目深度估計框架,名為GasMono,專門設計用于室內場景。本方法通過應用多視圖幾何的方式解決了室內場景幀間大
    發表于 11-06 11:47 ?469次閱讀
    <b class='flag-5'>一種</b>利用幾何信息的自監督單目深度估計<b class='flag-5'>框架</b>
    主站蜘蛛池模板: 一二三区在线视频 | 午夜一级黄色片 | 欧美成人免费草草影院 | 色多多视频在线观看免费大全 | 午夜小视频在线观看 | 色婷婷久久综合中文久久蜜桃 | 亭亭色 | 亚洲婷婷综合中文字幕第一页 | 国产精品日韩欧美亚洲另类 | 女女综合网 | 女人被免费网站视频在线 | 成人午夜大片免费视频77777 | tueb69xxxxxhd日本| 欧美精品一区在线看 | 一级特黄aa大片 | 天天干夜夜夜操 | 97dyy影院理论片 | 99久久国产综合精品国 | 欧美色88 | 精品卡1卡2卡三卡免费网站视频 | 激情六月综合 | 四虎在线免费视频 | 亚洲产国偷v产偷v自拍色戒 | 日本三级日本三级日本三级极 | 美女国产在线观看免费观看 | abc欧美成人影院 | 亚洲一区二区在线免费观看 | 日本一区二区三区在线 视频观看免费 | 被男同桌摸内裤好爽视频 | 午夜美女网站 | 大香线蕉97久久 | 一级特黄a 大片免费 | 天天做天天爱天天操 | 香蕉视频色版在线观看 | 天天做日日干 | 色黄网站成年女人色毛片 | 怡红院亚洲怡红院首页 | 国产精品天天看大片特色视频 | 尻逼尻逼| 特级中国aaa毛片 | 福利午夜 |