好看的课外书,重生之毒妃梅果小说,遮天

編者按：對圖像中的文字進行識別已經有很多種方法了，但是大多是水平方向上的識別，一旦有了旋轉角度，這些方法可能就“失靈”了。來自復旦大學和中國科學院的幾位研究人員就提出了一種框架，可以識別圖像中經過旋轉的文本。以下為論智對論文的編譯。

摘要

本文介紹了一種全新的基于旋轉的框架，能對自然場景中任意方向的文字進行檢測辨認。我們提出了Rotation Region Proposal Networks（RRPN），用于生成傾斜的框架，同時還帶有圖像旋轉角度的信息。之后，這些信息會適應邊界框，從而能更精確地在不同方向上確定文本區域。Rotation Region-of-Interest（RRoI）池化層是將隨機方向的候選窗口映射到文本區域分類器的特征映射上。

整個框架是基于區域候選框的結構上搭建的，它與之前的文本檢測系統相比，能保證在隨機方向的文本檢測上有更高的計算效率。我們在三種現實場景中對該框架進行了實驗，發現了相較于之前的方法它所表現出的效率。

背景介紹

文本檢測是CV領域一大熱門話題，它的目標是在給定圖像中定位文字區域，這項任務是很多復雜任務的前提，例如視覺分類、視頻分析和其他移動應用。雖然已有很多商業產品落地，但是由于場景的復雜性，自然場景下的文字識別仍然受到很多限制，例如光線不均、圖片模糊、角度扭曲、方向不同等等。而本文正是關注現實生活中不水平的文字區域。

最近一些研究提出了針對隨機方向文本的檢測方法，總的來說，這些方法大致包括兩個步驟：分割網絡（全卷積網絡）以及用于傾斜候選框的幾何方法。然而，對圖像進行分割通常很耗時，并且一些系統需要多次后處理才能生成最終的文本區域候選框，所以并不如直接的檢測網絡高效。

在這篇論文中，我們提出了一種基于旋轉的方法，和端到端的文本檢測系統，該系統能生成任意方向的候選框。相較于之前的方法，我們的主要成果有：

這次的框架可以用基于候選框區域的方法預測文本線的方向，使候選框能更好地適應文本區域。框架中加入的新元素，例如RRoI池化層和旋轉的候選框都整合到了架構中，保證高效的計算力。

我們還提出了對候選框區域新型的微調方法，提高任意方向文本檢測的性能。

我們將新的框架應用到三種場景數據集上，發現它比此前的方法更精確、更高效。

具體框架

首先，框架的整體結構如下圖所示：

框架的前部是VGG-16的卷積層，其中由兩部分組成：RRPN和最后一個卷積層的特征映射的復制品。RRPN可以為文本樣本生成隨機方向的候選框，之后會對候選框進行回歸處理以更好地適應文本區域。而從RRPN分出去的兩個圖層是分類層（cls）和回歸層（reg）。

cls的分數和reg中的候選框信息組成了兩個圖層的輸出結果，并且他們的損失通過計算總結構會形成一個多任務的損失函數。之后，RRoI池化層會扮演一個最大池化層的角色，將RRPN上任意方向的文本候選框投射到特征映射上。

最后，兩個全卷積層結合成一個分類器，具有RRoI特征的區域被分為文本或者背景。

在訓練階段，真實的文本區域用五個元組表示旋轉后的邊界框，分別是（x, y, h, w, θ），（x, y）代表邊界框幾何中心的坐標，h和w分別代表邊界框較短和較長的兩邊，θ表示夾角。

旋轉連接點（anchors）