在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動圖片文本辨認是計算機視覺和機器學(xué)習(xí)處理大型數(shù)據(jù)的重要案例

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-13 08:54 ? 次閱讀

Dropbox是Dropbox公司的在線存儲服務(wù),通過云計算實現(xiàn)互聯(lián)網(wǎng)上的文件同步,用戶可以存儲并共享文件和文件夾。最近,研究人員在一次產(chǎn)品更新后,在用戶的工作流中加入了人工智能模塊,并加入了光學(xué)字符識別(OCR)技術(shù)。用戶從這些變化中最明顯的感受就是,他們可以在圖像或PDF文件中直接搜索英文文本。

從圖像中(包括PDF)自動識別文本是一項前景廣闊的技術(shù)。在Dropbox中,用戶總共存儲了超過200億個圖像和PDF文件,其中10%—20%是文本照片,例如收據(jù)和白色背景的圖像,這些都是目前圖像中文本識別的新對象。另外還有25%的PDF文件是掃描版文本,同樣可以用作自動文本識別。

計算機視覺的角度來看,雖然對人類來說,看真實的文件和影印版的沒有太大差別,但對計算機就大不一樣了:文件可以通過搜索被檢索,用戶輸入一些單詞就可以從文件中找到目標對象。但在圖像上,檢索系統(tǒng)就無法工作了,因為它顯示的只是一堆像素。通常,圖像格式(例如JPEG、PNG、GIF等)都無法被檢索,因為它們沒有文本內(nèi)容。只有基于文本的文件(例如TXT、DOCX或HTML)才能被檢索。但PDF介于二者中間,因為它既能包含文本,也能包含圖像。自動圖像中的文本識別可以辨認這些文本,并將其中的數(shù)據(jù)進行分類。

所以現(xiàn)在,如果用戶在任意格式下搜索英文文本,Dropbox都能顯示出結(jié)果。這篇文章就講解了研究人員的具體做法。

認識問題

首先,我們要對此任務(wù)有大致了解,尤其是要知道要處理的數(shù)據(jù)數(shù)量有多大,這不僅關(guān)系到所需成本,還有助于評估其有用性。具體需要了解的有以下三方面:

我們應(yīng)該處理哪些類型的文件?

這些文件中有哪些含有可用光學(xué)字符識別技術(shù)處理的內(nèi)容?

對于像PDF這樣有多頁的文件,我們需要處理幾頁才能讓模型變得有效?

我們想處理的文件類型是目前不包含可檢索文本內(nèi)容的文件,這包括圖像格式和不含有文字的PDF文檔。但是,并不是所有的圖像或PDF都含有文本,大多數(shù)只是一些照片或圖示。所以,研究的關(guān)鍵是機器學(xué)習(xí)模型需要判斷,給定的內(nèi)容是否能用光學(xué)字符識別技術(shù),也就是說其中是否含有能用OCR系統(tǒng)識別出的文本,例如不包含街景照片的文件的掃描件等等。我們訓(xùn)練的模型是一個卷積神經(jīng)網(wǎng)絡(luò),輸入圖像并處理后,會將輸出結(jié)果傳遞到二元決策中,看它是否含有文本內(nèi)容。

最常見的圖像格式是JPEG,我們發(fā)現(xiàn)大約有9%的JPEG圖像可能含有文本。對于PDF,情況就比較復(fù)雜了,因為一份PDF文件可能含有多頁,每頁又可能有三種類型的內(nèi)容:

已經(jīng)經(jīng)過嵌入或可檢索的文本(69%)

有圖片格式的文本,暫不可被檢索(28%)

沒有實質(zhì)文本內(nèi)容(3%)

我們主要關(guān)注第二種情況,因為這是我們研究的對象。總的來說,我們的目標用戶擁有的JPEG數(shù)量是PDF的兩倍,但是每個PDF文件平均有8頁,而且PDF可能有更多的文本圖片,所以總的來說,PDF含有的文本是JPEG的10倍。

文本頁數(shù)

一旦確定了文件類型,我們就要決定以何種方式處理這些文件。有些PDF文件有很多頁,處理起來很費時。幸運的是,對于長文本,即使只檢索幾頁,也可以讓文本更易于搜索。所以,我們統(tǒng)計了PDF采樣中頁數(shù)的分布情況,弄清楚每份文件最多可以對幾頁進行檢索。最終結(jié)果顯示,一半的PDF只有一頁內(nèi)容,大約90%的PDF在10頁及以下。所以我們把上限定為10頁,這意味著我們可以對將近90%的文檔進行索引,而且運用了足夠多的頁數(shù)。

自動圖像文本識別系統(tǒng)的組成

格式轉(zhuǎn)換

當我們開始用OCR提取文本后,需要確定如何對PDF文件中的圖像數(shù)據(jù)進行轉(zhuǎn)換:我們可以對文件流中的像素圖像目標分開提取,或者可以將整頁PDF轉(zhuǎn)換成光柵圖像數(shù)據(jù)。兩種方法都實踐之后,我們選擇了后者,因為我們已經(jīng)已經(jīng)有了穩(wěn)定的大型PDF轉(zhuǎn)換工具。使用這一系統(tǒng)的優(yōu)點如下:

它可以自然地擴展到其他需要翻譯或嵌有圖片的文件格式中,例如PowerPoint、PostScript和其他支持的格式。

轉(zhuǎn)換過程很自然地保留了文本符的順序和頁面中文本的位置,考慮了文件結(jié)構(gòu)。

在我們此前的Chromium項目中,服務(wù)器部分的轉(zhuǎn)換是基于PDFium完成的,這是一個由谷歌基于Chrome瀏覽器開源的項目。這一軟件同樣用于對全文的檢測,判斷文本是否只含有圖片,可以幫助我們決定是否進行OCR處理。

一旦我們開始轉(zhuǎn)換,每份文件中的內(nèi)容都會同時進行處理,我們將每一頁轉(zhuǎn)化成2048×2048的正方形像素,保留了原始的長寬比。

文件圖像分類

我們帶有OCR技術(shù)的機器學(xué)習(xí)模型最初是為了Dropbox的文件掃描功能創(chuàng)建的,目的是為了了解用戶最近是否上傳了可以“將其轉(zhuǎn)化成掃描格式”的圖片。分類器在創(chuàng)建時,在圖像特征上使用了一個線性分類器。模型在來源不同的數(shù)千張照片上訓(xùn)練,包括公共圖像、私人圖像以及Dropbox員工貢獻出的圖像。

最初,分類器偶爾會出現(xiàn)誤報的情況(即模型認為圖像中含有文本,但實際上沒有),例如在含有白墻、天際線、開闊的水域等照片中。雖然人類能輕松分辨這些景觀,但是對分類器來說它們看起來都是一樣的:都有平整開闊的背景和水平線。經(jīng)過每次迭代后,我們在訓(xùn)練集中添加“消極”標簽,可以顯著提高模型的分類精確度,從而高效地教會模型,雖然這些圖像有很多類似文本文件的特征,但它們沒有文本。

拐角檢測

確定圖像中文本的拐角并確定它的大致形狀是另一個重要步驟。給定轉(zhuǎn)角的坐標,圖片中的文章可以用簡單的幾何轉(zhuǎn)換進行修正。文本的拐角檢測元組使用另一個ImageNet深度卷積網(wǎng)絡(luò)創(chuàng)建的(DenseNet-121),其最頂層換成了一個回歸因子,可以生成四個拐角坐標。有了坐標,就能輕易地將文本修正成易于檢測的版本了。

token提取

OCR系統(tǒng)從拐角檢測階段獲取修正過的圖像作為輸入,并生成token檢測,包括針對tokens和文本的邊界框。這些大致按token的順序排列并添加到搜索索引中。如果有多個頁面,每頁上token的列表會連接在一起生成一個大表。

合并各元素

為了能在所有可以被索引的文件中進行紫銅圖像文本識別,我們需要一個系統(tǒng)能對輸入的文件執(zhí)行添加和編輯,并開始相關(guān)處理。這就需要用到Cape框架,這是一種靈活大型的處理框架,可以進行事件流的分時間處理。我們在OCR處理中加入了新的Cape工作器,稱為lambda,作為框架的一部分。

整個處理過程如下:

基于圖像中是否有符合要求的JPEG、GIF或PDF,檢查我們是否應(yīng)該繼續(xù)處理文本。

運行含有OCR技術(shù)的分了器,確定圖像中是否有文本。

運行文本拐角檢測器,對其進行修正。

用OCR引擎提取tokens。

向用戶的搜索索引中添加token列表。

結(jié)語

自動圖片文本辨認是計算機視覺和機器學(xué)習(xí)處理大型數(shù)據(jù)的重要案例。讓圖片中的文本可搜索只是深度了解文本結(jié)構(gòu)和內(nèi)容的第一步,有了這一成果,Dropbox可以幫助用戶更好地管理他們的文件。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關(guān)注

    關(guān)注

    39

    文章

    7859

    瀏覽量

    137870
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1700

    瀏覽量

    46127
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8438

    瀏覽量

    133085

原文標題:Dropbox用機器學(xué)習(xí),從海量圖片中對文本進行檢索

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機器視覺計算機視覺的關(guān)系簡述

    計算機視覺是一門獨立的學(xué)科,有著30年左右的歷史,集圖像處理、模式識別、人工智能技術(shù)為一體,著重服務(wù)于一幅或多幅圖像的計算機分析。機器
    發(fā)表于 05-13 14:57

    【我是電子發(fā)燒友】七步帶你認識計算機視覺(Computer Vision)

    `計算機視覺(Computer vision)是一門研究如何使機器“看”的科學(xué),更進一步的說,就是指用攝影機和計算機代替人眼對目標進行識別、跟蹤和測量等
    發(fā)表于 06-14 21:06

    什么是人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理

    領(lǐng)域,包括機器學(xué)習(xí)、深度學(xué)習(xí)數(shù)據(jù)挖掘、計算機視覺、自然語言
    發(fā)表于 03-22 11:19

    計算機視覺與圖像處理、模式識別、機器學(xué)習(xí)學(xué)科之間的關(guān)系

    計算機視覺(computer vision):用計算機來模擬人的視覺機理獲取和處理信息的能力。就是指用攝影機和電腦代替人眼對目標進行識別、跟
    的頭像 發(fā)表于 01-26 17:10 ?1.6w次閱讀

    深度學(xué)習(xí)后的計算機視覺應(yīng)用領(lǐng)域解析

    計算機視覺是使用計算機及相關(guān)設(shè)備對生物視覺的一種模擬,是人工智能領(lǐng)域的一個重要部分,它主要任務(wù)是通過對采集的
    發(fā)表于 07-22 16:49 ?1895次閱讀

    機器學(xué)習(xí)計算機視覺的前20個圖像數(shù)據(jù)

    計算機視覺使計算機能夠理解圖像和視頻的內(nèi)容。計算機視覺的目標是使人類視覺系統(tǒng)可以實現(xiàn)任務(wù)
    發(fā)表于 01-28 07:40 ?5次下載
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的前20個圖像<b class='flag-5'>數(shù)據(jù)</b>集

    計算機視覺重要性及如何幫助解決問題

      機器學(xué)習(xí)計算機視覺是一種基于人工智能的計算機視覺。基于人工智能的基于
    的頭像 發(fā)表于 04-06 16:49 ?3881次閱讀

    什么是機器視覺計算機

    機器視覺是用于通過分析視頻和圖像幫助計算機做出決策的硬件和軟件的集成。在制造業(yè)中,機器視覺通常用于生產(chǎn)線上,以便在產(chǎn)品的每個階段進行
    的頭像 發(fā)表于 12-26 17:51 ?1037次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>視覺</b><b class='flag-5'>計算機</b>?

    什么是機器視覺機器視覺計算機有什么關(guān)系?

    機器視覺計算機視覺有什么區(qū)別
    的頭像 發(fā)表于 06-05 09:28 ?1388次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>視覺</b>?<b class='flag-5'>機器</b><b class='flag-5'>視覺</b>與<b class='flag-5'>計算機</b>有什么關(guān)系?

    機器視覺計算機視覺的區(qū)別

    機器視覺計算機視覺的區(qū)別 機器視覺計算機
    的頭像 發(fā)表于 08-09 16:51 ?2101次閱讀

    計算機視覺與圖像處理、模式識別、機器學(xué)習(xí)學(xué)科之間的關(guān)系

    計算機視覺(computer vision):用計算機來模擬人的視覺機理獲取和處理信息的能力。就是指用攝影機和電腦代替人眼對目標進行識別、跟
    的頭像 發(fā)表于 01-18 16:41 ?661次閱讀

    機器視覺計算機視覺的區(qū)別

    在人工智能和自動化技術(shù)的快速發(fā)展中,機器視覺(Machine Vision, MV)和計算機視覺(Computer Vision, CV)作
    的頭像 發(fā)表于 06-06 17:24 ?1448次閱讀

    計算機視覺屬于人工智能嗎

    屬于,計算機視覺是人工智能領(lǐng)域的一個重要分支。 引言 計算機視覺是一門研究如何使計算機具有
    的頭像 發(fā)表于 07-09 09:11 ?1420次閱讀

    計算機視覺機器視覺區(qū)別在哪

    計算機視覺機器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計算機視覺
    的頭像 發(fā)表于 07-09 09:22 ?529次閱讀

    機器視覺計算機視覺有什么區(qū)別

    機器視覺的研究目標是讓機器具有類似人類的視覺能力,能夠自動、準確地完成各種視覺任務(wù)。
    的頭像 發(fā)表于 07-16 10:23 ?629次閱讀
    主站蜘蛛池模板: 黄色网址 在线播放 | 四虎海外在线永久免费看 | 欧美猛性 | 欧美不卡1卡2卡三卡老狼 | 污污的网站免费阅读 | 四虎www成人影院免费观看 | 噜噜影院无毒不卡 | 97精品伊人久久大香线蕉 | 欧美一区二区视频在线观看 | аⅴ资源天堂8在线 | 亚洲天天综合 | 海棠高h粗暴调教双性男男 韩国韩宝贝2020vip福利视频 | 免费在线视频你懂的 | 一区二区三区中文国产亚洲 | 好大好硬好爽免费视频 | 两性色午夜视频免费老司机 | 欧美成人影院 | www.午夜| 国产馆精品推荐在线观看 | 久青草国产高清在线视频 | 新版天堂中文网 | 日韩欧美亚洲一区 | 五月天婷婷爱 | 国产在线啪| 欧美视频亚洲色图 | 波多野结衣三个女人蕾丝边 | 全国男人的天堂天堂网 | 亚洲免费二区三区 | 国产精品一一在线观看 | 久久精品国产亚洲婷婷 | 三级在线观看视频网站 | 一级三级黄色片 | 日韩免费高清一级毛片在线 | 黄色a毛片 | 亚洲国内精品 | 天天综合天天添夜夜添狠狠添 | sihu影院永久在线影院 | 手机看片福利盒子久久 | 国产99热| 丁香在线视频 | 成年美女黄网站色大免费视频 |