在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TableBank:高質量的標注表格數據集

電子工程師 ? 來源:lp ? 2019-04-04 17:19 ? 次閱讀

近年來,自然語言處理(NLP,Natural Language Processing)技術的快速發展大力推動了人工智能的整體進展。尤其是在過去三年,機器學習給NLP所帶來的進步,使計算機在機器翻譯、閱讀理解、語法檢查等任務上,都達到了可以媲美人類的水平。

不過相比現實世界中的實際應用環境,研究中的NLP任務相對單純。事實上,在NLP已經取得很多突破的今天,機器卻連企業文檔中最常見的Word、PDF也無法從頭“讀”到尾。如何能夠讓機器理解文檔中的標題、段落、腳注、圖片、表格等內容信息,是NLP能夠處理更多實際應用場景的第一步。

最近,微軟亞洲研究院自然語言計算組發表了一篇論文——TableBank: Table Benchmark for Image-based Table Detection and Recognition,致力于解決文檔中的表格檢測與表格信息識別,并首次在業界同時開源表格檢測和表格結構識別數據集,供研究人員使用。

TableBank:高質量的標注表格數據集

雖然人類在視覺上可以很容易地判斷出一個表格,但由于表格的布局、樣式多種多樣,對于機器而言判斷“何為表格”以及表格中內容之間的關系卻并不容易。傳統的基于規則的表格識別方式,一旦換一份文檔就需要大量在文檔后臺的手工操作;而現有的機器學習方法,又無法獲得大量有效的標注數據,很難支持實際場景中的應用。于是,TableBank應運而生。

TableBank是一個表格檢測與識別的數據集,基于公開的、大規模的Word文檔和LaTex文檔,通過弱監督方法創建而來。與傳統的弱監督訓練集不同,TableBank不僅數據質量高,而且數據規模比之前的人工標記的表格分析數據集大幾個數量級,其表格數據量達到了41.7萬。

然而要讓機器讀懂表格,首先要能夠從文檔中識別哪些是表格,隨后再去識別表格區域內的信息。因此TableBank的實現主要分兩步走:一,表格檢測(Table Detection);二,表格結構識別(Table Structure Recognition)。

表格檢測

如何能自動檢測到文檔中的表格?

通常每個Word文檔都有一個對應的Office XML源代碼文件,在代碼中對應表格的位置,可以對其進行修改,讓表格加上邊框,以此來區分表格與文檔的其他部分。對于LaTex文檔(由LaTex編輯器生成的文檔),則可以直接使用特殊命令將邊界框添加到表格中,以此來確定表格在文檔中的位置。

然后再將Word和LaTex文檔中的表格轉化為相對應的PDF頁面(如下圖所示),便可獲得帶有表格信息的PDF頁面,且該文檔對表格的位置已經進行了標注。這些標注過的表格,都可以放到訓練數據集中,并且越來越多。目前,該表格檢測模型采用了計算機視覺研究中常用的Faster R-CNN 算法。

表格結構識別

表格結構識別的目的是識別表格文檔中的文字信息、表格中行和列的布局信息,以及理解行與列之間的關系。從PDF或圖像中識別出文字,大家的第一反應都是使用OCR(光學字符識別)技術,確實OCR技術可以識別出文字,但它只能將其轉換成文本格式,再按照在圖像中出現的先后順序依次填入到可編輯的文檔中,而無法確定文字之間的邏輯關系,更難于理解表格的行、列信息。

在TableBank的論文里,研究員們一方面結合OCR技術,識別出表格里每個單元格中的文本內容,另一方面,使用了創新方法去自動識別出表格在文檔中的位置,以及行與列的布局,明確表格中行列交叉所形成的單元格之間的關系。

對于形式、來源不同的表格,研究員們給出了相應的方法來實現表格結構的識別。Word文檔中的表格可直接將XML源代碼文件轉換為HTML標記序列;LaTex文檔則先生成XML再轉換為HTML,然后框定表格中行和列的位置。這樣表格中的行、列信息也就有了標注數據。

目前,TableBank數據集已經在GitHub社區開源,其中表格檢測數據有41.7萬個,表格結構識別數據有14.5萬個。

數據集地址:https://github.com/doc-analysis/TableBank。

表格檢測與識別:文檔智能分析的第一步

高質量、大規模、帶有標注的表格數據集的建立,意味著表格識別相關的機器學習訓練可大規模開展,并將逐步提升表格識別的準確率。集成了計算機視覺、OCR等跨領域技術的TableBank為NLP在實際場景中的應用,做好了智能分析表格數據的前期準備。

未來,在企業文檔分析中,無論是掃描件還是紙質文件中的表格識別,都可以基于TableBank訓練的模型進行。同樣的場景也可以延伸到由PDF轉成Word的文檔中的表格轉換,企業年報、員工報銷發票中的表格信息提取等等。

當然,表格只是各類文檔中的一小部分,表格檢測與識別是NLP在文檔分析研究領域的第一步,文檔中的標題、段落、腳注、圖片等其他非結構化數據的檢測與識別,也是微軟亞洲研究院自然語言計算組的研究范疇。要想真正實現對文檔里的內容的智能分析和理解,還有很多研究課題亟待解決。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1220

    瀏覽量

    25192
  • 自然語言處理

    關注

    1

    文章

    625

    瀏覽量

    13919
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22413

原文標題:這是一份數據量達41.7萬開源表格數據集

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    protel輸出高質量gerber

    圖文并茂一步一步手把手教你輸出高質量的gerber傻瓜式教學。。。。[hide] [/hide]
    發表于 12-12 15:43

    高質量C++、C編程指南

    高質量C++、C編程指南
    發表于 08-06 11:58

    高質量C&C++

    高質量C&C++
    發表于 08-16 19:45

    高質量C++&C 編程指南

    高質量C++&C 編程指南
    發表于 08-19 23:37

    原版PIC實戰項目-C(高質量PDF版本)

    英文原版,高質量保證。
    發表于 07-10 21:42

    高質量C語言編程

    高質量c語言,精,精,精,精華
    發表于 07-22 13:48

    編寫高質量C語言代碼

    編寫高質量C語言代碼 編寫高質量C語言代碼 編寫高質量C語言代碼
    發表于 07-31 17:47

    林銳《高質量C語言編程》

    林銳《高質量C語言編程》
    發表于 08-17 12:10

    高質量C++與C編程指南

    高質量C++與C編程指南
    發表于 03-09 10:54

    高質量編程

    干貨,《495個C語言問題》、《華為內部程序設計編碼規范》、《C語言:陷阱和缺陷》、《高質量C編程[林銳]》
    發表于 02-27 19:39

    【下載】高質量干貨-22本高質量EMC電磁兼容性設計資料

    22本高質量EMC電磁兼容性設計資料請君自取總體太大壓縮成兩個壓縮包。希望這些內容能對大家在設計上有所幫助!
    發表于 03-20 00:02

    請問怎么才能設計出高質量的印制線路板?

    怎么才能設計出高質量的印制線路板?
    發表于 04-23 06:57

    MIND:高質量的新聞推薦數據

    高質量基準數據的缺乏限制了新聞推薦領域的研究進展。因此,微軟亞洲研究院聯合微軟新聞產品團隊在 ACL 2020上發布了一個大規模的英文新聞推薦數據
    的頭像 發表于 01-07 14:42 ?8228次閱讀

    要實現高質量AI診斷,需要大量的高質量標注圖像進行前期的算法訓練

    發展情況看,有效的人工智能算法大多聚集于存在大量標準化數據的病種,畢竟要實現高質量AI診斷,需要大量的高質量標注圖像進行前期的算法訓練。 這一數據
    的頭像 發表于 01-28 15:28 ?2960次閱讀
    要實現<b class='flag-5'>高質量</b>AI診斷,需要大量的<b class='flag-5'>高質量</b><b class='flag-5'>標注</b>圖像進行前期的算法訓練

    如何構建高質量的大語言模型數據

    構建高質量的大語言模型數據是訓練強大自然語言處理模型的關鍵一步。以下是一些關鍵步驟和考慮因素,有助于創建具有多樣性、準確性和時效性的數據
    的頭像 發表于 09-11 17:00 ?2079次閱讀
    主站蜘蛛池模板: 色综合狠狠| 在线天堂中文有限公司 | 国产三级精品最新在线 | 亚洲色图在线播放 | 色妞色综合久久夜夜 | 国产三级日本三级韩国三级在线观看 | 亚洲免费成人在线 | 黄色国产视频 | 好紧好湿好黄的视频 | 国产亚洲精品久久午夜 | 美女操出水| 国色天香网在线 | 欲色淫香 | 午夜影院操| 国产亚洲精品激情都市 | 射在老师的里面真爽 | 日本巨黄视频 | 美女被免网站在线视频 | 免费一级毛片私人影院a行 免费一级毛片无毒不卡 | 男人的天堂欧美 | 欧美污视频网站 | 亚洲一卡二卡三卡 | 久久夜色tv网站 | 特黄特色 | 夜夜夜夜操 | 中国一级特黄高清免费的大片 | 欧美性videofree精品 | 爱爱视频天天干 | 国产性做久久久久久 | 手机看片福利日韩国产 | 黄网免费观看 | 717影院理伦午夜论八戒 | 久久久久久久性潮 | jizz 大全欧美 | 在线色| 狠狠躁夜夜躁人人爽天天3 狠狠躁夜夜躁人人爽天天段 | 韩国三级观影久久 | 国模小丫大尺度啪啪人体 | 欧美一区二区三区不卡视频 | 欧美在线bdsm调教一区 | 轻点灬大ji巴太大太深了 |