在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

面向中文搜索的開放域文檔視覺問答任務解決方案

深度學習自然語言處理 ? 來源:哈工大SCIR ? 作者:齊樂 ? 2022-07-08 11:19 ? 次閱讀

摘要

開放域問答在現實生活中有著廣泛的應用,例如搜索引擎、企業問答、醫療問答等等。然而,現有開放域問答系統通常需要消耗大量成本針對不同格式的異構文檔(如PDF、網頁、掃描文檔等)設計特定的內容抽取算法,預先從文檔中抽取文本內容作為系統的信息來源。這不僅限制了現有系統的可擴展能力,還損失了文檔中的布局和視覺信息。為此,本文提出了一個全新的開放域文檔視覺問答任務,直接以異構文檔圖像集合為信息來源回答用戶提問,并提出了中文開放域文檔視覺問答數據集DuReadervis。DuReadervis共包含158K文檔圖像和15K對問答對,主要挑戰包括:1)長文檔理解;2)噪聲干擾;和3)多片段答案抽取。

1. 背景

現有開放域問答系統主要以文本集合作為信息來源回答用戶提問,如圖1所示,現有系統通常需要花費大量成本根據不同的文檔格式設計特定的內容抽取算法,預先從異構文檔中抽取文本內容。這無疑限制了開放域問答系統的可擴展(scalable)能力。一個可擴展的問答系統應能同時處理各種格式文檔,還可以輕松地遷移到尚未見過的文檔格式中。此外,現有系統由于只抽取了文本內容,因此會損失原始文檔中極有價值的布局特征(如字體大小、列表格式或表格格式等)和視覺特征(如文本顏色、圖像等)。

圖1 開放域問答系統通用流程,需要根據文檔格式和來源設計不同的內容抽取器抽取文本內容

2. 開放域文檔視覺問答

為了提升開放域問答系統的可擴展能力,同時充分利用異構文檔中的布局和視覺信息,本文提出了一個全新的問答任務,即開放域文檔視覺問答(Open-domain Document Visual Question Answering,Open-domain DocVQA)。該任務從視覺角度描述異構文檔,直接以從異構文檔轉換得到的文檔圖像集合為信息來源來回答用戶提問。如圖2所示,該任務通過通用抽取器(如OCR)抽取文檔圖像中的文本內容和布局結構,然后將這些信息連同文檔圖像的視覺特征應用于后續流程中。

圖2 開放域文檔視覺問答通用流程,將不同格式文檔視為文檔圖像,只需類似于OCR的通用抽取器抽取其中的文本內容和布局特征

與開放域問答類似,該任務也包含兩個階段:

文檔視覺檢索(Document Visual Retrieval,DocVRE):從原始的文檔圖像集合中檢索和問題相關的小規模候選文檔圖像集合

文檔視覺問答(Document Visual Question Answering,DocVQA):根據檢索結果抽取單個或多個文本片段作為問題答案

3. DuReadervis

為了推動開放域文檔視覺問答的發展,本文從百度搜索日志中收集用戶向搜索引擎提出的真實問題和相關網頁并進行了問答對的標注,提出中文開放域文檔視覺問答數據集DuReadervis。相比于現有的文檔視覺問答數據集,DuReadervis的問題面向真實用戶提問,可以滿足開放域的信息搜索需求。此外,DuReadervis中的文檔圖像均來自于互聯網網頁,包含豐富的文本內容和視覺特征以及復雜多樣的布局結構,而且DuReadervis需要抽取格式復雜的長答案,如多片段文本型答案、列表型答案和表格型答案。表1對比了DuReadervis和現有文檔視覺問答數據集。

表1 DuReadervis與其他文檔視覺問答數據集的對比

3.1 數據集統計分析

DuReadervis共包含158K文檔圖像和15K問答對,其中訓練集包括11K問答對;開發集包括1.5K問答對;測試集包括2.5K問答對。

文檔圖像

DuReadervis中的文本內容的平均長度和文檔圖像的平均大小要遠超于其他數據集,表明DuReadervis中的文檔圖像包含更豐富的文本內容和視覺特征。此外,DuReadervis中的文檔圖像來自于17000多個隨機網站,文檔主題和布局結構多樣性高。另一方面,通常情況下網頁中會包含大量的噪聲信息,會對模型理解文檔產生干擾。

問題和答案

現有文檔視覺問答數據集中的問題主要為事實類問題。而在DuReadervis中,問題類型同時包含事實類和非事實類問題。本文隨機篩選了200條問題人工進行分類,發現43%的問題是非事實類問題。DuReadervis中的答案平均長度也要遠長于其他數據集中的答案平均長度。此外,DuReadervis的答案格式復雜,包含約40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中,很多答案都是不連續的,需要抽取多片段答案。

表2 數據集統計特征

3.2 數據集挑戰

總體而言,DuReadervis的主要挑戰包括以下三點:

長文檔理解:DuReadervis中的文檔圖像均轉換自互聯網頁面,包含更長的文本內容、更豐富的視覺特征和復雜的布局結構;

噪聲干擾:來自于網頁的文檔圖像中會包含大量噪聲信息,例如廣告、相關推薦等,增大了文檔圖像的理解難度;

多片段答案抽取:DuReadervis中的答案格式更加復雜,包含文本、列表和表格型答案,需要模型抽取多片段長答案。

3.3 數據集樣例

傳統的開放域問答系統可以通過設計特殊的內容抽取算法可以很好地去除表格外的噪聲干擾,但提取的文本內容很難保留表格的布局結構,系統很難得知不同單元格文本內容間的語義關聯。相比之下,開放域文檔視覺問答系統則可以通過表格的布局特征更輕松地建模單元格文本內容間的語義關聯,通過“站點”這一列標題找到問題的答案。

4. 基線方法

本文為DuReadervis提出了一個基線方法。該方法包括三部分:

基于PaddleOCR的通用內容抽取:利用PaddleOCR技術從文檔圖像中抽取文本內容和布局結構作為系統輸入;

基于BM25的文檔視覺檢索:根據抽取出的文本內容構建檢索庫,再利用BM25算法檢索相關文檔圖像;

基于層次化LayoutXLM的文檔視覺問答:為了從候選文檔圖像中抽取問題答案,本文提出了層次化LayoutXLM模型。如圖4所示,該模型利用層次化建模的方式建模DuReadervis中的長文本內容,并通過基于CRF的序列標注算法抽取多片段答案。其中,LayoutXLM[4]是以文本、布局和視覺特征為輸入的面向多語言跨模態文檔的預訓練模型。

圖4 層次化LayoutXLM模型架構

5. 實驗

5.1 實驗設置

為了驗證所提方法的有效性,本文在文檔視覺問答和開放域文檔視覺問答任務上進行了實驗,將層次化LayoutXLM與基于純文本預訓練模型的層次化RobertaXLM[5]以及層次化BERT[6]進行對比。其中,在開放域文檔視覺問答實驗中,本文使用BM25算法檢索回與問題最相關的文檔圖像進行答案抽取。兩個任務的評價指標均為F1和Rouge-L。

5.2 實驗結果

如表3和表4所示,相比于基于純文本預訓練模型的方法,層次化LayoutXLM的性能有明顯提高,然而其整體性能仍與人類表現有一定差距。這表明,一方面布局結構和視覺特征有助于模型理解文檔圖像,另一方面無論是文檔視覺問答亦或是開放域文檔視覺問答均有著較大的提升空間。

6. 結論

本文為了提高開放域問答系統的可擴展能力,使其可以用較低的成本以不同格式的異構文檔作為其信息來源,提出了一個全新的開放域文檔視覺問答任務,直接以從異構文檔轉換得到的文檔圖像集合來回答用戶提問。為了推動該任務的發展,本文提出了中文開放域文檔視覺問答數據集DuReadervis,包含158K文檔圖像和15K問答對。DuReadervis包含三個挑戰:1)長文檔理解;2)噪聲干擾;3)多片段答案抽取。同時,本文提出了一個基線系統并進行了實驗,實驗結果表明現有基線系統和人類表現仍有一定差距,開放域文檔視覺問答任務仍有較大的提升空間。除研究目的外,開放域文檔視覺問答的相關技術已初步應用于諸如汽車、電子、銀行等行業的問答系統中,并在飛槳AI Studio上開放。

審核編輯:郭婷


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 汽車電子
    +關注

    關注

    3029

    文章

    8046

    瀏覽量

    168068
  • 數據集
    +關注

    關注

    4

    文章

    1212

    瀏覽量

    24903

原文標題:ACL2022 | 面向中文真實搜索場景的開放域文檔視覺問答數據集

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    OpenAI免費開放ChatGPT搜索功能

    近日,OpenAI宣布了一項重大決策:向所有用戶免費開放ChatGPT搜索功能。這一舉措無疑將為用戶帶來更加高效、智能的搜索體驗。 與谷歌等傳統搜索引擎的收錄模式相比,ChatGPT
    的頭像 發表于 02-06 14:35 ?155次閱讀

    機器視覺運動控制一體機在LED燈噴膠解決方案

    正運動LED燈視覺噴膠解決方案
    的頭像 發表于 01-17 11:08 ?165次閱讀
    機器<b class='flag-5'>視覺</b>運動控制一體機在LED燈噴膠<b class='flag-5'>解決方案</b>

    機器視覺運動控制一體機在視覺SCARA天地蓋貼合的解決方案

    正運動視覺SCARA天地蓋貼合的解決方案
    的頭像 發表于 01-07 10:09 ?159次閱讀
    機器<b class='flag-5'>視覺</b>運動控制一體機在<b class='flag-5'>視覺</b>SCARA天地蓋貼合的<b class='flag-5'>解決方案</b>

    Litera Drafting:幫助改進發布文檔的方式(十)

    產品介紹 contentCrawler是一種光學字符識別(OCR)和文檔壓縮解決方案,可識別資源庫中不可搜索文檔,并將其轉換為大小可控、可進行文本
    的頭像 發表于 01-06 10:57 ?141次閱讀

    構建高效搜索解決方案,Elasticsearch &amp; Kibana 的完美結合

    前言 構建高效搜索解決方案,FlexusX 服務器與 Elasticsearch & Kibana 的完美結合,為企業帶來云端搜索新體驗。FlexusX 實例以其卓越性能與靈活擴展性,確保高并發搜索
    的頭像 發表于 12-27 13:48 ?145次閱讀
    構建高效<b class='flag-5'>搜索解決方案</b>,Elasticsearch &amp; Kibana 的完美結合

    安森美機器視覺系統解決方案

    機器視覺廣泛應用于工業領域,涵蓋眾多應用場景。在制造業中,利用機器視覺執行的任務有:對子組件進行最終檢查,查驗零件有無潛在制造缺陷等等。在自動化領域,機器視覺在引導機器人方面發揮著重要
    的頭像 發表于 11-14 09:53 ?363次閱讀
    安森美機器<b class='flag-5'>視覺</b>系統<b class='flag-5'>解決方案</b>

    TE一站式解決方案,助您“”見未來

    在汽車電子系統中, “”的概念源于車輛功能的不斷增加和電子電氣架構的迭代升級。傳統的分布式控制架構難以高效管理眾多功能,因此,車輛系統逐漸被劃分為不同的“功能”(如動力、車身
    的頭像 發表于 11-04 10:20 ?358次閱讀

    面向功能安全應用的汽車開源操作系統解決方案

    在SAE 2024國際汽車安全大會上,Elektrobit的Linux專家王紅燕在操作系統與芯片技術的分論壇上為大家帶來了“面向功能安全應用的汽車開源操作系統解決方案”主題演講。
    的頭像 發表于 09-27 09:21 ?577次閱讀
    <b class='flag-5'>面向</b>功能安全應用的汽車開源操作系統<b class='flag-5'>解決方案</b>

    面向熱插拔應用的 I2C 解決方案

    電子發燒友網站提供《面向熱插拔應用的 I2C 解決方案.pdf》資料免費下載
    發表于 09-09 10:03 ?1次下載
    <b class='flag-5'>面向</b>熱插拔應用的 I2C <b class='flag-5'>解決方案</b>

    基于VPLC7機器視覺運動控制一體機的UVW視覺對位解決方案

    UVW視覺對位解決方案
    的頭像 發表于 08-01 09:54 ?637次閱讀
    基于VPLC7機器<b class='flag-5'>視覺</b>運動控制一體機的UVW<b class='flag-5'>視覺</b>對位<b class='flag-5'>解決方案</b>

    尋找低功耗、寬溫的開關解決方案?Standex Electronics干簧開關是您的理想選擇!

    尋找低功耗、寬溫的開關解決方案?Standex Electronics干簧開關是您的理想選擇!
    的頭像 發表于 06-12 13:24 ?3055次閱讀
    尋找低功耗、寬溫<b class='flag-5'>域</b>的開關<b class='flag-5'>解決方案</b>?Standex Electronics干簧開關是您的理想選擇!

    光庭信息推出了基于S32G+8295+J5新架構的中央解決方案

    在智能化浪潮席卷汽車行業的今天,光庭信息作為“軟件定義汽車”的引領者,推出了基于S32G+8295+J5新架構的中央解決方案
    的頭像 發表于 05-07 14:33 ?885次閱讀

    基于VPLC711的曲面外觀檢測XYR運動控制解決方案

    自動化設備核心任務; ●多維位置同步輸出PSO,可在連續加工過程中精準控制點膠膠量和激光能量等參數; ●開放式IPC形態實時軟控制器/軟PLC,可靈活集成運動控制+視覺一體化解決方案
    發表于 04-16 17:58

    開放式高實時高性能PLC控制器解決方案-基于米爾電子STM32MP135

    實時高性能需求尤其突出。面對以上挑戰,合作伙伴翌控科技基于米爾STM32MP135開發板發布開放式高實時高性能PLC控制器解決方案,將高精準數據采集、預處理、存儲、通信與高實時控制融為一體,為控制系統
    發表于 03-07 20:06

    常見的視覺編碼器有哪些 圖像編碼和視覺編碼的區別

    視覺編碼器是一種能夠處理視頻理解任務的模型,它能夠通過單一凍結模型,處理各種視頻理解任務,包括分類、本地化、檢索、字幕和問答等。
    的頭像 發表于 02-26 14:24 ?2462次閱讀
    主站蜘蛛池模板: 夜夜爱网站 | 国产精品www夜色影视 | 亚洲 美腿 欧美 偷拍 | 亚洲影院手机版777点击进入影院 | 亚洲精品午夜久久aaa级久久久 | 日本日b视频 | 一级特级aaaa毛片免费观看 | 国产精品免费看久久久久 | 狠狠成人| 免费的黄色大片 | 特黄特色大片免费视频大全 | 丁香婷婷社区 | 4438x色| 人人草97 | 四虎影院中文字幕 | 热99久久| 美女黄页黄频 | 日本视频一区在线观看免费 | 婷婷亚洲视频 | 加勒比一区二区 | 综合久久2o19| 豆国产97在线 | 欧洲 | 在线观看www妖精免费福利视频 | 婷婷色人阁 | 天天爱天天做天天爽夜夜揉 | 亚洲伊人久久大香线蕉综合图片 | 手机看片1024在线观看 | 国产人人干| 深深激情网 | 中文字幕在线天堂 | 香蕉免费在线视频 | 天天摸天天做天天爽 | 夜色福利 | 午夜毛片视频 | 色综合久| 午夜精品在线 | 天天综合日日噜噜噜 | 精品一区二区三区在线视频 | 黄色一级视频欧美 | 成人国产在线视频 | 成人网在线看 |