古风,欢乐颂第三季,有声

本文簡要介紹ACM MM 2022錄用論文“DiT： Self-supervised Pre-training for Document Image Transformer”［1］的主要工作。該論文是2022年微軟亞研院發表的LayoutLM V3［2］的前身工作，主要解決了文檔領域中標注數據稀少和以視覺為中心的文檔智能任務骨干網絡的預訓練問題。

一、研究背景

近年來自監督預訓練技術已在文檔智能領域進行了許多的實踐，大多數技術是將圖片、文本、布局結構信息一起輸入統一的Transformer架構中。在這些技術中，經典的流程是先經過一個視覺模型提取額外文檔圖片信息，例如OCR引擎或版面分析模型，這些模型通常依賴于有標注數據訓練的視覺骨干網絡。已有的工作已經證明一些視覺模型在實際應用中的性能經常受到域遷移、數據分布不一致等問題的影響。而且現有的文檔有標注數據集稀少、樣式單一，訓練出來的骨干網絡并非最適用于文檔任務。因此，有必要研究如何利用自監督預訓練技術訓練一個專用于文檔智能領域的骨干網絡。本文針對上述問題，利用離散變分編碼器和NLP領域的常用預訓練方式實現了文檔圖像的預訓練。

圖1具有不同布局和格式的視覺豐富的業務文檔，用于預培訓DiT

二、DiT原理簡述

2.1總體結構

圖2 DiT的總體架構

Fig 2是DiT的整體結構。DiT使用ViT［3］作為預訓練的骨干網絡，模型的輸入是圖像Patch化后的Embedding特征向量，Patch的數量和離散變分編碼器的下采樣比例有關。輸入經過ViT后輸出到線性層進行圖像分類，分類層的大小是8192。預訓練任務和NLP領域的完型填空任務一致，先對輸入的Patch隨機掩膜，在模型輸出處預測被遮蓋的Patch對應的Token，Token由Fig 2 中左側的離散變分編碼器生成，作為每個Patch的Label，預訓練過程使用CE Loss監督。

2.2 離散變分編碼器dVAE

離散變分編碼器作為Image Tokenizer，將輸入的Patch Token化，來源于論文DALL-E［4］，在預訓練任務開始前需要額外訓練。本文使用數據集IIT-CDIP［5］重新訓練了DALL-E中的離散變分編碼器以適用于文檔任務。在預訓練任務中只使用到編碼器的部分，解碼器不參與預訓練，編碼器將輸入圖片下采樣到原來的1/8，例如輸入尺度為112*112，那編碼后的Token Map為14*14，此時的Map大小，應與ViT輸入Patch數保持一致。

2.3 模型微調