有声,盗墓笔记txt全集下载,我欲封天

摘要

作為一種有效的策略，數據增強 (data augmentation, DA) 緩解了深度學習技術可能失敗的數據稀缺情況。

它廣泛應用于計算機視覺，然后引入自然語言處理，并在許多任務中取得了改進。DA方法的主要重點之一是提高訓練數據的多樣性，從而幫助模型更好地泛化到看不見的測試數據。

在本次綜述中，我們根據增強數據的多樣性將 DA 方法分為三類，包括改寫（paraphrasing）、噪聲（noising）和采樣（sampling）。我們的論文著手根據上述類別詳細分析 DA 方法。此外，我們還介紹了它們在 NLP 任務中的應用以及面臨的挑戰。

介紹

數據擴充是指通過添加對現有數據稍作修改的副本或從現有數據中新創建的合成數據來增加數據量的方法。這些方法緩解了深度學習技術可能失敗的數據稀缺情況，因此 DA 最近受到了積極的關注和需求。數據增強廣泛應用于計算機視覺領域，例如翻轉和旋轉，然后引入自然語言處理（NLP）。與圖像不同，自然語言是離散的，這使得在 NLP 中采用 DA 方法更加困難且探索不足。

最近提出了大量的 DA 方法，對現有方法的調查有利于研究人員跟上創新的速度。之前的兩項調查都提供了 NLP DA 的鳥瞰圖。他們直接按照方法來劃分類別。因此，這些類別往往過于有限或過于籠統，例如，反向翻譯和基于模型的技術。Baier在 DA 上發布僅用于文本分類的綜述。在本次調研中，我們將全面概述 NLP 中的 DA 方法。我們的主要目標之一是展示 DA 的本質，即為什么數據增強有效。為了促進這一點，我們根據增強數據的多樣性對 DA 方法進行分類，因為提高訓練數據的多樣性是 DA 有效性的主要推動力之一。我們將 DA 方法分為三類，包括改寫、噪聲和采樣。

該論文著手根據上述類別詳細分析 DA 方法。此外，還介紹了它們在 NLP 任務中的應用以及面臨的挑戰。

具體內容

一共分為五大部分。

全面回顧了這三個類別，并分析了這些類別中的每一種方法。還介紹了方法的特征，例如粒度和級別：

基于改寫（paraphrasing）的方法

基于對句子的適當和有限制的更改，生成與原始數據具有有限語義差異的增強數據。增強數據傳達與原始形式非常相似的信息。

基于噪聲（noising）的方法

在保證有效性的前提下加入離散或連續的噪聲。這些方法的重點是提高模型的魯棒性。

基于抽樣（sampling）的方法

掌握數據分布并對其中的新數據進行抽樣。這些方法輸出更多樣化的數據，滿足基于人工啟發式和訓練模型的下游任務的更多需求。

改寫數據增強技術包括三個層次：詞級、短語級和句子級

使用語言模型進行改寫

使用規則進行改寫

機器翻譯改寫

通過模型生成進行改寫

五種基于噪聲的方法的示例

基于采樣的模型

不同DA方法的特點。Learnable表示方法是否涉及模型訓練；online 和 offline 表示 DA 過程是在模型訓練期間還是之后