深度學習是一個計算繁重的過程。 降低成本一直是 Data curation 的一大挑戰。 關于深度學習神經網絡大功耗的訓練過程,已經有研究人員發表了其碳足跡(溫室氣體排放集合)的報告。
情況只會越來越復雜,因為我們正迎來一個充斥著大量的機器學習應用程序的未來。但所幸的是,我們也看到一些能夠讓訓練神經網絡的過程變得更高效的策略正在被發明出來。
以更改單個輸入來更新神經網絡的預測可能會降低其他輸入的性能。 當前,業內通常使用兩種解決方法:
1、在原始數據集上重新訓練模型,并補充解決錯誤的樣本;
2、使用手動緩存(例如查找表)來代替對有問題的樣本的模型預測;
雖然簡單,但是這種方法對于輸入中的細微變化并不穩健。 例如,在自然語言處理任務中,它不會概括出同一對象的不同觀點或釋義。 因此,在ICLR 2020的一篇正在審核的論文中,尚未公開姓名的作者提出了一種稱為“可編輯訓練”的替代方法。
神經網絡的“修補”
可編輯神經網絡也屬于元學習范例,因為它們基本上是“學習允許有效修補”。
有效的神經網絡修補問題不同于持續學習,因為研究人員認為,可編輯的訓練設置本質上不是順序的。
在這種情況下進行編輯意味著在不影響其他輸入的情況下,更改輸入對子集的模型預測(與錯誤分類的對象相對應)。
為此,構想出了編輯器功能,即一種給定約束的參數功能。 換句話說,非正式地,這是一個調整參數以滿足給定約束的函數,該約束的作用是強制執行模型行為所需的更改。
對于圖像分類實驗,使用標準訓練/測試分割獲取小的CIFAR-10數據集。訓練數據集進一步增加了隨機裁剪和隨機水平翻轉。
在此數據集上訓練的所有模型都遵循ResNet-18架構,并使用具有默認超參數的Adam優化器。
為深度神經網絡實現Edit的自然方法是使用梯度下降。 根據作者的觀點,標準的梯度下降編輯器可以用動量(momentum)、自適應學習率(adaptive learning rates)進一步增強。
但是,在許多實際情況下,絕大部分這些編輯都不會發生。 例如,比起“卡車”或“船”,以前被分類為“飛機”的圖像更有可能需要編輯為“鳥”。 為了解決這個問題,作者采用了自然對抗樣本(NAE)數據集。
該數據集包含7500個自然圖像,這些圖像很難用神經網絡進行分類。 如果不進行編輯,經過預訓練的模型可以正確地預測NAE中不到1%的數據,但是正確的答案可能在按預測概率排序的前100個類別中。
總結
可編輯訓練與對抗訓練有些相似,后者是對抗攻擊防御的主要方法。 這里的重要區別在于,可編輯訓練旨在學習模型,可以有效地糾正某些樣本上的行為。
同時,對抗訓練會產生對某些輸入擾動具有魯棒性的模型。 但人們可以使用可編輯訓練來針對合成和自然對抗示例有效地覆蓋模型漏洞。
在許多深度學習應用程序中,單個模型錯誤可能導致毀滅性的財務、名譽乃至生命危險。 因此,至關重要的是要盡快糾正出現的模型錯誤。
可編輯訓練,一種與模型無關的訓練技術,可鼓勵對訓練后的模型進行快速編輯,并且這種方法的有效性對于大規模圖像分類和機器翻譯任務也很有希望。
來源:愛吧機器人網
評論