當(dāng)使用監(jiān)督學(xué)習(xí)(Supervised Learning)對大量高質(zhì)量的標(biāo)記數(shù)據(jù)(Labeled Data)進(jìn)行訓(xùn)練時,神經(jīng)網(wǎng)絡(luò)模型會產(chǎn)生有競爭力的結(jié)果。例如,根據(jù)Paperswithcode網(wǎng)站統(tǒng)計,在ImageNet這一百萬量級的數(shù)據(jù)集上,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法可以達(dá)到超過88%的準(zhǔn)確率。然而,獲取大量有標(biāo)簽的數(shù)據(jù)往往費時費力。
為了緩解對標(biāo)注數(shù)據(jù)的依賴,「半監(jiān)督學(xué)習(xí)」(Semi-supervised Learning/SSL)致力于在僅有「少量」的標(biāo)注數(shù)據(jù)時利用「大量無標(biāo)簽」數(shù)據(jù)(Unlabeled Data)來提升模型的泛化性。半監(jiān)督學(xué)習(xí)亦是機器學(xué)習(xí)的重要主題之一。深度學(xué)習(xí)之前,這一領(lǐng)域的研究者們提出了諸如半監(jiān)督支持向量機、熵正則化、協(xié)同訓(xùn)練等經(jīng)典算法。
深度半監(jiān)督學(xué)習(xí)
隨著深度學(xué)習(xí)的興起,「深度」半監(jiān)督學(xué)習(xí)算法也取得了長足的進(jìn)步。同時,包括Google、Meta和微軟等在內(nèi)的科技巨頭也認(rèn)識到了半監(jiān)督學(xué)習(xí)在實際場景中的巨大潛力。例如,Google利用噪聲學(xué)生訓(xùn)練(Noisy student training)這一半監(jiān)督算法提高了其在搜索方面的性能[1]。當(dāng)前最具代表性的半監(jiān)督算法通常對標(biāo)注數(shù)據(jù)使用交叉熵?fù)p失進(jìn)行訓(xùn)練,對無標(biāo)注數(shù)據(jù)使用「一致性正則」技術(shù)(Consistency Regularization)鼓勵對輸入擾動進(jìn)行不變預(yù)測。例如,Google在NeurIPS 2020提出的FixMatch[2]算法利用增強錨定(Augmentation Anchoring)和固定閾值(Fixed Thresholding)技術(shù)來增強模型對不同強增強數(shù)據(jù)的泛化性和減少噪聲偽標(biāo)簽(Noisy Pseudo Labels)的影響。在訓(xùn)練中,F(xiàn)ixMatch過濾了低于用戶指定(user-provided / pre-defined)閾值的無標(biāo)簽數(shù)據(jù)。
微軟亞洲研究院與東京工業(yè)大學(xué)等在NeurIPS 2021合作提出的FlexMatch[3]則考慮到了「不同類」之間的學(xué)習(xí)難度不同,因此提出了「課程偽標(biāo)簽」(Curriculum Pseudo Labeling)技術(shù)對于不同類應(yīng)該采用不同的閾值。具體來說,對于容易學(xué)習(xí)的類別,模型應(yīng)該設(shè)置高閾值以降低噪聲偽標(biāo)簽的影響;對于難學(xué)習(xí)的類,模型應(yīng)該設(shè)置低閾值鼓勵該類的擬合。每個類的學(xué)習(xí)難度評估取決于落入該類且高于固定值的未標(biāo)記數(shù)據(jù)樣本的數(shù)量。
同時,研究員和這些學(xué)校還合作提出了一個統(tǒng)一的基于Pytorch的半監(jiān)督方法代碼庫「TorchSSL」[4],對該領(lǐng)域的深度方法、常用數(shù)據(jù)集、和基準(zhǔn)結(jié)果進(jìn)行了統(tǒng)一的支持。
當(dāng)前「半監(jiān)督學(xué)習(xí)代碼庫存在的問題與挑戰(zhàn)」
盡管半監(jiān)督學(xué)習(xí)的發(fā)展如火如荼,但是,研究員們注意到目前大部分半監(jiān)督論文「只關(guān)注」計算機視覺 (CV) 分類任務(wù),而「其他領(lǐng)域」(例如自然語言處理 (NLP)、音頻處理 (Audio))研究者無法得知這些在CV任務(wù)上有效的算法是否依然有效。另外,大部分半監(jiān)督論文都是由谷歌,微軟等大型機構(gòu)發(fā)表的,學(xué)術(shù)界的實驗室往往由于計算資源的限制不能一起推動半監(jiān)督領(lǐng)域的發(fā)展。總的來說,半監(jiān)督學(xué)習(xí)基準(zhǔn)目前存在以下兩個問題:
(1)多樣性不足。現(xiàn)有的半監(jiān)督學(xué)習(xí)基準(zhǔn)大多局限于計算機視覺 (CV) 分類任務(wù)(即 CIFAR-10/100,SVHN,STL-10 和 ImageNet 分類),「排除了對自然語言處理 (NLP)、音頻處理 (Audio) 等分類任務(wù)的一致和多樣化評估,而在NLP和Audio中缺乏足夠的標(biāo)記數(shù)據(jù)也是一個普遍問題。」
(2)耗時且對學(xué)術(shù)界不友好。現(xiàn)有的半監(jiān)督學(xué)習(xí)基準(zhǔn)(如TorchSSL)通常是耗時且不環(huán)保的,因為它需要通常從頭開始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型。具體而言,使用 TorchSSL評估FixMatch[1]大約需要「300」個GPU日。如此高的訓(xùn)練成本使得許多研究實驗室(尤其是學(xué)術(shù)界的實驗室或小研究團體)無法負(fù)擔(dān)得起SSL的相關(guān)研究,從而阻礙了SSL的進(jìn)展。
USB: 任務(wù)多樣化和對研究者更友好的新基準(zhǔn)庫
微軟亞洲研究院的研究員們聯(lián)合西湖大學(xué)、東京工業(yè)大學(xué)、卡內(nèi)基梅隆大學(xué)、馬克斯-普朗克研究所等機構(gòu)的研究人員們提出了「USB」:第一個將「視覺,語言,和音頻」分類任務(wù)進(jìn)行統(tǒng)一的半監(jiān)督分類學(xué)習(xí)基準(zhǔn)。相比于之前的半監(jiān)督學(xué)習(xí)基準(zhǔn)(如TorchSSL)只關(guān)注少量視覺任務(wù),該論文不僅引入更多樣化的應(yīng)用領(lǐng)域,還「首次」利用視覺預(yù)訓(xùn)練模型(Pretrained Vision Transformer)大大縮減了半監(jiān)督算法的驗證時間(「從7000GPU時縮減至900GPU時」),使得半監(jiān)督研究對研究者、特別是小研究團體更友好。USB的相關(guān)論文已被國際人工智能頂會NeurIPS 2022接收。
USB
「USB提供的解決方案」
那么,USB如何一次性解決當(dāng)前半監(jiān)督基準(zhǔn)存在的問題呢?研究員們進(jìn)行了如下的改進(jìn):
(1)為增強任務(wù)多樣性,USB引入了5個CV 數(shù)據(jù)集,5個NLP數(shù)據(jù)集和5個音頻數(shù)據(jù)集提供了一個多樣化且具有挑戰(zhàn)性的基準(zhǔn),從而能夠?qū)碜圆煌I(lǐng)域的多個任務(wù)進(jìn)行一致的評估。下表提供了USB與TorchSSL的任務(wù)和訓(xùn)練時間等方面的詳細(xì)對比。
(2)為提高訓(xùn)練效率,研究員們將預(yù)訓(xùn)練的Vision Transformer引入SSL,而不是從頭訓(xùn)練ResNets。具體而言,研究員們發(fā)現(xiàn)在「不影響性能」的情況下使用預(yù)訓(xùn)練模型可以大大減少訓(xùn)練迭代次數(shù)(例如,將 CV 任務(wù)的訓(xùn)練迭代次數(shù)從100萬步減少到「20」萬步)。(3)為了對研究人員更加友好,研究員們開源實現(xiàn)了14種 SSL算法并開源了一個模塊化代碼庫和相關(guān)的配置文件以供研究者輕松再現(xiàn)USB報告中的結(jié)果。為了快速上手,USB還提供詳細(xì)的文檔和教程。此外,USB還提供「pip包」以供使用者直接調(diào)用SSL算法。研究員們承諾未來會在USB中不斷加入新的算法(例如不平衡半監(jiān)督算法等)和更多更具挑戰(zhàn)性的數(shù)據(jù)集。
總結(jié)
半監(jiān)督學(xué)習(xí)通過利用大量無標(biāo)簽數(shù)據(jù)來訓(xùn)練更精確、更魯棒的模型,在未來有著重要的研究和應(yīng)用價值。研究員們期待通過USB這一工作,能夠予力學(xué)術(shù)界和工業(yè)界在半監(jiān)督學(xué)習(xí)領(lǐng)域取得更大的進(jìn)展。
-
代碼
+關(guān)注
關(guān)注
30文章
4876瀏覽量
69964 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5546瀏覽量
122281 -
半監(jiān)督學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
20瀏覽量
2598
原文標(biāo)題:NIPS'22 | USB: 統(tǒng)一、任務(wù)多樣化、對學(xué)術(shù)界更友好的半監(jiān)督學(xué)習(xí)算法庫
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于半監(jiān)督學(xué)習(xí)的跌倒檢測系統(tǒng)設(shè)計_李仲年
基于半監(jiān)督學(xué)習(xí)框架的識別算法
你想要的機器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
如何用Python進(jìn)行無監(jiān)督學(xué)習(xí)
谷歌:半監(jiān)督學(xué)習(xí)其實正在悄然的進(jìn)化

聚焦 | 新技術(shù)“紅”不過十年?半監(jiān)督學(xué)習(xí)卻成例外?
機器學(xué)習(xí)算法中有監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別
最基礎(chǔ)的半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個概念

為什么半監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)的未來?
半監(jiān)督學(xué)習(xí):比監(jiān)督學(xué)習(xí)做的更好
基于特征組分層和半監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡識別方法
機器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

評論