在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

我們對目前機器學習進展的衡量有多可靠?

jmiy_worldofai ? 來源:未知 ? 作者:胡薇 ? 2018-06-08 14:38 ? 次閱讀

我們對機器學習的發展認識,很大程度上取決于少數幾個標準基準,比如CIFAR-10,ImageNet或MuJoCo。

近年來人工智能發展,大的,比如一項又一項“超越人類水平”的進步,以及小的、甚至幾乎每天都在發生的(這要感謝Arxiv),比如在各種論文中不斷被刷新的“state-of-the-art”,無不讓人感嘆領域的蓬勃。

但是,實際情況或許并沒有這么美好。

一項伯克利和MIT合作的新研究,對過去近十年中提出的一些經典分類器(比如VGG和ResNet)進行再測試后發現,由于測試集過擬合,很多分類器的精度實際并沒有宣稱的那么高;在新的數據集上測試結果表明,這些分類器的精度普遍都有下降,幅度4%~10%不等。

研究者表示,這一結果可以被視為證據,證明模型的精度這個數字是不可靠的,并且容易受到數據分布中微小的自然變化的影響。

這項新的研究也提出了一個值得反思的問題——我們目前用來衡量機器學習進展的手段和方法,究竟有多可靠?

重復使用相同的測試集,無法推廣到新數據

作者在論文中寫道,在過去五年里,機器學習已經成為一個實驗領域。在深度學習的推動下,大多數發表的論文都采用了同一種套路,那就是看一種新的方法在幾個關鍵基準上性能有多少提升。換句話說,就是簡單粗暴地對比數值,很少有人去解釋為什么。

而在對比數值的時候,大多數研究的評估都取決于少數幾個標準的基準,例如CIFAR-10、ImageNet或MuJoCo。不僅如此,由于Ground truth的數據分布一般很難得到,所以研究人員只能在單獨的測試集上評估模型的性能。

“現在,在整個算法和模型設計過程中,多次重復使用相同的測試集的做法已經被普遍接受。盡管將新模型與以前的結果進行比較是很自然的想法,但顯然目前的研究方法破壞了分類器獨立于測試集這一關鍵假設。”

這種不匹配帶來了明顯的危害,因為研究人員可以很容易地設計出只能在特定測試集上運行良好,但實際上無法推廣到新數據的模型。

CIFAR-10可重復性實驗:VGG、ResNet等經典模型精度普遍下降

為了審視這種現象造成的后果,研究人員對CIFAR-10以及相關分類器做了再調查。研究的主要目標是,衡量新進的分類器在泛化到來自相同分布的、未知新數據時能做得多好。

選擇標準CIFAR-10數據集,是因為它透明的創建過程使其特別適合于這個任務。此外,CIFAR-10已經成為近10年來研究的熱點,在調查適應性(adaptivity)是否導致過擬合這個問題上,它是一個很好的測試用例。

在實驗中,研究人員首先用新的、確定是模型沒有見過的大約2000幅圖像,制作了一個新的測試集,并將新測試集的子類分布與原始 CIFAR-10 數據集仔細地做匹配,盡可能保持一致。

然后,在新測試集上評估了30個圖像分類器的性能,包括經典的VGG、ResNet,最近新提出的ResNeXt、PyramidNet、DenseNet,以及在ICLR 2018發布的Shake-Drop,這個Shake-Drop正則化方法結合以前的分類器,取得了目前的state-of-art。

結果如下表所示。原始CIFAR-10測試集和新測試集的模型精度,Gap是兩者精度的差異。ΔRank表示排名的變化,比如“-2”意味著在新測試集中的排名下降了兩個位置。

由結果可知,新測試集上模型的精度相比原始測試集有明顯下降。例如,VGG和ResNet這兩個模型在原始數據集上準確率為93%,而在新測試集上降為了85%左右。此外,作者還表示,他們發現現有測試集上模型的性能相比新測試集更加具有預測性。

對于出現這種結果的原因,作者設定了多個假設并一一進行了討論,除了統計誤差、調參等之外,主要還是過擬合。

作者表示,他們的結果展現了當前機器學習進展令人意外的一面。盡管CIFAR-10測試集已經被不斷適應(adapting)了很多年,但這種趨勢并沒有停滯。表現最好的模型仍然是最近提出的Shake-Shake網絡(Cutout正則化)。而且,在新的測試集置上,Shake-Shake比標準ResNet的優勢從4%增加到8%。這表明,瞄準一個測試集猛攻的研究方法對過擬合而言是十分有效的。

同時,這個結果也對當前分類器的魯棒性提出了質疑。盡管新數據集只做了微小的改變(分布轉移),但現有的被廣泛使用的模型,分類準確性普遍顯著下降。例如,前面提到的VGG和ResNet的精度損失對應于CIFAR-10的多年進展。

作者特別指出,他們的實驗引起的分布轉移(distributional shift)既不是對抗性的(adversarial),也不是不同數據源導致的結果。因此,即使在良性環境中,分布轉移也會帶來嚴峻的挑戰,研究人員需要思考,目前的模型真正能泛化到什么程度。

機器學習研究也需要注意可重復性

Python Machine Learning 一書作者Sebastian Raschka評論這項研究認為,它再次提醒機器學習研究人員注意測試集重復使用(以及違背獨立性)的問題。

谷歌大腦研究科學家、Twitter賬戶hardmaru表示,對機器學習研究進行可靠評估的方法十分重要。他期待見到有關文本和翻譯的類似研究,并查看PTB,wikitext,enwik8,WMT'14 EN-FR,EN-DE等結構如何從相同分布轉移到新的測試集。

不過,hardmaru表示,如果在PTB上得到類似的結果,那么對于深度學習研究界來說實際上是好事,因為在PTB這個小數據集上進行超級優化的典型過程,確實會讓人發現泛化性能更好的新方法。

作者表示,未來實驗應該探索在其他數據集(例如ImageNet)和其他任務(如語言建模)上是否同樣對過擬合具有復原性。此外,我們應該了解哪些自然發生的分布變化對圖像分類器具有挑戰性。

為了真正理解泛化問題,更多的研究應該收集有洞察力的新數據并評估現有算法在這些數據上的性能表現。類似于招募新參與者進行醫學或心理學的可重復性實驗,機器學習研究也需要對模型性能的可重復多做研究。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • MIT
    MIT
    +關注

    關注

    3

    文章

    253

    瀏覽量

    23505
  • 機器學習
    +關注

    關注

    66

    文章

    8441

    瀏覽量

    133094

原文標題:十年機器學習結果不可靠?伯克利&MIT研究質疑了30個經典模型

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人的基礎模塊

    目前高速發展的大模型能給具身智能帶來一些突破性的進展。 對于感知系統,要做的主要任務是物體檢測,語義分割,立體視覺,鳥瞰視角感知。 很多算法都可以實現物體檢測,比如文章提到的HOG + SVM算法
    發表于 01-04 19:22

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習的基礎知識和多
    的頭像 發表于 12-30 09:16 ?398次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    指令和當前機器人靜態圖像,生成一段預測的未來狀態視頻。從這些預測視頻中,可以提取機器人的位姿信息,并解碼出控制所需的速度、加速度等關鍵參數,再傳遞給機器人進行實際控制。目前,這種方法已
    發表于 12-29 23:04

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優勢,逐漸成為企業構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發表于 12-25 11:54 ?164次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前
    的頭像 發表于 11-16 01:07 ?512次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發表于 11-15 09:19 ?604次閱讀

    人工智能、機器學習和深度學習存在什么區別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI很多技術,但其中一個很大的子集是機器學習——讓算法從數據中學習
    發表于 10-24 17:22 ?2545次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區別

    AMD贊助支FIRST機器人競賽團隊

    AMD 在 2024 賽季贊助了支 FIRST 機器人競賽團隊。FIRST 機器人競賽旨在教導高中生如何構建能夠執行特定任務的機器人,同時也讓他們有機會
    的頭像 發表于 09-18 09:45 ?511次閱讀

    衡量功率放大電路的參數哪些

    衡量功率放大電路的參數主要包括以下幾個方面: 1. 輸出功率(Output Power) 定義:指在特定負載條件下,功率放大器能夠輸出的最大功率。 單位:一般以瓦特(W)為單位進行表示。 重要性
    的頭像 發表于 09-03 09:35 ?609次閱讀

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    時間序列中的自相關性。 時間序列有基于線性場景,也有一些非線性性質周期性和不對稱性、波動的聚集性、波動中出現的跳躍現象,以及時間的不可逆性。機器學習已經是目前非線性時序分析的主攻方向之一。 時間序列
    發表于 08-07 23:03

    如何理解機器學習中的訓練集、驗證集和測試集

    理解機器學習中的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習與評估的基礎框架,還直接關系到模型性
    的頭像 發表于 07-10 15:45 ?4674次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發表于 07-01 11:40 ?1541次閱讀

    機器學習8大調參技巧

    今天給大家一篇關于機器學習調參技巧的文章。超參數調優是機器學習例程中的基本步驟之一。該方法也稱為超參數優化,需要搜索超參數的最佳配置以實現最佳性能。
    的頭像 發表于 03-23 08:26 ?706次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>8大調參技巧

    電機仿真篇丨雙電機實時仿真測試應用

    國內虛擬研究平臺基于單電機設計,而實際工業中電機配合工作更為常見,如機器人、3D打印機等。電機同步控制在工業自動化生產系統中廣泛存在,但目前
    發表于 03-19 16:13

    人工智能和機器學習的頂級開發板哪些?

    機器學習(ML)和人工智能(AI)不再局限于高端服務器或云平臺。得益于集成電路(IC)和軟件技術的新發展,在微型控制器和微型計算機上實現機器學習算法和深度
    的頭像 發表于 02-29 18:59 ?912次閱讀
    人工智能和<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的頂級開發板<b class='flag-5'>有</b>哪些?
    主站蜘蛛池模板: 好黄好硬好爽好刺激 | 免费爱做网站在线看 | 国产亚洲精品成人一区看片 | 91视频啪啪| 国产特级毛片aaaaaa毛片 | 国产网红主播精品福利大秀专区 | 亚洲一区在线观看视频 | 四虎永久免费最新在线 | 欧美亚洲韩国国产综合五月天 | 久久久久久亚洲精品 | 狠狠色噜噜狠狠狠狠91 | 永久免费在线观看 | 国外免费精品视频在线观看 | 亚洲人成电影综合网站色 | 久久国产美女免费观看精品 | 国产成人精品午夜二三区 | 五月天婷婷在线免费观看 | 凸输偷窥xxxx自由视频 | 永井玛丽亚中文在线观看视频 | 亚洲一区二区三区四区在线 | 国产人成午夜免视频网站 | 中文天堂在线最新版在线www | 91夜夜人人揉人人捏人人添 | 九九热在线视频观看这里只有精品 | 国模私拍一区二区 | 四虎国产精品影库永久免费 | 啪啪网站免费观看 | 狠狠色噜噜狠狠狠狠2018 | 不卡精品国产_亚洲人成在线 | 久久久噜噜噜www成人网 | 极品美女写真菠萝蜜视频 | 天使色| 天天摸夜夜摸爽爽狠狠婷婷97 | 欧美性free免费 | 经典三级第一页 | 美女露出尿口让男人桶爽网站 | 美女被草视频在线观看 | 亚洲精品亚洲人成人网 | 天天爆操 | 狠狠色噜噜狠狠狠狠888奇米 | 日本极度另类网站 |