在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

這三種學習模式在于深度學習的未來

新機器視覺 ? 來源:InfoQ中文站 ? 作者:Andre ? 2020-10-23 09:37 ? 次閱讀

作者 | Andre Ye 譯者 | 平川 策劃 | 陳思

深度學習是一個廣闊的領域,它圍繞著一種形態由數百萬甚至數十億個變量決定并不斷變化的算法——神經網絡。似乎每隔一天就有大量的新方法和新技術被提出來。不過,總的來說,現代深度學習可以分為三種基本的學習范式。每一種都有自己的學習方法和理念,提升了機器學習的能力,擴大了其范圍。

本文最初發布于 Towards Data Science 博客,由 InfoQ 中文站翻譯并分享。

深度學習的未來在于這三種學習模式,而且它們彼此之間密切相關:

混合學習——現代深度學習方法如何跨越監督學習和非監督學習之間的邊界,以適應大量未使用的無標簽數據?

復合學習——如何以創造性的方法將不同的模型或組件連接起來,以生成一個大于各部分之和的復合模型?

簡化學習——出于性能和部署目的,如何減少模型的規模和信息流,同時保持相同或更強的預測能力?

混合學習

這種范式試圖跨越監督學習和非監督學習之間的界限。由于有標簽數據缺乏且成本高,所以常常在業務上下文中使用。從本質上說,混合學習是對下面這個問題的回答:

如何使用監督方法解決非監督問題?

首先,半監督學習在機器學習領域取得了良好的進展,因為它只需要很少的有標簽數據就能夠在監督問題上有非常好的表現。例如,一個設計良好的半監督式 GAN(生成式對抗網絡)只需要 25 個訓練樣本,就能在 MNIST 數據集上獲得了超過 90% 的準確率。

半監督學習是針對有大量無監督數據和少量有監督數據的數據集而設計的。傳統上,監督學習模型只在一部分數據上進行訓練,無監督模型則在另一部分數據上進行訓練,而半監督模型則可以將有標簽數據與從無標簽數據中提取的見解結合起來。

半監督 GAN(簡稱 SGAN)是對 標準生成式對抗網絡模型 的改寫。判別器輸出 0/1 表示圖像是否生成,它也輸出項的類別(多輸出學習)。

這是基于這樣一種想法,即通過判別器學習區分真實的和生成的圖像,它能夠學習它們的結構而不需要具體的標簽。通過少量標簽數據的額外增強,半監督模型就可以在少量監督數據的情況下實現最高的性能。

要了解關于 SGAN 和半監督學習的更多內容,請查看這里:

https://towardsdatascience.com/supervised-learning-but-a-lot-better-semi-supervised-learning-a42dff534781

GAN 還參與了混合學習的另一個領域——自監督學習,在這種學習中,非監督問題被明確地定義為監督問題。GAN 通過引入生成器人為地創建監督數據;創建標簽來識別真實 / 生成的圖像。在無監督的前提下,創建了一個有監督的任務。

或者,考慮使用 編碼器 - 解碼器壓縮模型。在最簡單的形式中,它們是中間有少量節點(表示某種瓶頸壓縮形式)的神經網絡。兩端分別是編碼器和解碼器。

網絡被訓練成產生與輸入向量相同的輸出(從無監督數據人為地創建監督任務)。由于故意在中間設置了瓶頸,所以網絡不會被動地傳遞信息;相反,它必須找到最好的方法將輸入內容保存到一個小的單元中,這樣,解碼器就可以再次合理地對它解碼。

訓練完成后,將編碼器和解碼器分開,用于壓縮或編碼數據的接收端,以極小的形式傳輸信息,而又幾乎不丟失數據。它們還可以用來降低數據的維數。

另一個例子,考慮一個大型的文本集(可能是來自數字平臺的評論)。通過一些聚類或流形學習(manifold learning)方法,我們可以為文本集生成聚類標簽,然后用它們作為標簽(如果聚類做得好的話)。

在對每個類進行解釋之后(例如,類 A 表示對產品的抱怨,類 B 表示積極的反饋,等等),可以使用像 BERT 這樣的深層 NLP 架構將新文本分類到這些類中,所有這些都是使用了完全未標記的數據,并將人的參與降至最低。

這又是一個將非監督任務轉換為監督任務的有趣應用。在一個絕大多數數據都是非監督數據的時代,通過混合學習,在監督學習和非監督學習之間創造性地架起一座橋梁,具有巨大的價值和潛力。

復合學習

復合學習為的是利用幾種模式的知識,而不是一種。該方法認為,通過獨特的組合或信息注入——包括靜態和動態——與單一模式相比,深度學習能夠在理解和性能方面不斷地深入。

遷移學習是復合學習的一個明顯的例子,它的前提是模型的權重可以從一個在類似的任務上預先訓練過的模型中借用,然后在特定任務上進行微調。像 Inception 或 VGG-6 這樣的預訓練模型,其結構和權重被設計成可以區分幾種不同類別的圖像。

如果我要訓練一個神經網絡來識別動物(貓、狗等),我不會從頭開始訓練卷積神經網絡,因為要達到不錯的效果需要太長時間。相反,我會使用一個預先訓練過的模型(比如 Inception,它已經存儲了圖像識別的基礎知識),在數據集上額外進行幾個 epoch 的訓練。

類似地,在 NLP 神經網絡中,詞嵌入會根據單詞之間的關系在一個嵌入空間中將單詞映射到實際距離較近的其他單詞(例如,“apple”和“orange”的距離比“apple”和“truck”的距離更小)。像 GloVe 這樣預先訓練好的嵌入可以放到神經網絡中,從單詞到有意義的數字化實體的有效映射開始。

較為隱秘的一點是,競爭也能促進知識增長。首先,生成式對抗網絡借鑒了復合學習范式,從根本上使兩個神經網絡相互競爭。生成器的目標是欺騙判別器,而判別器的目標是不被騙。

下文會將模型之間的競爭稱為“對抗性學習”,不要與另一種 設計惡意輸入并利用模型弱決策邊界 的對抗性學習相混淆。

對抗性學習可以增強模型,通常是不同類型的模型,在對抗性學習中,一個模型的性能可以用其他模型的性能來表示。在對抗性學習領域還有很多研究需要做,生成式對抗網絡是這個子領域唯一突出的創新。

另一方面,競爭性學習與對抗性學習類似,但是逐節點執行的:節點競爭對輸入數據的一個子集作出響應的權利。競爭性學習是在一個“競爭層”中實現的,在這個“競爭層”中,除了某些權重隨機分布外,神經元都是相同的。

將每個神經元的權值向量與輸入向量進行比較,然后激活(output = 1)相似度最高的“贏者全拿”神經元,其余神經元“不激活”(output = 0),這種無監督技術是 自組織映射 和 特征發現 的核心組成部分。

復合學習的另一個有趣的例子是神經結構搜索。簡而言之,在強化學習環境中,神經網絡(通常是 RNN)通過學習為數據集生成最好的神經網絡——算法為你找出最好的架構!

集成(Ensemble)方法也是一種重要的復合學習方法。深度集成方法已經被證明非常 有效,而且,端到端模型疊加,像編碼器和解碼器,已經變得越來越流行。

復合學習的主要目的是找出在不同模型之間建立聯系的獨特方法。它的前提是:

單個模型,即使是一個非常大的模型,其性能也不如幾個小模型 / 組件,其中每一個都被委派專門處理一部分任務。

例如,考慮為一家餐館構建一個聊天機器人的任務。

我們可以將其劃分為三個獨立的部分:寒暄 / 閑聊、信息檢索和動作,并針對每個部分單獨設計一個模型。或者,我們可以委托一個模型來執行所有這三個任務。

復合模型性能更好,同時占用的空間更少,這應該沒什么可奇怪的。此外,這些非線性拓撲可以用 Keras 函數式 API 這樣的工具輕松構建。

為了處理越來越多樣化的數據類型,如視頻和三維數據,研究人員必須建立創造性的復合模型。

簡化學習

模型的規模,尤其是在 NLP 領域(深度學習研究的中心),正在大幅增長。最新的 GPT-3 模型有 1750 億個參數。把它和 BERT 比較就像把木星和蚊子比較一樣(并不夸張)。未來,深度學習的模型會更大嗎?

很可能不會。誠然,GPT-3 非常強大,但歷史一再表明,“成功的科學”是那些對人類影響最大的科學。當學術偏離現實太遠時,通常會淡出人們的視線。這就是神經網絡在 20 世紀末期被短暫遺忘的原因,因為可用的數據太少了,以至于這個想法,無論多么巧妙,都是沒用的。

GPT-3 是另一種語言模型,它可以寫出令人信服的文本。它的應用在哪里?是的,它可以生成查詢的答案。不過,還有更高效的方法來實現這一點(例如,遍歷一個知識圖,并使用一個更小的模型如 BERT 來輸出答案)。

考慮到 計算能力的枯竭,GPT-3 的龐大規模(更不用說更大的模型)似乎是不可行的,或者是不必要的。

“摩爾定律有點過時了。”——微軟首席執行官 Satya Nadella

相反,我們正在走向一個嵌入式人工智能的世界,智能冰箱可以自動訂購食品雜貨,無人機可以自行導航飛遍整個城市。強大的機器學習方法應該能夠下載到個人電腦手機和小型芯片上。

這就需要輕量級人工智能:在保持性能的同時使神經網絡更小。

事實證明,在深度學習研究中,幾乎所有的東西都與直接或間接地減少必要參數的數量有關,而這又與提高泛化能力和性能緊密相關。例如,卷積層的引入大大減少了神經網絡處理圖像所需的參數數量。遞歸層在使用相同權值的同時融入了時間的概念,使得神經網絡能夠以更少的參數更好地處理序列。

嵌入層顯式地將實體映射到具有物理意義的數值,這樣負擔就不會落在其他參數上。有一種解釋說,Dropout 層在對輸入的某些部分進行操作時會顯式地屏蔽參數。L1/L2 正則化 確保網絡利用了所有的參數,而且每個參數都不會太大,并最大化了每個參數的信息價值。

隨著專用層的建立,網絡對更復雜、更大數據的要求越來越少。其他最新方法明確地尋求簡化網絡。

神經網絡剪枝 試圖去除對網絡輸出沒有價值的突觸和神經元。通過剪枝,網絡可以在去除大部分網絡節點的情況下保持其性能。

其他方法,如 Patient Knowledge Distillation,可以將大型語言模型壓縮成可下載到用戶手機上的形式。對于支撐谷歌翻譯的 谷歌神經機器翻譯(GNMT)系統 來說,這種考慮是有必要的,該系統需要創建一個能夠離線訪問的高性能翻譯服務。

本質上講,簡化學習以部署為中心進行設計。這就是為什么大多數關于簡化學習的研究都來自于公司的研究部門。以部署為中心的設計不能盲目地遵循數據集上的性能指標,而要關注模型部署時的潛在問題。

例如,前面提到的 對抗性輸入 是設計用來欺騙網絡的惡意輸入。可以用噴漆或貼紙來欺騙自動駕駛汽車,使其遠遠超過限速。負責任的簡化學習不僅是使模型足夠輕量化,而且要確保它能夠適應數據集中沒有表示出的極端情況。

在深度學習研究中,簡化學習得到的關注最少,因為“我們成功地在可行的架構規模下實現了良好的性能”遠不如“我們利用一個擁有無數參數的架構實現了最先進的性能”那么吸引人。

不可避免地,當對更高百分比的追求消失時,正如創新的歷史所顯示的那樣,簡化學習——實際上就是實用的學習——將得到更多它應該得到的關注。

總 結

混合學習試圖跨越監督學習和非監督學習的邊界。像半監督和自監督學習這樣的方法能夠從無標簽數據中提取有價值的見解,當無監督數據的數量呈指數增長時,這些見解就變得非常有價值。

隨著任務變得越來越復雜,復合學習將一個任務分解為幾個更簡單的組件。當這些組件一起工作或者相互對抗,就可以得到一個更強大的模型。

深度學習已經進入炒作階段,而簡化學習還沒有得到太多關注,但很快就會出現足夠實用并且是以部署為中心的設計。

感謝閱讀!

原文標題:深度學習未來的三種范式

文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8477

    瀏覽量

    133793
  • 深度學習
    +關注

    關注

    73

    文章

    5543

    瀏覽量

    122269

原文標題:深度學習未來的三種范式

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    雙極型極管放大電路的三種基本組態的學習課件免費下載

      本文檔的主要內容詳細介紹的是雙極型極管放大電路的三種基本組態的學習課件免費下載包括了:共集電極放大電路,共基極放大電路,三種基本組態的比較   輸入信號ui
    發表于 04-11 16:39 ?23次下載

    CMOS,Bipolar,FET這三種工藝的優缺點是什么?

    在我用photodiode工具選型I/V放大電路的時候,系統給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請教下用于光電信號放大轉換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,FET這三種工藝的優缺點是什么?
    發表于 03-25 06:23

    GaN、超級SI、SiC這三種MOS器件的用途區別

    如果想要說明白GaN、超級SI、SiC這三種MOS器件的用途區別,首先要做的是搞清楚這三種功率器件的特性,然后再根據材料特性分析具體應用。
    的頭像 發表于 03-14 18:05 ?441次閱讀

    示波器的三種觸發模式

    示波器的觸發方式不僅影響波形捕捉的時機,還決定了顯示的波形是否穩定。 常見的觸發模式三種: 單次觸發 (Single)、 正常觸發 (Normal)和 自動觸發 (Auto)。下面將對這三種觸發
    的頭像 發表于 01-07 11:04 ?4315次閱讀
    示波器的<b class='flag-5'>三種</b>觸發<b class='flag-5'>模式</b>

    NPU在深度學習中的應用

    設計的硬件加速器,它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一專門針對深度學習算法優化的處理器,它與傳統的CPU和G
    的頭像 發表于 11-14 15:17 ?1511次閱讀

    什么是PID調節器的三種模式

    (Proportional)、積分(Integral)和微分(Derivative)。這三種控制動作可以單獨使用,也可以組合使用,形成三種基本的控制模式:比例控制(P)、積分控制(I)和微分控制(D)。 1. 比例控制(P) 比
    的頭像 發表于 11-06 10:38 ?1224次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度
    的頭像 發表于 10-23 15:25 ?2379次閱讀

    I2S有左對齊,右對齊跟標準的I2S三種格式,那么這三種格式各有什么優點呢?

    大家好,關于I2S格式,有兩個疑問請教一下 我們知道I2S有左對齊,右對齊跟標準的I2S三種格式,那么這三種格式各有什么優點呢? 而且對于標準的I2S格式,32FS傳輸16bit的數據,48fs傳輸24bit的數據,最低位會移動到右聲道,是否意味著該數據被丟棄了?還是有
    發表于 10-21 08:23

    單片機的三種總線結構

    單片機的三種總線結構包括地址總線(Address Bus, AB)、數據總線(Data Bus, DB)和控制總線(Control Bus, CB)。這三種總線在單片機內部及與外部設備之間的數據傳輸
    的頭像 發表于 09-10 11:32 ?5771次閱讀

    vim的三種工作模式有哪些

    Vim是一個功能強大的文本編輯器,它具有三種工作模式:普通模式、插入模式和命令行模式。以下是對這三種
    的頭像 發表于 08-30 14:52 ?1218次閱讀

    深度學習算法在集成電路測試中的應用

    隨著半導體技術的快速發展,集成電路(IC)的復雜性和集成度不斷提高,對測試技術的要求也日益增加。深度學習算法作為一強大的數據處理和模式識別工具,在集成電路測試領域展現出了巨大的應用潛
    的頭像 發表于 07-15 09:48 ?1498次閱讀

    深度學習中的時間序列分類方法

    的發展,基于深度學習的TSC方法逐漸展現出其強大的自動特征提取和分類能力。本文將從多個角度對深度學習在時間序列分類中的應用進行綜述,探討常用的深度
    的頭像 發表于 07-09 15:54 ?1693次閱讀

    深度學習與nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習與NLP的區別。 深度
    的頭像 發表于 07-05 09:47 ?1372次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但
    的頭像 發表于 07-01 11:40 ?1983次閱讀

    ESP32的Station模式SoftAP模式BLE模式三種模式可以共存嗎?

    現在ESP32 這三種模式能夠共存嗎? 以前了解,不是很穩定,現在改善了嗎?
    發表于 06-24 06:40
    主站蜘蛛池模板: 一级视频在线观看免费 | 性夜影院爽黄a爽免费视 | 亚洲国内精品自在线影视 | 日韩免费毛片视频 | 直接看的黄色网址 | 美女扒开尿口给男人桶 | 天天夜夜人人 | 国产视频国产 | 美脚连裤袜老师正在播放 | 日韩城人视频 | 激情婷婷丁香 | 五月综合色 | 精品久久免费观看 | 欧美日韩精品一区二区在线线 | 精品一精品国产一级毛片 | 午夜黄大色黄大片美女图片 | 成人精品一区二区三区电影 | 深夜动态福利gif动态进 | 国产图片区 | 极品色天使在线婷婷天堂亚洲 | 国产小视频在线免费观看 | 男女那啥的视频免费 | 99久久精品免费观看国产 | 久久伊人成人网 | 视频在线观看免费 | 五月六月激情 | 在线天堂中文 | 欧美色图日韩 | 乱子伦xxxx厨房 | 欧美色图综合网 | 久久天天躁狠狠躁夜夜免费观看 | 成人欧美一区二区三区黑人3p | 国产免费一区二区三区 | 大乳妇女bd视频在线观看 | 国产精品视频你懂的 | 国产精品久久久精品三级 | 亚洲一区二区三区免费在线观看 | 天天射日 | 天天爱天天操天天干 | 色咯咯 | mmmxxx69日本 |