在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

標(biāo)記訓(xùn)練集中的數(shù)據(jù)樣本是開發(fā)機(jī)器學(xué)習(xí)應(yīng)用的最大瓶頸之一

jmiy_worldofai ? 來(lái)源:lp ? 2019-04-02 16:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)集就是機(jī)器學(xué)習(xí)行業(yè)的石油,強(qiáng)大的模型需要含有大量樣本的數(shù)據(jù)集作為基礎(chǔ)。而標(biāo)記訓(xùn)練集中的數(shù)據(jù)樣本是開發(fā)機(jī)器學(xué)習(xí)應(yīng)用的最大瓶頸之一。

最近,谷歌與斯坦福大學(xué)、布朗大學(xué)一起,研究如何快速標(biāo)記大型數(shù)據(jù)集,將整個(gè)組織的資源用作分類任務(wù)的弱監(jiān)督資源,使機(jī)器學(xué)習(xí)的開發(fā)時(shí)間和成本降低一個(gè)數(shù)量級(jí)。

谷歌在論文中表示,這種方法能讓工程師能夠在不到30分鐘的時(shí)間內(nèi)對(duì)數(shù)百萬(wàn)個(gè)樣本執(zhí)行弱監(jiān)督策略。

他們使用一種Snorkel Drybell系統(tǒng),讓開源Snorkel框架適應(yīng)各種組織知識(shí)資源,生成Web規(guī)模機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)。

Snorkel是由斯坦福大學(xué)在2017年開發(fā)的系統(tǒng),它可以在弱監(jiān)督條件下快速創(chuàng)建訓(xùn)練數(shù)據(jù)集,該項(xiàng)目已經(jīng)在GitHub上開源。而Snorkel Drybell的目標(biāo)是在工業(yè)規(guī)模上部署弱監(jiān)督學(xué)習(xí)。

而且用這種方法開發(fā)的分類器質(zhì)量與手工標(biāo)記樣本進(jìn)行訓(xùn)練的分類器效果相當(dāng),把弱監(jiān)督分類器的平均性能提高了52%。

什么是Snorkel

Snorkel是斯坦福大學(xué)在2016年為許多弱監(jiān)督學(xué)習(xí)開發(fā)的一個(gè)通用框架,由這種方法生成的標(biāo)簽可用于訓(xùn)練任意模型。

已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語(yǔ)言監(jiān)督、處理半結(jié)構(gòu)化數(shù)據(jù)、自動(dòng)生成訓(xùn)練集等具體用途。

原理

與手工標(biāo)注訓(xùn)練數(shù)據(jù)不同,Snorkel DryBell支持編寫標(biāo)記函數(shù),以編程方式標(biāo)記訓(xùn)練數(shù)據(jù)。

過去的方法中,標(biāo)記函數(shù)只是以編程方式標(biāo)記數(shù)據(jù)的腳本,它產(chǎn)生的標(biāo)簽是帶有噪聲的。

為了解決噪聲等問題,Supert Drybell使用生成建模技術(shù),以一種可證明一致的方式自動(dòng)估計(jì)標(biāo)記函數(shù)的準(zhǔn)確性和相關(guān)性,而無(wú)需任何基本事實(shí)作為訓(xùn)練標(biāo)簽。然后用這種方法對(duì)每個(gè)數(shù)據(jù)點(diǎn)的輸出進(jìn)行重新加權(quán),并組合成一個(gè)概率標(biāo)簽。

使用多種知識(shí)來(lái)源作為弱監(jiān)督

Snorkel Drybell先用多種知識(shí)來(lái)源作為弱監(jiān)督,在基于MapReduce模板的pipeline中編寫標(biāo)記函數(shù),每個(gè)標(biāo)記函數(shù)都接受一個(gè)數(shù)據(jù)點(diǎn)生成的概率標(biāo)簽,并選擇返回None(無(wú)標(biāo)簽)或輸出標(biāo)簽。

這一步生成的標(biāo)簽帶有大量噪聲,甚至相互沖突,還行需要進(jìn)一步的清洗才能用到最終的訓(xùn)練集中。

結(jié)合和重新利用現(xiàn)有資源對(duì)準(zhǔn)確度建模

為了處理這些噪聲標(biāo)簽,Snorkel DryBell將標(biāo)記函數(shù)的輸出組合成對(duì)每個(gè)數(shù)據(jù)點(diǎn)的訓(xùn)練標(biāo)簽置信度加權(quán)。這一步的難點(diǎn)在于,必須在沒有任何真實(shí)標(biāo)簽的情況下完成。

研究人員使用生成建模技術(shù),僅使用未標(biāo)記的數(shù)據(jù)來(lái)學(xué)習(xí)每個(gè)標(biāo)記函數(shù)的準(zhǔn)確性。通過標(biāo)簽函數(shù)輸出之間的一致性矩陣來(lái)學(xué)習(xí)打標(biāo)簽是否準(zhǔn)確。

在Snorkel DryBell中,研究人員還實(shí)現(xiàn)了建模方法一種更快、無(wú)采樣的版本,并在TensorFlow中實(shí)現(xiàn),以處理Web規(guī)模的數(shù)據(jù)。

通過在Snorkel DryBell中使用此程序組合和建模標(biāo)簽函數(shù)的輸出,能夠生成高質(zhì)量的訓(xùn)練標(biāo)簽。與兩個(gè)分別有1.2萬(wàn)和8萬(wàn)個(gè)手工標(biāo)記訓(xùn)練數(shù)據(jù)集比較,由Snorkel DryBell標(biāo)記的數(shù)據(jù)集訓(xùn)練出的模型實(shí)現(xiàn)了一樣的預(yù)測(cè)準(zhǔn)確度。

將不可服務(wù)的知識(shí)遷移到可服務(wù)的模型

在許多情況下,可服務(wù)特征(可用于生產(chǎn))和不可服務(wù)特征(太慢或太貴而無(wú)法用于生產(chǎn))之間也有重要區(qū)別。這些不可服務(wù)的特征可能具有非常豐富的信號(hào),但是有個(gè)問題是如何使用它們來(lái)訓(xùn)練,或者是幫助能在生產(chǎn)中部署的可服務(wù)模型呢?

在Snorkel DryBell中,用戶發(fā)現(xiàn)可以在一個(gè)不可服務(wù)的特征集上編寫標(biāo)簽函數(shù),然后使用Snorkel DryBell輸出的訓(xùn)練標(biāo)簽來(lái)訓(xùn)練在不同的、可服務(wù)的特征集上定義的模型。

這種跨特征轉(zhuǎn)移將基準(zhǔn)數(shù)據(jù)集的性能平均提高了52%。

這種方法可以被看作是一種新型的遷移學(xué)習(xí),但不是在不同的數(shù)據(jù)集之間轉(zhuǎn)移模型,而是在不同的特征集之間轉(zhuǎn)移領(lǐng)域知識(shí)。它可以使用速度太慢、私有或其他不適合部署的資源,在廉價(jià)、實(shí)時(shí)特征上訓(xùn)練可服務(wù)的模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4376

    瀏覽量

    64515
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8499

    瀏覽量

    134302
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25343

原文標(biāo)題:告別數(shù)據(jù)集資源匱乏,谷歌與斯坦福大學(xué)用弱監(jiān)督學(xué)習(xí)給訓(xùn)練集打標(biāo)簽

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    嵌入式AI技術(shù)漫談:怎么為訓(xùn)練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶介紹如何使用AI方法設(shè)計(jì)款客戶產(chǎn)品時(shí),客戶理解,AI嵌入式項(xiàng)目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經(jīng)常會(huì)被問到這樣的問題:客戶的工
    的頭像 發(fā)表于 06-11 16:30 ?504次閱讀

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場(chǎng)景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練樣本
    發(fā)表于 04-28 11:11

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為
    的頭像 發(fā)表于 03-21 10:30 ?591次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為
    的頭像 發(fā)表于 03-21 10:27 ?510次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b>標(biāo)注服務(wù):奠定大模型<b class='flag-5'>訓(xùn)練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    《具身智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之具身智能機(jī)器人計(jì)算挑戰(zhàn)

    章深入分析了DNN的安全威脅。逃逸攻擊通過向輸入數(shù)據(jù)添加人眼難以察覺的擾動(dòng),誘導(dǎo)模型做出錯(cuò)誤判斷。投毒攻擊則通過污染訓(xùn)練數(shù)據(jù)集,在模型學(xué)習(xí)階段植入后門。探索攻擊更具隱蔽性,它利用模型決
    發(fā)表于 01-04 01:15

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)機(jī)器學(xué)習(xí)方法。盡管深度學(xué)習(xí)般指神經(jīng)網(wǎng)絡(luò)算法)是
    的頭像 發(fā)表于 12-30 09:16 ?1112次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能中的價(jià)值

    嵌入式人工智能(EAI)將人工智能集成到機(jī)器人等物理實(shí)體中,使它們能夠感知、學(xué)習(xí)環(huán)境并與之動(dòng)態(tài)交互。這種能力使此類機(jī)器人能夠在人類社會(huì)中有效地提供商品及服務(wù)。 數(shù)據(jù)
    發(fā)表于 12-24 00:33

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)
    的頭像 發(fā)表于 10-18 08:09 ?547次閱讀
    直播預(yù)約 |<b class='flag-5'>數(shù)據(jù)</b>智能系列講座第4期:預(yù)<b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)模型下的持續(xù)<b class='flag-5'>學(xué)習(xí)</b>

    pycharm如何訓(xùn)練機(jī)器學(xué)習(xí)模型

    PyCharm是個(gè)流行的Python集成開發(fā)環(huán)境(IDE),它提供了豐富的功能,包括代碼編輯、調(diào)試、測(cè)試等。在本文中,我們將介紹如何在PyCharm中訓(xùn)練機(jī)器
    的頭像 發(fā)表于 07-11 10:14 ?1628次閱讀

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣吣P托阅堋p少訓(xùn)練時(shí)間和降低
    的頭像 發(fā)表于 07-11 10:12 ?1981次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討
    的頭像 發(fā)表于 07-10 16:10 ?3080次閱讀

    如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集

    理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集,是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要步。這三者不僅構(gòu)成了
    的頭像 發(fā)表于 07-10 15:45 ?6620次閱讀

    神經(jīng)網(wǎng)絡(luò)如何用無(wú)監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無(wú)監(jiān)督學(xué)習(xí)種重要的訓(xùn)練策略。無(wú)監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 07-09 18:06 ?1433次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為種強(qiáng)大的工具,
    的頭像 發(fā)表于 07-02 11:22 ?1349次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練個(gè)復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練個(gè)深度
    的頭像 發(fā)表于 07-01 16:13 ?2577次閱讀
    主站蜘蛛池模板: 日本成人免费网站 | 午夜小视频免费观看 | 夜夜爱夜夜做 | 影院午夜| 日本高清一区二区三区不卡免费 | 在线观看免费午夜大片 | 中文字幕一区二区三区 精品 | 天天操天天舔天天干 | 国产一级一片免费播放视频 | 高清色黄毛片一级毛片 | 操碰视频在线 | 中国国产aa一级毛片 | www.久久综合| 亚洲日本在线观看 | www.日日爱| 日韩中文电影 | 91综合在线| 日韩精品另类天天更新影院 | 天天艹在线 | 四虎一区二区三区精品 | 91久娇草 | 女人本色高清在线观看wwwwww国产 | 国产特级毛片aaaaaa毛片 | 国产在线欧美精品卡通动漫 | 国产精品资源站 | 特黄视频| 亚洲精品在线免费观看视频 | 丁香六月婷婷在线 | 痴女中文字幕在线视频 | 啪啪午夜视频 | 午夜影视啪啪免费体验区深夜 | www在线视频在线播放 | 99se亚洲综合色区 | 亚洲欧美啪啪 | 国产1024一区二区你懂的 | 天堂网www中文天堂在线 | 性网站视频 | 男男np主受高h啪啪肉 | 在线亚洲日产一区二区 | 色批 | 制服丝袜在线一区 |