在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

沒有大量訓練數據時怎么生成更多的數據

汽車玩家 ? 來源:人工智能遇見磐創 ? 作者:人工智能遇見磐創 ? 2020-05-04 08:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在圖像和物體識別方面,計算機表現優于人類。

像Google和Microsoft這樣的大公司在圖像識別方面已經超越了人類基準[1,2]。平均而言,人類大約有5%的時間在圖像識別任務上犯了錯誤。截至2015年,微軟的圖像識別軟件的錯誤率達到4.94%,與此同時,谷歌宣布其軟件的錯誤率降低到4.8%[3]

這是怎么做到的?

這可以通過在包含數百個對象類別、數百萬個訓練樣本的ImageNet數據集上訓練深度卷積神經網絡來實現[1]。

百萬訓練數據!

例如,要教計算機從多個角度識別出一只貓貓,可能需要成千上萬張涵蓋不同角度的照片。

成功訓練計算機視覺任務的深層卷積神經網絡需要大量數據。這是因為這些神經網絡具有多個隱藏的處理層,并且隨著層數的增加,需要學習的樣本數也隨之增加。如果沒有足夠的訓練數據,則該模型往往會很好地學習訓練數據,這稱為過度擬合。如果模型過擬合,則其泛化能力很差,因此對未見的數據的表現很差。

但是,如果沒有大量的訓練數據怎么辦?

對于我們手頭的所有圖像識別任務,并不是都會擁有數百萬個訓練樣本。對于某些任務,收集成千上萬個樣本圖像甚至是一個挑戰。對于醫學圖像而言通常是這種情況,例如用于乳房癌檢測和定位的乳房X線照相術,用于肺癌檢測的胸部X射線或用于定位腦腫瘤的MRI掃描。

這可以歸結為一個問題:當我們只有有限的數據時,我們如何訓練能夠很好地完成這些任務的模型?

使用數據增強(data augmentation)生成更多訓練數據

當我們只有少量圖像數據用于訓練深度卷積神經網絡時,我們可以使用數據增強技術從已經擁有的圖像數據中生成更多訓練數據。

數據增強是一種為原始圖像生成多個圖像的技術。有幾種不同的數據增強技術,Mikolajczyk和Grochowski在他們的論文中[4]將這些技術分為兩個子類別:使用基本圖像處理的數據增強和使用深度學習方法的數據增強。

幾何變換

諸如翻轉(Flip),裁剪(Crop),旋轉(Rotation)和移位(Translation)之類的幾何變換是一些常用的數據增強技術。我們將在本文中簡要討論它們。

翻轉

翻轉是取任意給定圖像的鏡像。它是最簡單的增強技術之一。圖像可以水平或垂直翻轉。但是,水平翻轉在這兩者之間更為常見。

裁剪

裁剪是一種數據增強技術,用于通過裁剪邊界像素來減小原始圖像的大小。裁剪時不會保留空間尺寸。在這種類型的數據增強中,不能保證轉換后的圖像與原始圖像屬于相同的輸出標簽

在上面的圖像中,通過從左右方向裁剪像素,從原始圖像生成了四個圖像。裁剪圖像的尺寸從256x256減小到227x277。

旋轉

圖像可以在軸上向左或向右旋轉1到359度。1到20度之間的旋轉稱為輕微旋轉,并且是用于增強原始圖像的有用技術。隨著旋轉度的增加,轉換后的數據可能無法保留其原始標簽。

移位

翻譯是一種將圖像向左,向右,向上或向下平移的技術。這是一種非常有用的轉換技術,可以避免數據中的位置偏差。移位圖像時,剩余空間將被填充為0,255或被隨機噪聲填充,從而保留了圖像的原始大小。

基于GAN的數據增強

生成對抗網絡(GAN)也稱為GAN,是一種生成建模技術,其中可以從數據集中創建人工實例,從而保留原始集的相似特征[9]。

GAN由兩個相互競爭的人工神經網絡(ANN)組成,即生成器 generator 與判別器 discriminator。生成器創建新的數據實例,而判別器則評估它們的真實性[10]。

這是由GAN生成的人臉圖像,這是在人臉上訓練出來的。請注意,這些是合成的面孔,而不是真實的人。

這些是一些數據增強技術,通常用于從有限的數據集中生成更多數據,從而可以訓練出更有效的卷積神經網絡。

Olaf和他的團隊在訓練數據有限的情況下,利用在圖像上的平移、旋轉和隨機彈性變換等數據增強技術訓練U-net體系結構模型,并在2015年ISBI細胞追蹤挑戰中以較大優勢獲得這些類別的冠軍。

因此,下次在訓練卷積神經網絡時,請使用這些技術來創建更多數據。

你平時使用了哪些數據增強技術?在下面評論分享的想法。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7657

    瀏覽量

    90698
  • 圖像識別
    +關注

    關注

    9

    文章

    526

    瀏覽量

    39089
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    海思SD3403邊緣計算AI數據訓練概述

    AI數據訓練:基于用戶特定應用場景,用戶采集照片或視頻,通過AI數據訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練
    發表于 04-28 11:11

    用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型的預訓練流程
    的頭像 發表于 03-21 18:24 ?1605次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進制預<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>集

    數據標注服務—奠定大模型訓練數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,數據標注承擔著將原始數據轉化為機器可理解、可學
    的頭像 發表于 03-21 10:30 ?703次閱讀

    標貝數據標注服務:奠定大模型訓練數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,數據標注承擔著將原始數據轉化為機器可理解、可學
    的頭像 發表于 03-21 10:27 ?558次閱讀
    標貝<b class='flag-5'>數據</b>標注服務:奠定大模型<b class='flag-5'>訓練</b>的<b class='flag-5'>數據</b>基石

    是否可以輸入隨機數據集來生成INT8訓練后量化模型?

    無法確定是否可以輸入隨機數據集來生成 INT8 訓練后量化模型。
    發表于 03-06 06:45

    英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數據問題

    。Cosmos 世界基礎模型(WFM)使開發者能夠輕松生成大量基于物理學的逼真合成數據,以用于訓練和評估其現有的模型。開發者還可以通過微調 Cosmos WFM 構建自定義模型。 為加速機器人和自動駕駛
    的頭像 發表于 01-14 11:04 ?1242次閱讀
    英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>問題

    【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

    熟練程度,但由于其多模態性質,訓練 EAI 模型需要更多的機器人數據。這些機器人數據包括各種傳感輸入和交互類型,不僅極具挑戰性,而且收集成本高昂。
    發表于 12-24 00:33

    如何使用OpenUSD構建支持生成式AI的合成數據工作流

    訓練用于驅動自主機器(例如機器人和自動駕駛汽車)的物理 AI 模型需要大量數據。獲取大量多樣化的訓練數據
    的頭像 發表于 11-20 09:50 ?875次閱讀
    如何使用OpenUSD構建支持<b class='flag-5'>生成</b>式AI的合成<b class='flag-5'>數據</b>工作流

    LSTM神經網絡的訓練數據準備方法

    LSTM(Long Short-Term Memory,長短期記憶)神經網絡的訓練數據準備方法是一個關鍵步驟,它直接影響到模型的性能和效果。以下是一些關于LSTM神經網絡訓練數據準備的
    的頭像 發表于 11-13 10:08 ?2091次閱讀

    如何訓練自己的LLM模型

    于什么任務,比如文本生成、翻譯、問答等。 明確你的模型需要達到的性能標準。 數據收集與處理 : 收集大量的文本數據,這些數據將用于
    的頭像 發表于 11-08 09:30 ?1483次閱讀

    什么是協議分析儀和訓練

    長時間、大規模的分析。 軟件型協議分析儀:基于計算機軟件的工具,通過安裝在計算機上實現網絡數據包的捕獲、解析和分析,靈活且便于擴展。 二、訓練器在電子設計和測試領域,訓練器通常與協議分析儀結合使用,用于對特定
    發表于 10-29 14:33

    AI大模型的訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務的大規模圖像數據集。 Common Crawl :提供了大量的網頁抓取
    的頭像 發表于 10-23 15:32 ?3604次閱讀

    生成大量獨立的PWMs

    電子發燒友網站提供《生成大量獨立的PWMs.pdf》資料免費下載
    發表于 09-19 10:58 ?0次下載
    <b class='flag-5'>生成大量</b>獨立的PWMs

    NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成式 AI 訓練數據集。
    的頭像 發表于 09-06 14:59 ?723次閱讀
    NVIDIA Nemotron-4 340B模型幫助開發者<b class='flag-5'>生成</b>合成<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>

    esp8266怎么做才能每秒發送更多數據包呢?

    在我的項目中,我需要通過WIFI實時傳輸大量數據。在 esp8266 參考手冊中指出,我可以將 UART 波特率提高到 4 Mbits 左右,以實現更快的通信。 問題是,增加波特率不會改變整體發送
    發表于 07-22 08:00
    主站蜘蛛池模板: 综合成人在线 | 免费观看在线永久免费xx视频 | 欧美色图亚洲自拍 | 农村妇女高清毛片一级 | 欧美一级片手机在线观看 | 2017亚洲男人天堂 | 亚洲一区在线视频观看 | 欧美一级鲁丝片 | 天天曰天天操 | 91福利社在线观看 | 欧美一级视频在线观看 | 国产精品三区四区 | 国产传媒在线观看视频免费观看 | 日韩在线视频www色 日韩在线视频免费观看 | 国产一级大片在线观看 | 在线观看精品国产入口 | 手机看片国产免费现在观看 | 48pao强力打造免费基地 | 久久狠色噜噜狠狠狠狠97 | 日本在线不卡一区 | 看逼网址 | 天堂网www中文天堂在线 | 我不卡老子影院午夜伦我不卡四虎 | 久久在精品线影院精品国产 | 久久精品乱子伦免费 | 91精品久久国产青草 | 男女视频在线观看 | 欧美天堂在线观看 | 天天色综合色 | 五月婷婷激情在线 | 性欧美视频在线观看 | 国产精品麻豆va在线播放 | 人人爽天天爽夜夜爽qc | 国产黄色网页 | 免费我看视频在线观看 | 四虎a级欧美在线观看 | 在线视频观看一区 | 国产呦精品系列在线 | 99精品视频在线播放2 | 黄色午夜影院 | 亚洲天堂爱爱 |