要找到一定特定的數(shù)據(jù)集可以解決各種機(jī)器學(xué)習(xí)問題,是一件很難的事情。越來(lái)越多企業(yè)或研究機(jī)構(gòu)將自己的數(shù)據(jù)集公開,已經(jīng)成為全球的趨勢(shì),這也將有助于大家進(jìn)行更多研究。
近期,亞馬遜高級(jí)技術(shù)顧問 Will Badr 分享了 8 種適用于不同機(jī)器學(xué)習(xí)問題的常用數(shù)據(jù)集,并給出相應(yīng)的描述,用法示例以及在某些情況下用于解決與該數(shù)據(jù)集相關(guān)的機(jī)器學(xué)習(xí)問題的代碼。
1、Kaggle 數(shù)據(jù)集
鏈接:
https://www.kaggle.com/datasets
這是當(dāng)前數(shù)據(jù)科學(xué)領(lǐng)域最熱門,也是最受歡迎的數(shù)據(jù)集之一。在 Kaggle 中,每個(gè)數(shù)據(jù)集都是對(duì)應(yīng)一項(xiàng)比賽,參賽者可以在這個(gè)小社區(qū)里討論數(shù)據(jù),查找一些公共代碼或在 kernel 中創(chuàng)建自己的項(xiàng)目。Kaggle 中包含大量不同類型,不同大小以及多種不同格式的真實(shí)數(shù)據(jù)集。此外,參賽者還可以看到與每個(gè)數(shù)據(jù)集關(guān)聯(lián)的 kernel,其中許多數(shù)據(jù)科學(xué)家會(huì)上傳自己的 notebooks 來(lái)分析數(shù)據(jù)集,還能找到解決特定數(shù)據(jù)集問題的算法實(shí)現(xiàn)。
2、Amazon 數(shù)據(jù)集
鏈接:
https://registry.opendata.aws/
Amazon 數(shù)據(jù)庫(kù)包含不同領(lǐng)域的多種數(shù)據(jù)集,如公共交通,生態(tài)資源,衛(wèi)星圖像等。在數(shù)據(jù)集官網(wǎng)還有一個(gè)搜索框,可以幫助使用者快速找到所需的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集包含相應(yīng)的數(shù)據(jù)集描述和使用示例,數(shù)據(jù)量非常豐富且易于使用。
此外,依托于 Amazon Web Services (AWS) 平臺(tái),如 Amazon S3,這些儲(chǔ)存在云端的數(shù)據(jù)集都有高度的可擴(kuò)展性服務(wù),這對(duì)于那些使用 AWS 進(jìn)行機(jī)器學(xué)習(xí)開發(fā)和實(shí)驗(yàn)的用戶來(lái)說(shuō),將非常方便。因?yàn)樵谠贫耍瑪?shù)據(jù)集的傳輸將非常快。
3、UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)集
鏈接:
https://archive.ics.uci.edu/ml/datasets.html
這是由加州大學(xué)歐文分校(UCI)信息與計(jì)算機(jī)科學(xué)學(xué)院的研究者創(chuàng)建的一個(gè)包含 100 多種不同類型數(shù)據(jù)集的大型數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)根據(jù)不同的機(jī)器學(xué)習(xí)問題來(lái)對(duì)數(shù)據(jù)集進(jìn)行分類,在這里,用戶可以找到單變量、多變量時(shí)間序列數(shù)據(jù)集,分類、回歸、推薦系統(tǒng)數(shù)據(jù)集等。此外,該數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)集已經(jīng)經(jīng)過數(shù)據(jù)清洗過程,是可以直接為用戶使用。
4、Google 數(shù)據(jù)集所搜引擎
鏈接:
https://toolbox.google.com/datasetsearch
2018 年 9 月,Google 推出了這項(xiàng)服務(wù),它是一個(gè)可以按名稱搜索相應(yīng)數(shù)據(jù)集的工具箱,其目標(biāo)是集成數(shù)萬(wàn)個(gè)不同的數(shù)據(jù)集,并對(duì)用戶開放使用。
5、Miscrosoft 數(shù)據(jù)集
鏈接:
https://msropendata.com/
2018 年 7 月,Miscrosoft 聯(lián)合其外部的研究社區(qū)聲明發(fā)布 Miscrosoft Research Open Data 服務(wù)。這項(xiàng)存儲(chǔ)在云端的數(shù)據(jù)庫(kù),包含了一系列在已發(fā)表研究中使用過的數(shù)據(jù)集,致力于促進(jìn)全球研究社區(qū)的研究合作。
6、Awesome 公開數(shù)據(jù)集
鏈接:
https://github.com/awesomedata/awesome-public-datasets
Awesome 是一個(gè)按不同主題分類的數(shù)據(jù)庫(kù),其中涵蓋了如生物學(xué),經(jīng)濟(jì)學(xué),教育等不同領(lǐng)域的重要數(shù)據(jù)集,其中列出的大多數(shù)數(shù)據(jù)集都可供用戶免費(fèi)試用,但在使用任何數(shù)據(jù)集之前,用戶需要通過認(rèn)證已獲得使用許可。
7、government 數(shù)據(jù)集
在這里你可以找到那些與政府相關(guān)的數(shù)據(jù)集。為顯示政府工作的透明度,許多國(guó)家機(jī)構(gòu)公開發(fā)布了其國(guó)家在一些領(lǐng)域的數(shù)據(jù)集,如下示例:
EU Open Data:歐洲政府?dāng)?shù)據(jù)集
鏈接:
https://data.europa.eu/euodp/data/dataset
US Gov Data:美國(guó)政府?dāng)?shù)據(jù)(非政治問題上的數(shù)據(jù)集,但自特朗普政府上調(diào)以來(lái),該網(wǎng)站數(shù)據(jù)集暫時(shí)無(wú)法使用)
鏈接:
https://www.data.gov/
New Zealand’s Government Dataset:新西蘭政府?dāng)?shù)據(jù)集
鏈接:
https://catalogue.data.govt.nz/dataset
Indian Government Dataset:印度政府?dāng)?shù)據(jù)集
鏈接:
https://data.gov.in/
8、Computer Vision 領(lǐng)域數(shù)據(jù)集
鏈接:
https://www.visualdata.io/
如果是從事圖像處理、計(jì)算機(jī)視覺或深度學(xué)習(xí)領(lǐng)域的工作,那么該數(shù)據(jù)集會(huì)是最好的實(shí)驗(yàn)資源。Visual Data 包含一些可用于構(gòu)建計(jì)算機(jī)視覺(CV)模型的優(yōu)秀數(shù)據(jù)集。使用者可以通過某個(gè)特定的 CV 任務(wù)來(lái)查找相應(yīng)的數(shù)據(jù)集,如語(yǔ)義分割(semantic segmentation)、圖像生成標(biāo)題(image captioning)、圖像生成(image generation),甚至是無(wú)人駕駛解決方案所需的數(shù)據(jù)集。
原文鏈接:
https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8453瀏覽量
133152 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1210瀏覽量
24861 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10116
原文標(biāo)題:秘籍 | 機(jī)器學(xué)習(xí)數(shù)據(jù)集網(wǎng)址大全
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
適用于PIC MCU的MPLAB XC8 C編譯器用戶指南
![<b class='flag-5'>適用于</b>PIC MCU的MPLAB XC<b class='flag-5'>8</b> C編譯器用戶指南](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
適用于TI Sitara?平臺(tái)的WL1837MODCOM8I WLAN MIMO和Bluetooth?模塊評(píng)估板
![<b class='flag-5'>適用于</b>TI Sitara?平臺(tái)的WL1837MODCOM<b class='flag-5'>8</b>I WLAN MIMO和Bluetooth?模塊評(píng)估板](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
適用于機(jī)器視覺應(yīng)用的智能機(jī)器視覺控制平臺(tái)
![<b class='flag-5'>適用于</b><b class='flag-5'>機(jī)器</b>視覺應(yīng)用的智能<b class='flag-5'>機(jī)器</b>視覺控制平臺(tái)](https://file1.elecfans.com/web2/M00/94/26/wKgaomTjKYuAIFvgAAArw1juELo913.png)
RISC-V的指令集位寬的幾點(diǎn)學(xué)習(xí)心得
光電式傳感器有幾種類型各適用于哪些檢測(cè)控制場(chǎng)合
常用的k8s容器網(wǎng)絡(luò)模式有哪些?
選擇適用于汽車應(yīng)用的基準(zhǔn)電壓
![選擇<b class='flag-5'>適用于</b>汽車應(yīng)用的基準(zhǔn)電壓](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
適用于3D機(jī)器視覺的高度可擴(kuò)展的TI DLP技術(shù)
![<b class='flag-5'>適用于</b>3D<b class='flag-5'>機(jī)器</b>視覺的高度可擴(kuò)展的TI DLP技術(shù)](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
適用于類人機(jī)器人的TI DLP? Pico?技術(shù)
![<b class='flag-5'>適用于</b>類人<b class='flag-5'>機(jī)器</b>人的TI DLP? Pico?技術(shù)](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
供應(yīng) 英集芯IP2348,適用于掃地機(jī)器人解決方案的鋰電池同步降壓充電芯片
如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集
MCX N系列微控制器適用于安全、智能的電機(jī)控制和機(jī)器學(xué)習(xí)應(yīng)用
適用于DDR5 On-DIMM 電源的TPS53832集成式數(shù)字降壓轉(zhuǎn)換器數(shù)據(jù)表
![<b class='flag-5'>適用于</b>DDR5 On-DIMM 電源的TPS53832<b class='flag-5'>集</b>成式數(shù)字降壓轉(zhuǎn)換器<b class='flag-5'>數(shù)據(jù)</b>表](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
適用于DDR5 On-DIMM電源的TPS53830集成式數(shù)字降壓轉(zhuǎn)換器 數(shù)據(jù)表
![<b class='flag-5'>適用于</b>DDR5 On-DIMM電源的TPS53830<b class='flag-5'>集</b>成式數(shù)字降壓轉(zhuǎn)換器 <b class='flag-5'>數(shù)據(jù)</b>表](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
微軟正式發(fā)布適用于Windows的Sudo
![微軟正式發(fā)布<b class='flag-5'>適用于</b>Windows的Sudo](https://file1.elecfans.com/web2/M00/C4/EA/wKgZomX46KuADcLrAAAuXLn2AbA511.png)
評(píng)論