近日,Medium上的一位用戶整理了一份機(jī)器學(xué)習(xí)大型數(shù)據(jù)集清單,包括八大數(shù)據(jù)集資源庫。總有一款適合你,快來收藏吧!
下面的ML大型數(shù)據(jù)集,總有一款適合你。
就目前來看,找到一個(gè)特定的數(shù)據(jù)集來解決各種機(jī)器學(xué)習(xí)問題,甚至進(jìn)行實(shí)驗(yàn)還是比較困難的。
本文作者Will Badr便列舉了八大機(jī)器學(xué)習(xí)數(shù)據(jù)集。
不僅包含用于實(shí)驗(yàn)的大型數(shù)據(jù)集,還附帶對(duì)數(shù)據(jù)集的描述以及使用示例。有的還包含用于解決與該數(shù)據(jù)集相關(guān)機(jī)器學(xué)習(xí)問題的算法代碼。
話不多說,上數(shù)據(jù)集!
1、Kaggle數(shù)據(jù)集
數(shù)據(jù)集地址:
https://www.kaggle.com/datasets
這是作者最喜歡的數(shù)據(jù)集之一。
每個(gè)數(shù)據(jù)集都是一個(gè)小型社區(qū),用戶可以在其中討論數(shù)據(jù)、查找公共代碼或在內(nèi)核中創(chuàng)建自己的項(xiàng)目。包含各式各樣的真實(shí)數(shù)據(jù)集。
用戶還可以看到與每個(gè)數(shù)據(jù)集相關(guān)的“內(nèi)核”,許多數(shù)據(jù)科學(xué)家還提供了相關(guān)手冊(cè)來分析數(shù)據(jù)集。
2、Amazon數(shù)據(jù)集
數(shù)據(jù)集地址:
https://registry.opendata.aws/
該數(shù)據(jù)源包含多個(gè)不同領(lǐng)域的數(shù)據(jù)集,如:公共交通、生態(tài)資源、衛(wèi)星圖像等。
網(wǎng)頁中也有一個(gè)搜索框來幫助用戶尋找想要的數(shù)據(jù)集,還有所有數(shù)據(jù)集的描述和使用示例,這些數(shù)據(jù)集信息豐富且易于使用!
數(shù)據(jù)集存儲(chǔ)在Amazon Web Services (AWS)資源中,比如Amazon S3——云中的一個(gè)高度可伸縮的對(duì)象存儲(chǔ)服務(wù)。
如果用戶正在使用AWS進(jìn)行機(jī)器學(xué)習(xí)實(shí)驗(yàn)和開發(fā),這將非常方便,由于它是AWS網(wǎng)絡(luò)的本地?cái)?shù)據(jù),因此數(shù)據(jù)集的傳輸將非常快。
3、UCI機(jī)器學(xué)習(xí)資源庫
數(shù)據(jù)集地址:
https://archive.ics.uci.edu/ml/datasets.html
另一個(gè)來自加州大學(xué)信息與計(jì)算機(jī)科學(xué)學(xué)院的大型資源庫,包含100多個(gè)數(shù)據(jù)集。
用戶可以找到單變量和多變量時(shí)間序列數(shù)據(jù)集,分類、回歸或推薦系統(tǒng)的數(shù)據(jù)集。
有些UCI的數(shù)據(jù)集已經(jīng)是被清洗過的。
4、谷歌數(shù)據(jù)集搜索引擎
數(shù)據(jù)集地址:
https://toolbox.google.com/datasetsearch
在2018年末,谷歌做了他們最擅長(zhǎng)的事情,推出了另一項(xiàng)偉大的服務(wù)——它是一個(gè)可以按名稱搜索數(shù)據(jù)集的工具箱。
他們的目標(biāo)是統(tǒng)一成千上萬個(gè)不同的數(shù)據(jù)集存儲(chǔ)庫,使這些數(shù)據(jù)能夠且易被發(fā)現(xiàn)。
5、微軟數(shù)據(jù)集
數(shù)據(jù)集地址:
https://msropendata.com/
2018年7月,微軟與外部研究社區(qū)共同宣布推出“Microsoft Research Open Data”。
它在云中包含一個(gè)數(shù)據(jù)存儲(chǔ)庫,用于促進(jìn)全球研究社區(qū)之間的協(xié)作。它提供了一系列用于已發(fā)表研究的、經(jīng)過處理的數(shù)據(jù)集。
6、Awesome Public Datasets Collection
數(shù)據(jù)集地址:
https://github.com/awesomedata/awesome-public-datasets
這是一個(gè)按“主題”組織的數(shù)據(jù)集,比如生物學(xué)、經(jīng)濟(jì)學(xué)、教育學(xué)等。
這里列出的大多數(shù)數(shù)據(jù)集都是免費(fèi)的,但是在使用任何數(shù)據(jù)集之前,用戶需要檢查一下許可要求。
7、政府?dāng)?shù)據(jù)集
政府相關(guān)數(shù)據(jù)集也很容易找到的。
許多國(guó)家為了提高透明度,向公眾分享了各種數(shù)據(jù)集。以下是一些例子:
歐盟開放數(shù)據(jù)門戶:歐洲政府?dāng)?shù)據(jù)集。
數(shù)據(jù)集地址:
https://data.europa.eu/euodp/data/dataset
美國(guó)政府?dāng)?shù)據(jù):目前由于一些非政治性原因,暫時(shí)無法訪問。
數(shù)據(jù)集地址:
https://www.data.gov/
新西蘭政府?dāng)?shù)據(jù)集:
數(shù)據(jù)集地址:
https://catalogue.data.govt.nz/dataset
印度政府?dāng)?shù)據(jù)集:
數(shù)據(jù)集地址:
https://data.gov.in/
8、計(jì)算機(jī)視覺數(shù)據(jù)集
數(shù)據(jù)集地址:
https://www.visualdata.io/
Visual Data包含一些可以用來構(gòu)建計(jì)算機(jī)視覺(CV)模型的大型數(shù)據(jù)集。
用戶可以通過特定的CV主題查找特定的數(shù)據(jù)集,如語義分割、圖像標(biāo)題、圖像生成,甚至可以通過解決方案(自動(dòng)駕駛汽車數(shù)據(jù)集)查找特定的數(shù)據(jù)集。
總結(jié)
從上述作者所觀察到數(shù)據(jù)集情況來看,似乎是涵蓋各個(gè)方向和領(lǐng)域。
這些新數(shù)據(jù)集的社區(qū)將繼續(xù)發(fā)展,使數(shù)據(jù)更容易被獲取,使眾包和計(jì)算機(jī)科學(xué)社區(qū)能夠繼續(xù)快速創(chuàng)新,為生活帶來更多創(chuàng)造性的解決方案。
-
算法
+關(guān)注
關(guān)注
23文章
4631瀏覽量
93421 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8444瀏覽量
133117 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24848
原文標(biāo)題:【收藏】8款大型機(jī)器學(xué)習(xí)數(shù)據(jù)集頂級(jí)資源
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論