魔天记忘语小说,小说排行榜,小说阅读器

資源整理了文本分類、實體識別&詞性標注、搜索匹配、推薦系統(tǒng)、指代消歧、百科數(shù)據(jù)、預訓練詞向量or模型、中文完形填空等大量數(shù)據(jù)集，中文數(shù)據(jù)集平臺和NLP工具等。

本文內(nèi)容整理自：https://github.com/InsaneLife/ChineseNLPCorpus

文本分類

新聞分類

今日頭條中文新聞（短文本）分類數(shù)據(jù)集：https://github.com/fateleak/toutiao-text-classfication-dataset

數(shù)據(jù)規(guī)模：共38萬條，分布于15個分類中。

采集時間：2018年05月。

以0.7 0.15 0.15做分割。

清華新聞分類語料：

根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成。

數(shù)據(jù)量：74萬篇新聞文檔（2.19 GB）

小數(shù)據(jù)實驗可以篩選類別：體育, 財經(jīng), 房產(chǎn), 家居, 教育, 科技, 時尚, 時政, 游戲, 娛樂

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實驗：https://github.com/gaussic/text-classification-cnn-rnn

中科大新聞分類語料庫：http://www.nlpir.org/?action-viewnews-itemid-145

情感/觀點/評論傾向性分析

實體識別&詞性標注

微博實體識別

https://github.com/hltcoe/golden-horse

boson數(shù)據(jù)

包含6種實體類型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日報數(shù)據(jù)集

人名、地名、組織名三種實體類型

1998：https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004：https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微軟亞洲研究院數(shù)據(jù)集

5 萬多條中文命名實體識別標注數(shù)據(jù)（包括地點、機構(gòu)、人物）

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005：一共有四個數(shù)據(jù)集，包含繁體中文和簡體中文，下面是簡體中文分詞數(shù)據(jù)。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU ：http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手機搜索排序

OPPO手機搜索排序query-title語義匹配數(shù)據(jù)集。

鏈接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n

網(wǎng)頁搜索結(jié)果評價(SogouE)

用戶查詢及相關URL列表

https://www.sogou.com/labs/resource/e.php

推薦系統(tǒng)

百科數(shù)據(jù)

維基百科

維基百科會定時將語料庫打包發(fā)布：

數(shù)據(jù)處理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬，爬取得鏈接：https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。

指代消歧

CoNLL 2012 ：http://conll.cemantix.org/2012/data.html

預訓練：（詞向量or模型）

BERT

開源代碼：https://github.com/google-research/bert

模型下載：BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

開源代碼：https://github.com/allenai/bilm-tf

預訓練的模型：https://allennlp.org/elmo

騰訊詞向量

騰訊AI實驗室公開的中文詞向量數(shù)據(jù)集包含800多萬中文詞匯，其中每個詞對應一個200維的向量。

下載地址：https://ai.tencent.com/ailab/nlp/embedding.html

上百種預訓練中文詞向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空數(shù)據(jù)集

https://github.com/ymcui/Chinese-RC-Dataset

中華古詩詞數(shù)據(jù)庫

最全中華古詩詞數(shù)據(jù)集，唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人，21050首詞。

https://github.com/chinese-poetry/chinese-poetry

保險行業(yè)語料庫

https://github.com/Samurais/insuranceqa-corpus-zh

漢語拆字字典

英文可以做char embedding，中文不妨可以試試拆字

https://github.com/kfcd/chaizi

中文數(shù)據(jù)集平臺

搜狗實驗室

搜狗實驗室提供了一些高質(zhì)量的中文文本數(shù)據(jù)集，時間比較早，多為2012年以前的數(shù)據(jù)。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語言處理與信息檢索共享平臺

http://www.nlpir.org/?action-category-catid-28

中文語料小數(shù)據(jù)

包含了中文命名實體識別、中文關系識別、中文閱讀理解等一些小量數(shù)據(jù)。

https://github.com/crownpku/Small-Chinese-Corpus

維基百科數(shù)據(jù)集

https://dumps.wikimedia.org/

NLP工具

THULAC：https://github.com/thunlp/THULAC ：包括中文分詞、詞性標注功能。

HanLP：https://github.com/hankcs/HanLP

哈工大LTP：https://github.com/HIT-SCIR/ltp

NLPIR：https://github.com/NLPIR-team/NLPIR

jieba分詞：https://github.com/yanyiwu/cppjieba

責任編輯：xj

原文標題：最全中文自然語言處理數(shù)據(jù)集、平臺和工具整理

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關注

關注
8

文章
7255

瀏覽量
91810
自然語言處理

自然語言處理

+關注

關注
1

文章
628

瀏覽量
14149
自然語言

自然語言

+關注

關注
1

文章
292

瀏覽量
13654
nlp

nlp

+關注

關注
1

文章
490

瀏覽量
22613

原文標題：最全中文自然語言處理數(shù)據(jù)集、平臺和工具整理

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

NLP中文自然語言處理數(shù)據(jù)集、平臺和工具整理

評論