在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2020-11-05 09:29 ? 次閱讀

資源整理了文本分類(lèi)、實(shí)體識(shí)別&詞性標(biāo)注、搜索匹配、推薦系統(tǒng)、指代消歧、百科數(shù)據(jù)、預(yù)訓(xùn)練詞向量or模型、中文完形填空等大量數(shù)據(jù)集,中文數(shù)據(jù)集平臺(tái)和NLP工具等。

本文內(nèi)容整理自:https://github.com/InsaneLife/ChineseNLPCorpus

文本分類(lèi)

新聞分類(lèi)

今日頭條中文新聞(短文本)分類(lèi)數(shù)據(jù)集:https://github.com/fateleak/toutiao-text-classfication-dataset

數(shù)據(jù)規(guī)模:共38萬(wàn)條,分布于15個(gè)分類(lèi)中。

采集時(shí)間:2018年05月。

以0.7 0.15 0.15做分割 。

清華新聞分類(lèi)語(yǔ)料:

根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過(guò)濾生成。

數(shù)據(jù)量:74萬(wàn)篇新聞文檔(2.19 GB)

小數(shù)據(jù)實(shí)驗(yàn)可以篩選類(lèi)別:體育, 財(cái)經(jīng), 房產(chǎn), 家居, 教育, 科技, 時(shí)尚, 時(shí)政, 游戲, 娛樂(lè)

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實(shí)驗(yàn):https://github.com/gaussic/text-classification-cnn-rnn

中科大新聞分類(lèi)語(yǔ)料庫(kù):http://www.nlpir.org/?action-viewnews-itemid-145

情感/觀點(diǎn)/評(píng)論 傾向性分析

實(shí)體識(shí)別&詞性標(biāo)注

微博實(shí)體識(shí)別

https://github.com/hltcoe/golden-horse

boson數(shù)據(jù)

包含6種實(shí)體類(lèi)型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日?qǐng)?bào)數(shù)據(jù)集

人名、地名、組織名三種實(shí)體類(lèi)型

1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微軟亞洲研究院數(shù)據(jù)集

5 萬(wàn)多條中文命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù)(包括地點(diǎn)、機(jī)構(gòu)、人物)

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005:一共有四個(gè)數(shù)據(jù)集,包含繁體中文和簡(jiǎn)體中文,下面是簡(jiǎn)體中文分詞數(shù)據(jù)。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU :http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手機(jī)搜索排序

OPPO手機(jī)搜索排序query-title語(yǔ)義匹配數(shù)據(jù)集。

鏈接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n

網(wǎng)頁(yè)搜索結(jié)果評(píng)價(jià)(SogouE)

用戶(hù)查詢(xún)及相關(guān)URL列表

https://www.sogou.com/labs/resource/e.php

推薦系統(tǒng)

百科數(shù)據(jù)

維基百科

維基百科會(huì)定時(shí)將語(yǔ)料庫(kù)打包發(fā)布:

數(shù)據(jù)處理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬,爬取得鏈接:https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。

指代消歧

CoNLL 2012 :http://conll.cemantix.org/2012/data.html

預(yù)訓(xùn)練:(詞向量or模型)

BERT

開(kāi)源代碼:https://github.com/google-research/bert

模型下載:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

開(kāi)源代碼:https://github.com/allenai/bilm-tf

預(yù)訓(xùn)練的模型:https://allennlp.org/elmo

騰訊詞向量

騰訊AI實(shí)驗(yàn)室公開(kāi)的中文詞向量數(shù)據(jù)集包含800多萬(wàn)中文詞匯,其中每個(gè)詞對(duì)應(yīng)一個(gè)200維的向量。

下載地址:https://ai.tencent.com/ailab/nlp/embedding.html

上百種預(yù)訓(xùn)練中文詞向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空數(shù)據(jù)集

https://github.com/ymcui/Chinese-RC-Dataset

中華古詩(shī)詞數(shù)據(jù)庫(kù)

最全中華古詩(shī)詞數(shù)據(jù)集,唐宋兩朝近一萬(wàn)四千古詩(shī)人, 接近5.5萬(wàn)首唐詩(shī)加26萬(wàn)宋詩(shī). 兩宋時(shí)期1564位詞人,21050首詞。

https://github.com/chinese-poetry/chinese-poetry

保險(xiǎn)行業(yè)語(yǔ)料庫(kù)

https://github.com/Samurais/insuranceqa-corpus-zh

漢語(yǔ)拆字字典

英文可以做char embedding,中文不妨可以試試拆字

https://github.com/kfcd/chaizi

中文數(shù)據(jù)集平臺(tái)

搜狗實(shí)驗(yàn)室

搜狗實(shí)驗(yàn)室提供了一些高質(zhì)量的中文文本數(shù)據(jù)集,時(shí)間比較早,多為2012年以前的數(shù)據(jù)。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語(yǔ)言處理與信息檢索共享平臺(tái)

http://www.nlpir.org/?action-category-catid-28

中文語(yǔ)料小數(shù)據(jù)

包含了中文命名實(shí)體識(shí)別、中文關(guān)系識(shí)別、中文閱讀理解等一些小量數(shù)據(jù)。

https://github.com/crownpku/Small-Chinese-Corpus

維基百科數(shù)據(jù)集

https://dumps.wikimedia.org/

NLP工具

THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標(biāo)注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP:https://github.com/HIT-SCIR/ltp

NLPIR:https://github.com/NLPIR-team/NLPIR

jieba分詞:https://github.com/yanyiwu/cppjieba

責(zé)任編輯:xj

原文標(biāo)題:最全中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7214

    瀏覽量

    89872
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    622

    瀏覽量

    13673
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13414
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22131

原文標(biāo)題:最全中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟

    Learning,簡(jiǎn)稱(chēng)ML)是人工智能的一個(gè)核心領(lǐng)域,它使計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)或決策。自然語(yǔ)言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系,因?yàn)闄C(jī)器學(xué)習(xí)提供了一種強(qiáng)大的工具,用于從大
    的頭像 發(fā)表于 12-05 15:21 ?842次閱讀

    ASR與自然語(yǔ)言處理的結(jié)合

    。以下是對(duì)ASR與自然語(yǔ)言處理結(jié)合的分析: 一、ASR與NLP的基本概念 ASR(自動(dòng)語(yǔ)音識(shí)別) : 專(zhuān)注于將人類(lèi)的語(yǔ)音轉(zhuǎn)換為文字。 涉及從聲音信號(hào)中提取特征,并將這些特征映射到文本。 NLP
    的頭像 發(fā)表于 11-18 15:19 ?575次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的區(qū)別

    是計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)領(lǐng)域的分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言NLP的目標(biāo)是縮小人類(lèi)語(yǔ)言和計(jì)算機(jī)之間的差距,使計(jì)算機(jī)能夠
    的頭像 發(fā)表于 11-11 10:35 ?842次閱讀

    nlp自然語(yǔ)言處理基本概念及關(guān)鍵技術(shù)

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言
    的頭像 發(fā)表于 07-09 10:32 ?821次閱讀

    nlp自然語(yǔ)言處理框架有哪些

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解和處理人類(lèi)
    的頭像 發(fā)表于 07-09 10:28 ?658次閱讀

    nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它研究如何讓計(jì)算機(jī)能夠理解、生成和
    的頭像 發(fā)表于 07-09 10:26 ?1355次閱讀

    nlp自然語(yǔ)言處理模型怎么做

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到計(jì)算機(jī)對(duì)人類(lèi)語(yǔ)言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,
    的頭像 發(fā)表于 07-05 09:59 ?746次閱讀

    nlp自然語(yǔ)言處理模型有哪些

    自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言。以下是對(duì)
    的頭像 發(fā)表于 07-05 09:57 ?916次閱讀

    nlp自然語(yǔ)言處理的應(yīng)用有哪些

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解和生成自然語(yǔ)言。隨著技術(shù)的發(fā)展,
    的頭像 發(fā)表于 07-05 09:55 ?2883次閱讀

    自然語(yǔ)言處理技術(shù)有哪些

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言
    的頭像 發(fā)表于 07-03 14:30 ?1445次閱讀

    自然語(yǔ)言處理模式的優(yōu)點(diǎn)

    得到了廣泛的應(yīng)用,如搜索引擎、語(yǔ)音助手、機(jī)器翻譯、情感分析等。 1. 提高信息獲取效率 自然語(yǔ)言處理技術(shù)能夠快速地從大量文本數(shù)據(jù)中提取關(guān)鍵信息,幫助用戶(hù)節(jié)省查找和篩選信息的時(shí)間。例如,搜索引擎通過(guò)
    的頭像 發(fā)表于 07-03 14:24 ?907次閱讀

    自然語(yǔ)言處理是什么技術(shù)的一種應(yīng)用

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它涉及到使用計(jì)算機(jī)技術(shù)來(lái)處理
    的頭像 發(fā)表于 07-03 14:18 ?1229次閱讀

    自然語(yǔ)言處理包括哪些內(nèi)容

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到計(jì)算機(jī)與人類(lèi)語(yǔ)言之間的交互。
    的頭像 發(fā)表于 07-03 14:15 ?1265次閱讀

    什么是自然語(yǔ)言處理 (NLP)

    自然語(yǔ)言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的一個(gè)重要分支,它專(zhuān)注于構(gòu)建能夠理解和生成人類(lèi)語(yǔ)言的計(jì)算機(jī)系統(tǒng)。
    的頭像 發(fā)表于 07-02 18:16 ?1381次閱讀

    自然語(yǔ)言處理技術(shù)的原理的應(yīng)用

    自然語(yǔ)言處理(Natural Language Processing, NLP)作為人工智能(AI)領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解和處理人類(lèi)
    的頭像 發(fā)表于 07-02 12:50 ?797次閱讀
    主站蜘蛛池模板: 国产一区二区三区影院 | 人人干视频 | 五月天伦理 | 一区二区三区四区视频在线观看 | 国产操比视频 | 夜色伊人 | 久久婷婷影院 | 26uuu另类欧美亚洲曰本 | 天天干天天拍 | 天天色综合天天 | 黄网站色成年片大免费软件 | 天堂在线免费 | 男人的天堂在线视频 | 一本到卡二卡三卡免费高 | 一区二区三区福利 | 亚洲成人高清在线 | 天天干在线免费视频 | 亚洲日本一区二区三区在线不卡 | 粗又长好猛好爽 | 免费国内精品久久久久影院 | 视频一二三区 | 韩国在线a免费观看网站 | 天天天天做夜夜夜做 | 99在线国产 | 日韩三级免费观看 | 丁香激情综合网 | 曰本在线| 国产乱码一区二区三区四川人 | 免费色站| 久久精品国产大片免费观看 | 欧美精品video | 亚洲婷婷在线视频 | 国产精品久久久久久久牛牛 | 天天躁夜夜躁狠狠躁2018a | 亚洲乱码一区二区三区在线观看 | 九九热re | 成人人免费夜夜视频观看 | yiren22亚洲综合高清一区 | 天天干视频网 | 97影院理论片在线观看 | 国产精品电影一区 |