91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NLP中文自然語言處理數(shù)據(jù)集、平臺和工具整理

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-11-05 09:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

資源整理了文本分類、實體識別&詞性標注、搜索匹配、推薦系統(tǒng)、指代消歧、百科數(shù)據(jù)、預訓練詞向量or模型、中文完形填空等大量數(shù)據(jù)集,中文數(shù)據(jù)集平臺和NLP工具等。

本文內(nèi)容整理自:https://github.com/InsaneLife/ChineseNLPCorpus

文本分類

新聞分類

今日頭條中文新聞(短文本)分類數(shù)據(jù)集:https://github.com/fateleak/toutiao-text-classfication-dataset

數(shù)據(jù)規(guī)模:共38萬條,分布于15個分類中。

采集時間:2018年05月。

以0.7 0.15 0.15做分割 。

清華新聞分類語料:

根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成。

數(shù)據(jù)量:74萬篇新聞文檔(2.19 GB)

小數(shù)據(jù)實驗可以篩選類別:體育, 財經(jīng), 房產(chǎn), 家居, 教育, 科技, 時尚, 時政, 游戲, 娛樂

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實驗:https://github.com/gaussic/text-classification-cnn-rnn

中科大新聞分類語料庫:http://www.nlpir.org/?action-viewnews-itemid-145

情感/觀點/評論 傾向性分析

實體識別&詞性標注

微博實體識別

https://github.com/hltcoe/golden-horse

boson數(shù)據(jù)

包含6種實體類型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日報數(shù)據(jù)集

人名、地名、組織名三種實體類型

1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微軟亞洲研究院數(shù)據(jù)集

5 萬多條中文命名實體識別標注數(shù)據(jù)(包括地點、機構(gòu)、人物)

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005:一共有四個數(shù)據(jù)集,包含繁體中文和簡體中文,下面是簡體中文分詞數(shù)據(jù)。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU :http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手機搜索排序

OPPO手機搜索排序query-title語義匹配數(shù)據(jù)集。

鏈接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n

網(wǎng)頁搜索結(jié)果評價(SogouE)

用戶查詢及相關URL列表

https://www.sogou.com/labs/resource/e.php

推薦系統(tǒng)

百科數(shù)據(jù)

維基百科

維基百科會定時將語料庫打包發(fā)布:

數(shù)據(jù)處理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬,爬取得鏈接:https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。

指代消歧

CoNLL 2012 :http://conll.cemantix.org/2012/data.html

預訓練:(詞向量or模型)

BERT

開源代碼:https://github.com/google-research/bert

模型下載:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

開源代碼:https://github.com/allenai/bilm-tf

預訓練的模型:https://allennlp.org/elmo

騰訊詞向量

騰訊AI實驗室公開的中文詞向量數(shù)據(jù)集包含800多萬中文詞匯,其中每個詞對應一個200維的向量。

下載地址:https://ai.tencent.com/ailab/nlp/embedding.html

上百種預訓練中文詞向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空數(shù)據(jù)集

https://github.com/ymcui/Chinese-RC-Dataset

中華古詩詞數(shù)據(jù)庫

最全中華古詩詞數(shù)據(jù)集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。

https://github.com/chinese-poetry/chinese-poetry

保險行業(yè)語料庫

https://github.com/Samurais/insuranceqa-corpus-zh

漢語拆字字典

英文可以做char embedding,中文不妨可以試試拆字

https://github.com/kfcd/chaizi

中文數(shù)據(jù)集平臺

搜狗實驗室

搜狗實驗室提供了一些高質(zhì)量的中文文本數(shù)據(jù)集,時間比較早,多為2012年以前的數(shù)據(jù)。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語言處理與信息檢索共享平臺

http://www.nlpir.org/?action-category-catid-28

中文語料小數(shù)據(jù)

包含了中文命名實體識別、中文關系識別、中文閱讀理解等一些小量數(shù)據(jù)。

https://github.com/crownpku/Small-Chinese-Corpus

維基百科數(shù)據(jù)集

https://dumps.wikimedia.org/

NLP工具

THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP:https://github.com/HIT-SCIR/ltp

NLPIR:https://github.com/NLPIR-team/NLPIR

jieba分詞:https://github.com/yanyiwu/cppjieba

責任編輯:xj

原文標題:最全中文自然語言處理數(shù)據(jù)集、平臺和工具整理

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7255

    瀏覽量

    91810
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14149
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13654
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22613

原文標題:最全中文自然語言處理數(shù)據(jù)集、平臺和工具整理

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理NLP)模型的性能是一個多方面的任務,涉及數(shù)據(jù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個環(huán)節(jié)。以下是一些具
    的頭像 發(fā)表于 12-05 15:30 ?1695次閱讀

    如何使用自然語言處理分析文本數(shù)據(jù)

    使用自然語言處理NLP)分析文本數(shù)據(jù)是一個復雜但系統(tǒng)的過程,涉及多個步驟和技術。以下是一個基本的流程,幫助你理解如何使用NLP來分析文本
    的頭像 發(fā)表于 12-05 15:27 ?1570次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數(shù)據(jù)中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了一種強大的工具,用于從大
    的頭像 發(fā)表于 12-05 15:21 ?1970次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1490次閱讀

    什么是LLM?LLM在自然語言處理中的應用

    隨著人工智能技術的飛速發(fā)展,自然語言處理NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現(xiàn),標志著我們對語言理解能力的一次
    的頭像 發(fā)表于 11-19 15:32 ?3635次閱讀

    ASR與自然語言處理的結(jié)合

    。以下是對ASR與自然語言處理結(jié)合的分析: 一、ASR與NLP的基本概念 ASR(自動語音識別) : 專注于將人類的語音轉(zhuǎn)換為文字。 涉及從聲音信號中提取特征,并將這些特征映射到文本。 NLP
    的頭像 發(fā)表于 11-18 15:19 ?1020次閱讀

    循環(huán)神經(jīng)網(wǎng)絡在自然語言處理中的應用

    自然語言處理NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(RNN)因其在
    的頭像 發(fā)表于 11-15 09:41 ?811次閱讀

    使用LSTM神經(jīng)網(wǎng)絡處理自然語言處理任務

    自然語言處理NLP)是人工智能領域的一個重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(RNN)及其變體——長短期記憶(LSTM)網(wǎng)
    的頭像 發(fā)表于 11-13 09:56 ?1150次閱讀

    自然語言處理的未來發(fā)展趨勢

    隨著技術的進步,自然語言處理NLP)已經(jīng)成為人工智能領域的一個重要分支。NLP的目標是使計算機能夠理解、解釋和生成人類語言,這不僅涉及到
    的頭像 發(fā)表于 11-11 10:37 ?1716次閱讀

    自然語言處理與機器學習的區(qū)別

    是計算機科學、人工智能和語言學領域的分支,它致力于使計算機能夠理解、解釋和生成人類語言NLP的目標是縮小人類語言和計算機之間的差距,使計算機能夠
    的頭像 發(fā)表于 11-11 10:35 ?1525次閱讀

    自然語言處理的應用實例

    在當今數(shù)字化時代,自然語言處理NLP)技術已經(jīng)成為我們?nèi)粘I畹囊徊糠帧闹悄苁謾C的語音助手到在線客服機器人,NLP技術的應用無處不在。 1. 語音識別與虛擬助手 隨著Siri、Go
    的頭像 發(fā)表于 11-11 10:31 ?1607次閱讀

    使用LLM進行自然語言處理的優(yōu)缺點

    自然語言處理NLP)是人工智能和語言學領域的一個分支,它致力于使計算機能夠理解、解釋和生成人類語言。大型
    的頭像 發(fā)表于 11-08 09:27 ?2439次閱讀

    Llama 3 在自然語言處理中的優(yōu)勢

    自然語言處理NLP)的快速發(fā)展中,我們見證了從基于規(guī)則的系統(tǒng)到基于機器學習的模型的轉(zhuǎn)變。隨著深度學習技術的興起,NLP領域迎來了新的突破。Llama 3,作為一個假設的先進
    的頭像 發(fā)表于 10-27 14:22 ?726次閱讀

    AI大模型在自然語言處理中的應用

    AI大模型在自然語言處理NLP)中的應用廣泛且深入,其強大的語義理解和生成能力為NLP任務帶來了顯著的性能提升。以下是對AI大模型在NLP
    的頭像 發(fā)表于 10-23 14:38 ?1527次閱讀

    圖像識別技術包括自然語言處理

    圖像識別技術與自然語言處理是人工智能領域的兩個重要分支,它們在很多方面有著密切的聯(lián)系,但也存在一些區(qū)別。 一、圖像識別技術與自然語言處理的關系 1.1 圖像識別技術的定義 圖像識別技術
    的頭像 發(fā)表于 07-16 10:54 ?1560次閱讀
    主站蜘蛛池模板: 狠狠色噜噜狠狠狠狠2018 | 色伊人久久 | 一女被多男玩很肉很黄文 | 五月婷婷六月激情 | 大学生一级特黄的免费大片视频 | 欧美成人3d动漫在线播放网站 | 亚洲精品视频在线 | 在线欧美激情 | 国产成人精品系列在线观看 | 老色批影院 | 香港三澳门三日本三级 | 一个人看的www片免费高清视频 | 爱我免费视频观看在线www | jlzzjlzz亚洲大全| 色香蕉在线观看网站 | 色综合视频一区二区三区 | 中文字幕一区二区三区免费视频 | 天天做夜夜做久久做狠狠 | 欲色网站 | 四月婷婷七月婷婷综合 | 黄 色 录像成 人播放免费99网 | 久久国产99| 国产乱人视频在线看 | 日本欧美一区二区免费视 | 国产精品久久久久久影院 | 精品免费福利视频 | 国产国产人免费人成免费视频 | 一级 黄 色 片免费 一级@片 | luxu259在线中文字幕 | 亚洲欧美日韩在线观看你懂的 | 黄蓉吕文德欲乱系列小说 | 久热99| 高清国产一区二区三区 | 女人张开腿等男人桶免费视频 | www.xxx日本人 | 夜夜操天天操 | 夜夜爽爽爽 | 日本资源在线观看 | 在线免费黄色 | 日韩毛片 | 91福利免费视频 |