在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

整理了一波關(guān)于醫(yī)療NLP的數(shù)據(jù)集

深度學(xué)習(xí)自然語言處理 ? 來源:python遇見NLP ? 作者:python遇見NLP ? 2020-10-10 10:36 ? 次閱讀

在Github上搜索整理了一波關(guān)于醫(yī)療NLP的數(shù)據(jù)集:

1

中文評測數(shù)據(jù)集

1. Yidu-S4K:醫(yī)渡云結(jié)構(gòu)化4K數(shù)據(jù)集

2.瑞金醫(yī)院糖尿病數(shù)據(jù)集

3.Yidu-N7K:醫(yī)渡云標準化7K數(shù)據(jù)集

4.中文醫(yī)學(xué)問答數(shù)據(jù)集

5.平安醫(yī)療科技疾病問答遷移學(xué)習(xí)比賽

6.天池新冠肺炎問句匹配比賽

7.中文醫(yī)患問答對話數(shù)據(jù)

8.中文醫(yī)學(xué)問答數(shù)據(jù)

9.CHIP2020各項評測已開放

10.醫(yī)學(xué)數(shù)據(jù)挖掘與算法評測大賽

中文醫(yī)學(xué)知識圖譜

CMeKG

英文數(shù)據(jù)集

PubMedQA: A Dataset for Biomedical Research Question Answering

中文醫(yī)療領(lǐng)域語料

醫(yī)學(xué)教材 培訓(xùn)考試

哈工大《大詞林》開放75萬核心實體詞及相關(guān)概念、關(guān)系列表(包含中藥/醫(yī)院/生物 類別)

醫(yī)學(xué)embedding

開源英文醫(yī)學(xué)embedding

鏈接:https://github.com/lrs1353281004/Chinese_medical_NLP

2

醫(yī)療行業(yè)專業(yè)詞匯語料

說明 數(shù)量 文件
口腔科病歷詞匯 11,170 stomatology.txt
國際疾病分類ICD全庫 54,304 ICD.csv
疾病診斷編碼庫ICD-10 12109 ICD-code-10.csv
醫(yī)院固定資產(chǎn)詞匯 471 properties.txt
藥品名稱詞匯 37,308 medicine.txt
電子病歷常見詞匯 1985 emr.txt

鏈接:https://github.com/xtea/chinese_medical_words

3

中文醫(yī)學(xué)NLP公開資源整理:術(shù)語集/語料庫/詞向量/預(yù)訓(xùn)練模型/知識圖譜/命名實體識別/QA/信息抽取/etc

術(shù)語集/語料庫

medical-news中文醫(yī)學(xué)新聞爬蟲

medical-books中文LaTex開源醫(yī)學(xué)書籍

THUOCL清華大學(xué)thunlp組醫(yī)學(xué)詞匯

ICD-10-CNICD-10中文對應(yīng)

OMAHA七巧板醫(yī)學(xué)術(shù)語集樣例數(shù)據(jù)

中文糖尿病標注數(shù)據(jù)集包含實體標注和關(guān)系標注

詞向量/預(yù)訓(xùn)練模型

ChineseEHRBert 中文電子病歷預(yù)訓(xùn)練Bert;用Bert測試命名實體識別,問答模型,關(guān)系提取任務(wù)

分詞

PKUSEGPKUSEG分詞工具,模型支持選擇醫(yī)學(xué)

知識圖譜 / 關(guān)系提取

cMeKGChinese Medical Knowledge Graph

瑞金醫(yī)院人工智能輔助構(gòu)建知識圖譜大賽糖尿病相關(guān)的學(xué)術(shù)論文以及糖尿病臨床指南的實體標注和抽取實體關(guān)系任務(wù)

OMAHA知識圖譜(藥品適應(yīng)癥)開放醫(yī)療與健康聯(lián)盟(Open Medical and Healthcare Alliance,OMAHA)構(gòu)建的藥品與藥品適應(yīng)證的知識圖譜數(shù)據(jù)

醫(yī)療知識圖譜數(shù)據(jù)醫(yī)療知識圖譜數(shù)據(jù)(ownthink)

病人事件圖譜數(shù)據(jù)集病人事件圖譜是一種新的基于RDF的醫(yī)療觀察性數(shù)據(jù)表示模型,可以清晰地表示臨床檢查、診斷、治療等多種事件類型以及事件的時序關(guān)系。使用三家上海三甲醫(yī)院的電子病歷數(shù)據(jù),構(gòu)建了包括3個專科、173395個醫(yī)療事件、501335個事件時序關(guān)系以及與5313個知識庫概念鏈接的醫(yī)療數(shù)據(jù)集。

中文癥狀庫這是一個包含癥狀實體和癥狀相關(guān)三元組的數(shù)據(jù)集。中文癥狀庫的數(shù)據(jù)來自8個主流的健康咨詢網(wǎng)站、3個中文百科網(wǎng)站和電子病歷。它還包含了中文癥狀與UMLS中概念的鏈接結(jié)果。

中醫(yī)醫(yī)案知識圖譜從醫(yī)案中抽取臨床知識構(gòu)建知識圖譜,幫助用戶了解中醫(yī)特色療法,以及疾病(如“慢性胃炎”)的臨床表現(xiàn)、相關(guān)療法、相關(guān)養(yǎng)生保健方法等

herbnet 面向中藥研究,根據(jù)中藥領(lǐng)域模型的特點,構(gòu)建了一個包括中醫(yī)疾病,方劑,中藥, 中藥化學(xué)成分,藥理作用,中藥實驗,化學(xué)實驗方法在內(nèi)的中藥本體。進而,基于本體實現(xiàn)了一系列數(shù)據(jù)庫的集成,從而構(gòu)建了一個中藥知識圖譜。

CHIP2020中文醫(yī)學(xué)文本實體關(guān)系抽取

命名實體識別

CCKS2017面向中文電子病歷的醫(yī)療實體識別及屬性抽取數(shù)據(jù)集

CCKS2018面向中文電子病歷的醫(yī)療實體識別及屬性抽取數(shù)據(jù)集

CCKS2019數(shù)據(jù)下載面向中文電子病歷的醫(yī)療實體識別及屬性抽取數(shù)據(jù)集

CHIP2020中文醫(yī)學(xué)文本命名實體識別

CHIP2020中藥說明書實體識別

QA

CCIR2019CCIR 2019 基于電子病歷的數(shù)據(jù)查詢類問答

cMedQA中文醫(yī)學(xué)QA數(shù)據(jù)集

cMedQA2中文醫(yī)學(xué)QA數(shù)據(jù)集

CMID中文醫(yī)學(xué)QA意圖理解數(shù)據(jù)集

KGQA基于醫(yī)藥知識圖譜的智能問答系統(tǒng)

chatbot-base-on-Knowledge-Graph使用深度學(xué)習(xí)方法解析問題 知識圖譜存儲 查詢知識點 基于醫(yī)療垂直領(lǐng)域的對話系統(tǒng)

中文醫(yī)療對話數(shù)據(jù)集Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集

webMedQAwebMedQA

MedDialogThe MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.

CHIP2020中醫(yī)文獻問題生成

術(shù)語標準化

CHIP2019臨床術(shù)語標準化任務(wù):醫(yī)渡云標準化7K數(shù)據(jù)集

CHIP2020臨床術(shù)語標準化任務(wù)

相似句對判斷

“公益AI之星”挑戰(zhàn)賽-新冠疫情相似句對判定大賽比賽整理近萬條真實語境下疫情相關(guān)的肺炎、支原體肺炎、支氣管炎、上呼吸道感染、肺結(jié)核、哮喘、胸膜炎、肺氣腫、感冒、咳血等患者提問句對,要求選手通過自然語言處理技術(shù)識別相似的患者問題。

其他

CHIP2018針對中文的真實患者健康咨詢語料,進行問句意圖匹配

CHIP2019平安醫(yī)療科技疾病問答遷移學(xué)習(xí)比賽

鏈接:https://github.com/GanjinZero/awesome_Chinese_medical_NLP

4

Data_數(shù)據(jù)中有6個文件夾分別是:

94596個問答對220606個問答對183751個問答對75553個問答對101602個問答對115991個問答對 總計 792099個問答對

每個文件夾下有一個csv文件,其中的數(shù)據(jù)格式為:

department title ask answer
心血管科 高血壓患者能吃黨參嗎? 我有高血壓這兩天女婿來的時候給我拿了些黨參泡水喝,您好高血壓可以吃黨參嗎? 高血壓病人可以口服黨參的。黨參有降血脂,降血壓的作用,可以徹底消除血液中的垃圾,從而對冠心病以及心血管疾病的患者都有一定的穩(wěn)定預(yù)防工作作用,因此平時口服黨參能遠離三高的危害。另外黨參除了益氣養(yǎng)血,降低中樞神經(jīng)作用,調(diào)整消化系統(tǒng)功能,健脾補肺的功能。感謝您的進行咨詢,期望我的解釋對你有所幫助。
消化科 哪家醫(yī)院能治胃反流 燒心,打隔,咳嗽低燒,以有4年多 建議你用奧美拉唑同時,加用嗎丁啉或莫沙必利或援生力維,另外還可以加用達喜片

鏈接:https://github.com/Toyhom/Chinese-medical-dialogue-data

5

This dataset is used for Chinese medical QA intent understanding task.

Dataset format:

All the data is stored in a JSON file. There are 5 fields in the file. An example as follows:

{ "originalText": "間質(zhì)性肺炎的癥狀?", "entities": [{"label_type": "疾病和診斷", "start_pos": 0, "end_pos": 5}], "seg_result": ["間質(zhì)性肺炎", "的", "癥狀", "?"], "label_4class": ["病癥"], "label_36class": ["臨床表現(xiàn)"] }

鏈接:https://github.com/liutongyang/CMID

6

This is the dataset for Chinese community medical question answering. The dataset is in version 1.0 and is available for non-commercial research. We will update and expand the database from time to time. In order to protect the privacy, the data is anonymized and no personal information is included.

鏈接:https://github.com/zhangsheng93/cMedQA

7

COVID19 Language Resources: Datasets

鏈接:https://github.com/lwgkzl/Covid19-NLP

8

Datasets

BioCreative V chemical-disease relation (CDR) corpus (in short, BC5CDR corpus) (13, 14, 16, 34): It consists of 1,500 PubMed articles with 4,409 annotated chemicals, 5,818 diseases, and 3,116 chemical-disease interactions. The relation task data is publicly available through BioCreative V athttps://biocreative.bioinformatics.udel.edu/resources/corpora/biocreative-v-cdr-corpus/.

Traditional Chinese medicine (TCM) literature corpus (in short, TCM corpus) (32): The abstracts of all 106,150 papers published in the 114 most popular Chinese TCM journals between 2011 to 2016 are collected. 3024 herbs, 4957 formulae, 1126 syndromes, and 1650 diseases are found. 5 types of relations are annotated. The entire dataset is available online athttp://arnetminer.org/TCMRelExtr.

The 2012 informatics for integrating biology and the bedside (i2b2) project temporal relations challenge corpus (in short, i2b2 temporal corpus) (29, 30): It contains 310 de-identified discharge summaries of more than 178,000 tokens, with annotations of clinically significant events, temporal expressions and temporal relations in clinical narratives. On average, each discharge summary in the corpus contains 86.6 events, 12.4 temporal expressions, and 176 raw temporal relations. In this corpus, 8 kinds of temporal relations between events and temporal expressions are defined: BEFORE, AFTER, SIMULTANEOUS, OVERLAP, BEGUN_BY, ENDED_BY, DURING, BEFORE_OVERLAP. The entire annotations are available athttp://i2b2.org/NLP/DataSets.

鏈接:https://github.com/chentao1999/MedicalRelationExtraction

責(zé)任編輯:lq
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 醫(yī)療
    +關(guān)注

    關(guān)注

    8

    文章

    1840

    瀏覽量

    58999
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1210

    瀏覽量

    24861
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22125

原文標題:醫(yī)療NLP相關(guān)數(shù)據(jù)集整理

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    調(diào)試ESP8266成LWIP協(xié)議棧用UDP方式發(fā)送數(shù)據(jù)時,無法正常發(fā)送數(shù)據(jù)是哪里的問題?

    我在調(diào)試8266成LWIP協(xié)議棧用UDP方式發(fā)送數(shù)據(jù)時,參考別的環(huán)境的UDP例程,發(fā)現(xiàn)無法正常發(fā)送數(shù)據(jù),反復(fù)檢查了,并確認8266已經(jīng)通過WIFI連上網(wǎng)了,但是使用LWIP協(xié)議棧的UDP相關(guān)函數(shù)發(fā)送
    發(fā)表于 07-12 07:44

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次模型特點的分析: 詞匯層次 詞匯
    的頭像 發(fā)表于 07-09 10:39 ?484次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    神經(jīng)語言(Neuro-Linguistic Programming,NLP) 神經(jīng)語言是種心理學(xué)方法,它研究人類思維、語言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發(fā)表于 07-09 10:35 ?880次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學(xué)和人工智能領(lǐng)域的個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術(shù)的發(fā)展,NLP領(lǐng)域出現(xiàn)了
    的頭像 發(fā)表于 07-09 10:28 ?648次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域都有廣泛
    的頭像 發(fā)表于 07-09 10:26 ?1336次閱讀

    nlp自然語言處理模型怎么做

    的進展。本文將詳細介紹NLP模型的構(gòu)建過程,包括數(shù)據(jù)預(yù)處理、模型選擇、訓(xùn)練與優(yōu)化等方面。 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是NLP模型構(gòu)建的第
    的頭像 發(fā)表于 07-05 09:59 ?734次閱讀

    nlp自然語言處理的應(yīng)用有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個分支,它致力于使計算機能夠理解和生成自然語言。隨著技術(shù)的發(fā)展,NLP已經(jīng)在許多領(lǐng)域得到了廣泛
    的頭像 發(fā)表于 07-05 09:55 ?2867次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計算機科學(xué)領(lǐng)域中兩個非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度學(xué)習(xí)簡介 深度學(xué)習(xí)是種基于人工神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方法
    的頭像 發(fā)表于 07-05 09:47 ?1089次閱讀

    NLP技術(shù)在機器人中的應(yīng)用

    在人工智能的廣闊領(lǐng)域中,自然語言處理(NLP)技術(shù)作為連接人類語言與機器智能的橋梁,正逐漸滲透到我們?nèi)粘I畹姆椒矫婷妫渲袡C器人技術(shù)便是個尤為突出的應(yīng)用領(lǐng)域。NLP技術(shù)不僅賦予了機器人理解
    的頭像 發(fā)表于 07-04 16:04 ?605次閱讀

    NLP技術(shù)在人工智能領(lǐng)域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發(fā)展中,NLP技術(shù)作為連接人類語言與機器
    的頭像 發(fā)表于 07-04 16:03 ?711次閱讀

    NLP模型中RNN與CNN的選擇

    NLP中的應(yīng)用場景、工作原理、優(yōu)缺點,以及在選擇時應(yīng)考慮的關(guān)鍵因素,以期為讀者提供個全面而深入的理解。
    的頭像 發(fā)表于 07-03 15:59 ?667次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的個重要分支,它專注于構(gòu)建能夠理解和生成人類語言的計算機系統(tǒng)。NLP的目標是使計算機能夠像人類
    的頭像 發(fā)表于 07-02 18:16 ?1367次閱讀

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)

    PyTorch是個廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強大的動態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時,數(shù)據(jù)是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數(shù)據(jù)
    的頭像 發(fā)表于 07-02 14:09 ?2136次閱讀

    世優(yōu)塔AI數(shù)字人多模態(tài)交互系統(tǒng),賦能智慧醫(yī)療服務(wù)升級

    AI、大數(shù)據(jù)等技術(shù)賦能醫(yī)療行業(yè)成為大勢所趨,在線問診、遠程醫(yī)療等新業(yè)態(tài)在持續(xù)發(fā)展,世優(yōu)塔通過AI數(shù)字人技術(shù)創(chuàng)新,打破傳統(tǒng)醫(yī)療服務(wù)模式的局限
    的頭像 發(fā)表于 06-13 10:33 ?661次閱讀
    世優(yōu)<b class='flag-5'>波</b>塔AI數(shù)字人多模態(tài)交互系統(tǒng),賦能智慧<b class='flag-5'>醫(yī)療</b>服務(wù)升級

    SI學(xué)習(xí)資料整理:說說PCB和PCBA

    整理SI資料之前,先整理些基本的PCB概念的東西,幫助后面更好的理解。
    的頭像 發(fā)表于 05-21 15:19 ?851次閱讀
    SI學(xué)習(xí)資料<b class='flag-5'>整理</b>:說<b class='flag-5'>一</b>說PCB和PCBA
    主站蜘蛛池模板: 国产亚洲精品在天天在线麻豆 | 欧美激情啪啪 | 国产一级特黄a大片免费 | 欧美日穴| 日本簧片在线观看 | 狠狠五月天 | 国产精品影视 | 同性恋激情视频 | 久久国产免费 | 亚洲伦理中文字幕一区 | 一级毛片免费毛片一级毛片免费 | 四虎永久在线视频 | 成人网在线 | 狠狠色狠狠色 | 亚洲综合激情九月婷婷 | 亚洲精品在线免费观看视频 | 欧美a色| 欧美午夜免费观看福利片 | 99久久精品费精品国产一区二区 | 人人干人人爱 | 欧美性黑人极品hd网站 | 欧美 亚洲 一区 | 精品国产_亚洲人成在线高清 | 日本不卡专区 | 国产精品第九页 | 久久精品国产福利 | 久久精品国产精品亚洲婷婷 | 天天狠狠弄夜夜狠狠躁·太爽了 | 国产三级在线观看视频 | 女同激情视频 | 国产精品电影一区 | h视频在线免费看 | 国产午夜视频在永久在线观看 | 色噜噜狠狠成人中文小说 | 99热最新 | 免费久久久久 | 噜噜噜色噜噜噜久久 | 狠狠色伊人亚洲综合第8页 狠狠色依依成人婷婷九月 狠狠色影院 | 男人操女人的网站 | 天天精品视频 | 午夜影院免费 |