在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

整理了一波關于醫療NLP的數據集

深度學習自然語言處理 ? 來源:python遇見NLP ? 作者:python遇見NLP ? 2020-10-10 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在Github上搜索整理了一波關于醫療NLP的數據集:

1

中文評測數據集

1. Yidu-S4K:醫渡云結構化4K數據集

2.瑞金醫院糖尿病數據集

3.Yidu-N7K:醫渡云標準化7K數據集

4.中文醫學問答數據集

5.平安醫療科技疾病問答遷移學習比賽

6.天池新冠肺炎問句匹配比賽

7.中文醫患問答對話數據

8.中文醫學問答數據

9.CHIP2020各項評測已開放

10.醫學數據挖掘與算法評測大賽

中文醫學知識圖譜

CMeKG

英文數據集

PubMedQA: A Dataset for Biomedical Research Question Answering

中文醫療領域語料

醫學教材 培訓考試

哈工大《大詞林》開放75萬核心實體詞及相關概念、關系列表(包含中藥/醫院/生物 類別)

醫學embedding

開源英文醫學embedding

鏈接:https://github.com/lrs1353281004/Chinese_medical_NLP

2

醫療行業專業詞匯語料

說明 數量 文件
口腔科病歷詞匯 11,170 stomatology.txt
國際疾病分類ICD全庫 54,304 ICD.csv
疾病診斷編碼庫ICD-10 12109 ICD-code-10.csv
醫院固定資產詞匯 471 properties.txt
藥品名稱詞匯 37,308 medicine.txt
電子病歷常見詞匯 1985 emr.txt

鏈接:https://github.com/xtea/chinese_medical_words

3

中文醫學NLP公開資源整理:術語集/語料庫/詞向量/預訓練模型/知識圖譜/命名實體識別/QA/信息抽取/etc

術語集/語料庫

medical-news中文醫學新聞爬蟲

medical-books中文LaTex開源醫學書籍

THUOCL清華大學thunlp組醫學詞匯

ICD-10-CNICD-10中文對應

OMAHA七巧板醫學術語集樣例數據

中文糖尿病標注數據集包含實體標注和關系標注

詞向量/預訓練模型

ChineseEHRBert 中文電子病歷預訓練Bert;用Bert測試命名實體識別,問答模型,關系提取任務

分詞

PKUSEGPKUSEG分詞工具,模型支持選擇醫學

知識圖譜 / 關系提取

cMeKGChinese Medical Knowledge Graph

瑞金醫院人工智能輔助構建知識圖譜大賽糖尿病相關的學術論文以及糖尿病臨床指南的實體標注和抽取實體關系任務

OMAHA知識圖譜(藥品適應癥)開放醫療與健康聯盟(Open Medical and Healthcare Alliance,OMAHA)構建的藥品與藥品適應證的知識圖譜數據

醫療知識圖譜數據醫療知識圖譜數據(ownthink)

病人事件圖譜數據集病人事件圖譜是一種新的基于RDF的醫療觀察性數據表示模型,可以清晰地表示臨床檢查、診斷、治療等多種事件類型以及事件的時序關系。使用三家上海三甲醫院的電子病歷數據,構建了包括3個專科、173395個醫療事件、501335個事件時序關系以及與5313個知識庫概念鏈接的醫療數據集。

中文癥狀庫這是一個包含癥狀實體和癥狀相關三元組的數據集。中文癥狀庫的數據來自8個主流的健康咨詢網站、3個中文百科網站和電子病歷。它還包含了中文癥狀與UMLS中概念的鏈接結果。

中醫醫案知識圖譜從醫案中抽取臨床知識構建知識圖譜,幫助用戶了解中醫特色療法,以及疾病(如“慢性胃炎”)的臨床表現、相關療法、相關養生保健方法等

herbnet 面向中藥研究,根據中藥領域模型的特點,構建了一個包括中醫疾病,方劑,中藥, 中藥化學成分,藥理作用,中藥實驗,化學實驗方法在內的中藥本體。進而,基于本體實現了一系列數據庫的集成,從而構建了一個中藥知識圖譜。

CHIP2020中文醫學文本實體關系抽取

命名實體識別

CCKS2017面向中文電子病歷的醫療實體識別及屬性抽取數據集

CCKS2018面向中文電子病歷的醫療實體識別及屬性抽取數據集

CCKS2019數據下載面向中文電子病歷的醫療實體識別及屬性抽取數據集

CHIP2020中文醫學文本命名實體識別

CHIP2020中藥說明書實體識別

QA

CCIR2019CCIR 2019 基于電子病歷的數據查詢類問答

cMedQA中文醫學QA數據集

cMedQA2中文醫學QA數據集

CMID中文醫學QA意圖理解數據集

KGQA基于醫藥知識圖譜的智能問答系統

chatbot-base-on-Knowledge-Graph使用深度學習方法解析問題 知識圖譜存儲 查詢知識點 基于醫療垂直領域的對話系統

中文醫療對話數據集Chinese medical dialogue data 中文醫療對話數據集

webMedQAwebMedQA

MedDialogThe MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.

CHIP2020中醫文獻問題生成

術語標準化

CHIP2019臨床術語標準化任務:醫渡云標準化7K數據集

CHIP2020臨床術語標準化任務

相似句對判斷

“公益AI之星”挑戰賽-新冠疫情相似句對判定大賽比賽整理近萬條真實語境下疫情相關的肺炎、支原體肺炎、支氣管炎、上呼吸道感染、肺結核、哮喘、胸膜炎、肺氣腫、感冒、咳血等患者提問句對,要求選手通過自然語言處理技術識別相似的患者問題。

其他

CHIP2018針對中文的真實患者健康咨詢語料,進行問句意圖匹配

CHIP2019平安醫療科技疾病問答遷移學習比賽

鏈接:https://github.com/GanjinZero/awesome_Chinese_medical_NLP

4

Data_數據中有6個文件夾分別是:

94596個問答對220606個問答對183751個問答對75553個問答對101602個問答對115991個問答對 總計 792099個問答對

每個文件夾下有一個csv文件,其中的數據格式為:

department title ask answer
心血管科 高血壓患者能吃黨參嗎? 我有高血壓這兩天女婿來的時候給我拿了些黨參泡水喝,您好高血壓可以吃黨參嗎? 高血壓病人可以口服黨參的。黨參有降血脂,降血壓的作用,可以徹底消除血液中的垃圾,從而對冠心病以及心血管疾病的患者都有一定的穩定預防工作作用,因此平時口服黨參能遠離三高的危害。另外黨參除了益氣養血,降低中樞神經作用,調整消化系統功能,健脾補肺的功能。感謝您的進行咨詢,期望我的解釋對你有所幫助。
消化科 哪家醫院能治胃反流 燒心,打隔,咳嗽低燒,以有4年多 建議你用奧美拉唑同時,加用嗎丁啉或莫沙必利或援生力維,另外還可以加用達喜片

鏈接:https://github.com/Toyhom/Chinese-medical-dialogue-data

5

This dataset is used for Chinese medical QA intent understanding task.

Dataset format:

All the data is stored in a JSON file. There are 5 fields in the file. An example as follows:

{ "originalText": "間質性肺炎的癥狀?", "entities": [{"label_type": "疾病和診斷", "start_pos": 0, "end_pos": 5}], "seg_result": ["間質性肺炎", "的", "癥狀", "?"], "label_4class": ["病癥"], "label_36class": ["臨床表現"] }

鏈接:https://github.com/liutongyang/CMID

6

This is the dataset for Chinese community medical question answering. The dataset is in version 1.0 and is available for non-commercial research. We will update and expand the database from time to time. In order to protect the privacy, the data is anonymized and no personal information is included.

鏈接:https://github.com/zhangsheng93/cMedQA

7

COVID19 Language Resources: Datasets

鏈接:https://github.com/lwgkzl/Covid19-NLP

8

Datasets

BioCreative V chemical-disease relation (CDR) corpus (in short, BC5CDR corpus) (13, 14, 16, 34): It consists of 1,500 PubMed articles with 4,409 annotated chemicals, 5,818 diseases, and 3,116 chemical-disease interactions. The relation task data is publicly available through BioCreative V athttps://biocreative.bioinformatics.udel.edu/resources/corpora/biocreative-v-cdr-corpus/.

Traditional Chinese medicine (TCM) literature corpus (in short, TCM corpus) (32): The abstracts of all 106,150 papers published in the 114 most popular Chinese TCM journals between 2011 to 2016 are collected. 3024 herbs, 4957 formulae, 1126 syndromes, and 1650 diseases are found. 5 types of relations are annotated. The entire dataset is available online athttp://arnetminer.org/TCMRelExtr.

The 2012 informatics for integrating biology and the bedside (i2b2) project temporal relations challenge corpus (in short, i2b2 temporal corpus) (29, 30): It contains 310 de-identified discharge summaries of more than 178,000 tokens, with annotations of clinically significant events, temporal expressions and temporal relations in clinical narratives. On average, each discharge summary in the corpus contains 86.6 events, 12.4 temporal expressions, and 176 raw temporal relations. In this corpus, 8 kinds of temporal relations between events and temporal expressions are defined: BEFORE, AFTER, SIMULTANEOUS, OVERLAP, BEGUN_BY, ENDED_BY, DURING, BEFORE_OVERLAP. The entire annotations are available athttp://i2b2.org/NLP/DataSets.

鏈接:https://github.com/chentao1999/MedicalRelationExtraction

責任編輯:lq
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 醫療
    +關注

    關注

    8

    文章

    1889

    瀏覽量

    59735
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25332
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22541

原文標題:醫療NLP相關數據集整理

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    數據下載失敗的原因?

    數據下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓練報錯網絡錯誤 大的數據多大?數據量有多少?
    發表于 06-18 07:04

    JCMsuite應用:四分之一波

    是光手性的本征態。因此,近場光手性密度與圓偏振密切相關。在幾何光學中,四分之一波板將線偏振轉換為圓偏振是眾所周知的。它們是由雙折射材料制成的,例如各向異性材料。片的厚度是尋常(x-)偏振和非尋常(z-
    發表于 02-21 08:49

    調試ESP8266成LWIP協議棧用UDP方式發送數據時,無法正常發送數據是哪里的問題?

    我在調試8266成LWIP協議棧用UDP方式發送數據時,參考別的環境的UDP例程,發現無法正常發送數據,反復檢查了,并確認8266已經通過WIFI連上網了,但是使用LWIP協議棧的UDP相關函數發送
    發表于 07-12 07:44

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次模型特點的分析: 詞匯層次 詞匯
    的頭像 發表于 07-09 10:39 ?799次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?1147次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學和人工智能領域的個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術的發展,NLP領域出現了
    的頭像 發表于 07-09 10:28 ?1004次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域都有廣泛
    的頭像 發表于 07-09 10:26 ?2093次閱讀

    nlp自然語言處理模型怎么做

    的進展。本文將詳細介紹NLP模型的構建過程,包括數據預處理、模型選擇、訓練與優化等方面。 數據預處理 數據預處理是NLP模型構建的第
    的頭像 發表于 07-05 09:59 ?1108次閱讀

    nlp自然語言處理的應用有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的個分支,它致力于使計算機能夠理解和生成自然語言。隨著技術的發展,NLP已經在許多領域得到了廣泛
    的頭像 發表于 07-05 09:55 ?3586次閱讀

    深度學習與nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習與NLP的區別。 深度學習簡介 深度學習是種基于人工神經網絡的機器學習方法
    的頭像 發表于 07-05 09:47 ?1567次閱讀

    NLP技術在機器人中的應用

    在人工智能的廣闊領域中,自然語言處理(NLP)技術作為連接人類語言與機器智能的橋梁,正逐漸滲透到我們日常生活的方方面面,其中機器人技術便是個尤為突出的應用領域。NLP技術不僅賦予了機器人理解
    的頭像 發表于 07-04 16:04 ?926次閱讀

    NLP技術在人工智能領域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發展中,NLP技術作為連接人類語言與機器
    的頭像 發表于 07-04 16:03 ?1205次閱讀

    NLP模型中RNN與CNN的選擇

    NLP中的應用場景、工作原理、優缺點,以及在選擇時應考慮的關鍵因素,以期為讀者提供個全面而深入的理解。
    的頭像 發表于 07-03 15:59 ?1016次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統。NLP的目標是使計算機能夠像人類
    的頭像 發表于 07-02 18:16 ?1941次閱讀

    PyTorch如何訓練自己的數據

    PyTorch是個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數據
    的頭像 發表于 07-02 14:09 ?3431次閱讀
    主站蜘蛛池模板: 天堂网2017 | 稀缺资源呦视频在线网站 | 视频在线免费观看网址 | 香港午夜理理伦_级毛片 | www.四虎影院在线观看 | 一级毛片免费毛片一级毛片免费 | 色依依视频视频在线观看 | 男人午夜禁片在线观看 | 四虎影院在线免费 | 夜夜操天天射 | 色多网站免费视频 | 亚洲色四在线视频观看 | 国产免费私拍一区二区三区 | 爱爱帝国亚洲一区二区三区 | 午夜黄视频 | 日本www色视频成人免费网站 | 国产真实偷乱视频在线观看 | 狠狠色丁香婷婷第六色孕妇 | 亚洲免费在线观看视频 | 激情久久久久久久久久久 | 日本成人福利视频 | 18videosex欧美69 | 黄色美女网站免费看 | 黄色888| 六月综合激情 | 在线99热 | 天堂在线中文无弹窗全文阅读 | 国产大乳孕妇喷奶水在线观看 | 国产三级一区 | 在线亚洲欧美性天天影院 | japanese色系tube日本护士 | 色秀视频免费网站在线观看 | 美女扒开尿口给男人桶动态图 | 日本免费视频 | 欧美大狠狠大臿蕉香蕉大视频 | 欧美最猛性xxxx免费 | 国产播放啪视频免费视频 | 亚洲一区二区三区四区在线 | 女人张开腿男人猛桶视频 | 久久激情网 | 色婷婷精品 |