NIH臨床中心最新公布了一個迄今規(guī)模最大的多類別、病灶級別標(biāo)注臨床醫(yī)療CT圖像開放數(shù)據(jù)集DeepLesion,研究人員在此基礎(chǔ)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),創(chuàng)建了一個具有統(tǒng)一框架的大規(guī)模通用病灶檢測器,能夠更準(zhǔn)確、更自動地衡量患者體內(nèi)所有病灶的大小,實(shí)現(xiàn)全身范圍的癌癥初步評估。
4427名獨(dú)立的匿名患者
10594次CT掃描(平均每位患者有3次隨訪)
32735個帶標(biāo)記的病灶實(shí)例
一共928020張CT橫切圖像(512×512分辨率)
這就是美國國家衛(wèi)生研究院(NIH)臨床中心最新公開發(fā)布的大型CT圖像數(shù)據(jù)集DeepLesion,也是迄今全球規(guī)模最大的多類別、病灶級別標(biāo)注的開放獲取臨床醫(yī)療圖像數(shù)據(jù)集。
“我們希望這項(xiàng)工作能更好地幫助放射科醫(yī)生進(jìn)行診斷,解決真正有意義的臨床問題。”DeepLesion項(xiàng)目技術(shù)負(fù)責(zé)人、現(xiàn)在已經(jīng)離開NIH、出任平安科技美國東部研究院院長的呂樂博士在接受新智元采訪時說:“這件工作首先離不開我們在NIH的臨床醫(yī)生合作者羅納德·撒莫斯(Ronald M. Summers),他是醫(yī)生里面對技術(shù)理解特別深刻的,為獲取這個臨床的大規(guī)模醫(yī)療數(shù)據(jù)集提供了極大的幫助和指導(dǎo)。”
“基于DeepLesion數(shù)據(jù)集,我們開發(fā)了一種通用的病變檢測器,第一次為幫助放射科醫(yī)生找到患者身上所有類型的病灶提供了技術(shù)可能。”DeepLesion項(xiàng)目的主要完成人,NIH臨床中心的博士后研究員閆軻介紹說。
目前,大多數(shù)公開可用的醫(yī)學(xué)圖像數(shù)據(jù)集,都只含有圖像級別的分類標(biāo)簽,而有病灶級別標(biāo)注的數(shù)據(jù)集,數(shù)量往往不足1000,而且大都針對單一類型的病灶,因此訓(xùn)練出的模型只能檢測一種病灶。而實(shí)際病灶的種類非常之多,這種方式就顯得有些低效。
2017年,同樣由呂樂和羅納德·撒莫斯博士率領(lǐng)的另一個NIH臨床中心研究團(tuán)隊,發(fā)布了一個含有超過10萬匿名胸部X光片的標(biāo)注圖像數(shù)據(jù)集,大幅推進(jìn)了相關(guān)醫(yī)療AI研發(fā),為醫(yī)生提供了更好的臨床診斷決策輔助。
這一次,呂樂、羅納德·撒莫斯和他們在NIH的同事,朝著一個更加宏大的目標(biāo)進(jìn)發(fā)——構(gòu)建一個囊括各種不同病灶的標(biāo)注數(shù)據(jù)集,并在此基礎(chǔ)上設(shè)計一個能夠檢測多種病灶的深度學(xué)習(xí)模型,從而更準(zhǔn)確、自動地衡量患者體內(nèi)所有病灶的大小,實(shí)現(xiàn)全身范圍的癌癥評估。
基于DeepLesion構(gòu)建的通用病灶檢測流程圖。來源:[1]
醫(yī)生手工標(biāo)注CT圖像,不適合用于訓(xùn)練AI
“美國的臨床醫(yī)療數(shù)據(jù)庫里,積累了醫(yī)生在臨床實(shí)踐中留下的成千上萬個病人的標(biāo)注數(shù)據(jù),”呂樂博士說:“但是,這些標(biāo)注往往不完整,是醫(yī)生為了輔助他們自己的工作進(jìn)行的,不適合用于訓(xùn)練AI系統(tǒng)。”
而為了訓(xùn)練AI系統(tǒng),請醫(yī)生專門對大量的醫(yī)療圖像進(jìn)行標(biāo)注又是不現(xiàn)實(shí)的,因?yàn)檫@需要耗費(fèi)大量的人力和時間成本。因此,這件事情只有靠計算機(jī)設(shè)計深度學(xué)習(xí)算法來完成。
而要設(shè)計深度學(xué)習(xí)算法,關(guān)鍵就是帶有準(zhǔn)確標(biāo)記的醫(yī)療圖像大數(shù)據(jù)。去除隱私后的公共醫(yī)療大數(shù)據(jù)本就不多,而且不同于其他類型的數(shù)據(jù)標(biāo)注,醫(yī)療圖像標(biāo)注需要豐富的臨床經(jīng)驗(yàn),即使是資深醫(yī)生,有時候也會在某個標(biāo)注上產(chǎn)生意見分歧。
其結(jié)果就是,真正可用的標(biāo)注醫(yī)療圖像數(shù)據(jù)集稀缺,盡管各種醫(yī)院診所里積累了大量的醫(yī)療圖像數(shù)據(jù)。
要設(shè)計深度學(xué)習(xí)算法解決臨床問題,“需要對技術(shù)和臨床實(shí)踐兩方面都擁有深刻的理解,”呂樂博士說:“AI 不是把放射科里面的東西再重新做一遍。哪些需求是臨床上迫切需要的,哪些需求是當(dāng)前技術(shù)能夠滿足的,將放射科學(xué)、計算機(jī)科學(xué)和人工智能結(jié)合在一起時,有很多需要深度考量和仔細(xì)權(quán)衡的東西,蠻干是不行的。”
為了構(gòu)建DeepLesion數(shù)據(jù)集,研究人員傾注了一年多的時間,期間在國際醫(yī)學(xué)圖像計算與計算機(jī)輔助干預(yù)大會(MICCAI)、北美放射學(xué)年會(RSNA)等醫(yī)學(xué)和放射影像國際頂會以及CVPR上,先后發(fā)表了12篇研究論文。
他們將工作成果匯聚為《DeepLesion: automated mining of large-scale lesion annotations anduniversal lesion detection with deep learning》,刊發(fā)在《Journalof Medical Imaging》。
現(xiàn)在,任何人都能訪問并使用NIH的DeepLesion數(shù)據(jù)集(鏈接見文末),醫(yī)生能夠更好地進(jìn)行自動臨床病灶測量或者檢索相似病例,AI研究人員則能進(jìn)一步完善和推動AI診療技術(shù)和產(chǎn)品的研發(fā)。
接下來,NIH臨床中心希望通過收集更多數(shù)據(jù),不斷完善DeepLesion,提高其檢測的準(zhǔn)確性。研究人員還考慮將現(xiàn)在僅含CT圖像的DeepLesion進(jìn)一步擴(kuò)展,比如納入MRI圖像,并與其他醫(yī)院的數(shù)據(jù)相結(jié)合,構(gòu)建更加豐富的臨床醫(yī)療圖像庫。
DeepLesion:迄今最大的多類別、病灶級標(biāo)注臨床醫(yī)療圖像開源數(shù)據(jù)集
在NIH臨床中心,每當(dāng)有患者做完CT掃描后,相應(yīng)的掃描圖像都會被送至放射科醫(yī)生處,然后醫(yī)生會對圖像進(jìn)行解讀。
接著,放射科醫(yī)生會使用一種類似電子書簽的工具,測量并標(biāo)記CT掃描中具有臨床意義的發(fā)現(xiàn)。與普通的實(shí)體書簽類似,放射科醫(yī)生會保存書簽的位置,并將重要發(fā)現(xiàn)加上標(biāo)記,以便以后能再次查閱。
這些書簽的內(nèi)容和形式很復(fù)雜,包括箭頭、線條、長短徑和文字說明等,用于標(biāo)記病灶的確切位置和大小,以便專家識別病情發(fā)展或發(fā)現(xiàn)新的疾病。
在計算機(jī)視覺領(lǐng)域,為了收集圖像標(biāo)簽,研究者會采用眾包或搜索引擎抓取,但這并不適用于醫(yī)學(xué)圖像,因?yàn)獒t(yī)學(xué)圖像的標(biāo)注需要大量的醫(yī)學(xué)知識和臨床經(jīng)驗(yàn)。
在開發(fā)DeepLesion數(shù)據(jù)集時,研究人員決定使用NIH臨床PACS數(shù)據(jù)庫中的“RECIST diameters”(Response Evaluation Criteria In Solid Tumors)長短徑標(biāo)注,這種標(biāo)注是醫(yī)生用來測量病灶大小的,被測量的一般都是醫(yī)生認(rèn)為比較重要的病灶,能夠提供最精確的信息,從而確保數(shù)據(jù)的有效性。此外,這種類型的標(biāo)注也是NIH數(shù)據(jù)庫中所有標(biāo)注類型中占比最高的一種。
藍(lán)線代表醫(yī)生在日常工作中對病灶進(jìn)行的長短徑標(biāo)注。來源: [1]
決定了要使用的標(biāo)注類型后,DeepLesion項(xiàng)目的命名人、NIH臨床中心的王潚崧博士與NIH PACS技術(shù)管理人員協(xié)商,確定了下載方案。隨后團(tuán)隊編寫程序,把含有長短徑標(biāo)注的圖像、圖像屬性和標(biāo)注從原始數(shù)據(jù)中提取出來,再按照病人編號、CT掃描編號(study index)、序列號(series number)和橫斷層編號(slice number)等進(jìn)行整理。
在實(shí)際場景中,每個病人會進(jìn)行多次CT掃描(每次掃描的時間點(diǎn)不同),每次掃描會生成多個序列(每個序列的造影劑增強(qiáng)、掃描重建參數(shù)等不同),而每個序列都是由幾十到上百個橫斷層圖像組成的3D影像。
數(shù)據(jù)清理和脫敏是一項(xiàng)浩大的工程。由于下載的電子書簽中含有個別錯誤,研究人員設(shè)計了一些規(guī)則,清除掉這些錯誤,噪聲、slice interval 信息的計算等,也都進(jìn)行了手工糾正。
十字交叉的紅線代表醫(yī)生日常標(biāo)注的長短徑標(biāo)注,綠框代表根據(jù)長短徑計算出的邊界框,黃點(diǎn)代表邊界框的中心,兩條相互垂直的藍(lán)線表示病灶的 x 軸和 y 軸,z 軸根據(jù)SSBR[3]算出。來源:[3]
對于圖像里可能含有的隱私信息,他們先用算法檢測圖像里的文字,然后人力檢查了圖像里是否有特別的首飾或者明顯的人臉,最后手工抹除相關(guān)部分。
“CT圖像的動態(tài)范圍較大,因此我們采用16比特?zé)o損壓縮png格式來保存所有圖像。這些圖像的使用方法可以參考數(shù)據(jù)集的FAQ文件,也可以參考論文[5]的源代碼。”
“在開始這個項(xiàng)目之前,沒想到構(gòu)建數(shù)據(jù)庫有這么復(fù)雜,”DeepLesion論文的第一作者、NIH臨床中心的博士后研究員閆軻告訴新智元:“不過想到能給其他研究者帶來好處,我們就有了持續(xù)前行的動力。”
構(gòu)建通用疾病檢測模型,推進(jìn)精準(zhǔn)個性化醫(yī)療
最終整理好的DeepLesion數(shù)據(jù)集,含有32735個帶標(biāo)記的病灶實(shí)例,包括來自全身各個部位的關(guān)鍵影像學(xué)發(fā)現(xiàn),比如肺結(jié)節(jié)、肝腫瘤、淋巴結(jié)腫大等。
DeepLesion數(shù)據(jù)集中一個子集(15%)的可視化結(jié)果,包含骨骼、肝臟、肺部、腹部、軟組織等全身各個部位的數(shù)據(jù)。散點(diǎn)圖是按照病灶在身體中的相對位置繪制的,可以看做一個人體的正面照。來源:[1]
在實(shí)驗(yàn)過程中,研究人員意識到,雖然不同病灶的外觀差異較大,但目前的深度學(xué)習(xí)算法完全有能力同時檢測出各種病灶,從而提供了一個很有希望的新方向——創(chuàng)建一個具有統(tǒng)一框架的大規(guī)模通用病灶檢測器。
這個通用檢測器可以作為一種初步的檢測工具來使用,如有需要再將其檢測結(jié)果發(fā)送給在某些特定類型的病灶上訓(xùn)練過的其他專用檢測模型。
閆軻說:“我們的數(shù)據(jù)集里包含了各種病灶,訓(xùn)練得到的是一個通用的檢測器,雖然在特定種類的病灶上精度可能比不過專用的檢測器,但優(yōu)點(diǎn)在于覆蓋了各種病灶,可以用來對病人的掃描影像進(jìn)行一次性的初篩,降低漏檢。”
黃色和橙色框是ground-truth,綠色框是算法正確檢測到的病灶,紅色框是誤檢。算法可以較好地檢測出各種病灶,但仍有一些漏檢和誤檢。來源:論文[5]
通用病灶檢測的難度遠(yuǎn)高于特定病灶檢測,DeepLesion中包含肺、肝、腎、淋巴、胰腺、骨骼、軟組織等各種病灶,病灶類內(nèi)差異大,類間差異小(肺、肝的病灶相對容易檢測一些,而一些腹腔中的病灶與周圍正常組織差異較小)。繼續(xù)收集數(shù)據(jù),可以進(jìn)一步提高準(zhǔn)確率。另外,算法的改進(jìn)空間也還有很大。
為了改進(jìn)病灶檢測的精度,NIH研究人員在MICCAI 2018上發(fā)表論文《3D Context Enhanced Region-based Convolutional Neural Network for End-to-End Lesion Detection》[5],提出了一種利用3D信息的檢測算法,將病灶識別準(zhǔn)確率提高到了84.37%(4 false positives per image)。算法代碼見[5]。
大規(guī)模的臨床醫(yī)療數(shù)據(jù)庫,是AI在臨床真正落地的唯一路徑
除了自動檢測病灶,DeepLesion還可以用于一些其他問題,比如對數(shù)據(jù)集中每個病灶進(jìn)行測量。“病灶的測量是放射科醫(yī)生的主要任務(wù)之一,”閆軻表示:“DeepLesion可以用于設(shè)計訓(xùn)練一個自動測量病灶的算法,減輕醫(yī)生的負(fù)擔(dān),同時降低不同醫(yī)生帶來的個體差異。”
此外,這個數(shù)據(jù)集還可以用于進(jìn)行病灶的分割、分類研究。NIH臨床中心的蔡進(jìn)錚博士和唐有寶博士利用DeepLesion,提出了弱監(jiān)督病灶分割算法,相關(guān)論文《AccurateWeakly-Supervised Deep Lesion Segmentation using Large-Scale Clinical Annotations: Slice-Propagated 3D Mask Generation from 2D RECIST》發(fā)表在了今年的醫(yī)學(xué)影像頂會MICCAI 2018。蔡進(jìn)錚和唐有寶的工作還把所有的二維直徑測量,用弱標(biāo)注的深度學(xué)習(xí)算法,變成了高質(zhì)量的腫瘤三維體積測量。
基于DeepLesion,提出的弱監(jiān)督病灶分割算法得到北美放射科醫(yī)生廣泛好評。來源:Twitter
這項(xiàng)工作在北美放射科專科醫(yī)生領(lǐng)域里引發(fā)了強(qiáng)烈反響,并收到了非常高的正面評價!主要原因是目前為止基于放射科醫(yī)生人工標(biāo)注的、在腫瘤圖像最大橫截面上的二維直徑測量,也即前文提到的RECIST,是記算并比較腫瘤大小的現(xiàn)行臨床標(biāo)準(zhǔn)。在實(shí)際工作中會造成很大的不決定性。基于絕對三維體積的腫瘤大小測量是公認(rèn)的黃金標(biāo)準(zhǔn),但因?yàn)橹谱髻M(fèi)事費(fèi)時,在臨床中并沒有被廣泛應(yīng)用。
這項(xiàng)工作基于DeepLesion數(shù)據(jù)庫,提出了基于弱監(jiān)督的深度學(xué)習(xí)腫瘤圖像分割算法,從臨床大數(shù)據(jù)中的直接利用原有的RECIST標(biāo)注,無需任何額外的人工標(biāo)注,即可學(xué)習(xí)和恢復(fù)三維的腫瘤分割和體積測量,并取得了好的定量和定性結(jié)果。擴(kuò)展的期刊版本正在準(zhǔn)備投稿《Radiology》。
“醫(yī)療AI技術(shù)的發(fā)展就是要讓醫(yī)生用起來有價值,真心愛用,”呂樂博士說:“Augmented intelligence for adding clinical value!”
把所有的二維直徑測量變成高質(zhì)量的腫瘤三維體積測量
DeepLesion里大部分病人都有多次CT掃描的數(shù)據(jù),而每次掃描又有多個不同病灶的標(biāo)注,這為研究不同病灶之間的關(guān)系,以及同一病灶隨時間的變化提供了可能。
“總之,這是一個給人很大想象和發(fā)揮空間的數(shù)據(jù)集。”閆軻說。
大規(guī)模的臨床數(shù)據(jù)庫是AI在臨床真正落地的唯一路徑;但標(biāo)注幾乎永遠(yuǎn)不可能是完美的,這就對新的更魯棒的深度學(xué)習(xí)算法提出了更多以及更高的要求。
DeepLesion的獲取方式也決定了它存在著一定的局限性。例如,醫(yī)生在工作中通常只會標(biāo)注有代表性的病灶,因此,數(shù)據(jù)集中存在著一些沒有標(biāo)出來的病灶。“我們也鼓勵有余力的醫(yī)生能夠在DeepLesion上繼續(xù)補(bǔ)全病灶標(biāo)注,以造福廣大研究者。”
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4783瀏覽量
101234 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24848 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5518瀏覽量
121604
原文標(biāo)題:NIH開源迄今最大臨床醫(yī)療圖像數(shù)據(jù)集,用深度學(xué)習(xí)構(gòu)建通用疾病檢測模型!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
智能醫(yī)療市場發(fā)展的規(guī)模及趨勢
2017美國AACC-全球最大規(guī)模的臨床實(shí)驗(yàn)室醫(yī)療展
計算機(jī)視覺/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集匯總
清洗誤標(biāo)注的開發(fā)集和測試集樣本
一個benchmark實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集上的OOD檢測
PCNN與粗集理論用于多聚焦圖像融合
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注模型
![基于卷積神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>標(biāo)注</b>模型](https://file.elecfans.com/web2/M00/49/76/poYBAGKhwLiADA0oAAASXMlJxHU764.jpg)
基于圖像自動標(biāo)注技術(shù)研究
多顯著對象圖像標(biāo)注方法
基于形式概念分析的圖像場景語義標(biāo)注模型
![基于形式概念分析的<b class='flag-5'>圖像</b>場景語義<b class='flag-5'>標(biāo)注</b>模型](https://file.elecfans.com/web2/M00/49/8C/poYBAGKhwMaAFY-gAAASJEMG9aY484.jpg)
基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注方法
![基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>標(biāo)注</b>方法](https://file.elecfans.com/web1/M00/6F/35/pIYBAFvukNSABWazAABOVTCJREk766.png)
醫(yī)學(xué)影像是AI醫(yī)療最熱門應(yīng)用場景之一 病灶區(qū)識別與標(biāo)注領(lǐng)域企業(yè)最多
![醫(yī)學(xué)影像是AI<b class='flag-5'>醫(yī)療</b>最熱門應(yīng)用場景之一 <b class='flag-5'>病灶</b>區(qū)識別與<b class='flag-5'>標(biāo)注</b>領(lǐng)域企業(yè)最多](https://file.elecfans.com/web1/M00/89/A4/o4YBAFyLRgaAJu-8AAESntk2LEs090.png)
數(shù)據(jù)標(biāo)注類相關(guān)文章:揭秘數(shù)據(jù)標(biāo)注的奧秘
圖像標(biāo)注如何提升效率?
![<b class='flag-5'>圖像</b><b class='flag-5'>標(biāo)注</b>如何提升效率?](https://file.elecfans.com/web2/M00/7E/AE/poYBAGOGzF6AIDgVAAAaMH2b3yk969.png)
評論