大模型想打開應(yīng)用前景,要從數(shù)據(jù)集入手。
胸部 X 光片圖像作為臨床診斷最常用的手段之一,是計算機(jī)與醫(yī)學(xué)結(jié)合的一個重要領(lǐng)域。其豐富的視覺和病例報告文本信息促進(jìn)了 vision-language 在醫(yī)學(xué)領(lǐng)域發(fā)展。醫(yī)學(xué) VQA 是其中的一個重要方向,近年來比較著名的 ImageCLEF-VQA-Med,和 VQA-RAD 數(shù)據(jù)集包含了許多了胸部 X 光片問答對。
然而,盡管 X 胸片檢查報告中包含大量臨床信息,現(xiàn)有醫(yī)學(xué) VQA 任務(wù)的問題種類和數(shù)量有限,在臨床方面的貢獻(xiàn)也相對有限。例如,ImageCLEF-VQA-Med 對于胸部 X 光片模態(tài)只有兩種問題,“這張圖片里是否有異常?”,以及 “這張圖片里最主要的異常是什么?”,VQA-RAD 的問題種類雖然更豐富,但是卻只含有 315 張圖片。
在今年的 KDD2023 上,來自德州大學(xué)阿靈頓分校,NIH 以及日本理化學(xué)研究所,東京大學(xué),國立癌癥研究中心的研究人員和放射科醫(yī)生,聯(lián)合設(shè)計了一個服務(wù)臨床診斷的大型 VQA 數(shù)據(jù)集,MIMIC-Diff-VQA。
論文地址:
https://arxiv.org/abs/2307.11986
該數(shù)據(jù)基于放射科胸片報告,設(shè)計了種類更加豐富,內(nèi)容更加準(zhǔn)確的具有邏輯遞進(jìn)的問答對,涵蓋 7 種不同的問題類型。
圖 1:臨床的診斷過程,醫(yī)生通過比較病程前后圖像的差異做出判斷
該研究同時提出了一個全新任務(wù),圖像對比 VQA (difference VQA):給定兩張圖片,回答關(guān)于這兩張圖片差異性的問題。在醫(yī)學(xué)領(lǐng)域,這個任務(wù)直接反映了放射科醫(yī)生的需求。在臨床實(shí)踐中,如圖 1 所示,醫(yī)生經(jīng)常需要對比回看病人之前的醫(yī)學(xué)影像,評估病灶變化情況并以評價診療過程。因此 Difference VQA 提出的問題包括” 這張圖片與過去的圖片相比有什么變化?”, “疾病的嚴(yán)重程度是否有減輕?” 本次公布的數(shù)據(jù)集包含 16 萬張圖片和 70 萬問題,這大大刷新了此前的醫(yī)學(xué) VQA 數(shù)據(jù)集的大小記錄。基于該數(shù)據(jù)集,本文同時也提供了一個利用 GNN 的 VQA 方法作為 basline。為了解決臨床放射科圖片中病人姿態(tài)差異的問題,該研究使用 Faster R-CNN 提取器官的特征作為圖的節(jié)點(diǎn),通過整合隱含關(guān)系、空間關(guān)系和語義關(guān)系三種圖網(wǎng)絡(luò)關(guān)系來融合了醫(yī)學(xué)專家的知識。其中空間關(guān)系是指各個器官之間的位置關(guān)系,語義關(guān)系包括解剖學(xué)和疾病關(guān)系知識圖,隱含關(guān)系通過全連接關(guān)系作為前兩者的補(bǔ)充。這些節(jié)點(diǎn)間的關(guān)系被嵌入到圖網(wǎng)絡(luò)的邊中,并通過 ReGAT (Relation-aware graph attention network) 用于對最終圖特征進(jìn)行計算。研究團(tuán)隊(duì)希望這個數(shù)據(jù)集能夠促進(jìn)醫(yī)學(xué)領(lǐng)域視覺問答技術(shù)的發(fā)展,特別是為如 GPT-4 等 LLM 真正服務(wù)于臨床提供基準(zhǔn),真正成為支持臨床決策和患者教育有用的工具。
一、 目前醫(yī)學(xué) Vision Language 發(fā)展現(xiàn)狀
醫(yī)學(xué) Vision Language 領(lǐng)域?qū)ΜF(xiàn)有醫(yī)療數(shù)據(jù)庫進(jìn)行了很多探索來訓(xùn)練深度學(xué)習(xí)模型。這些數(shù)據(jù)庫包括,MIMIC-CXR, NIH14 和 CheXpert 等。在這些工作通常分為三類:疾病標(biāo)簽的直接分類 (圖 2 (b)),醫(yī)學(xué)報告生成 (圖 2 (c)) 以及視覺問答任務(wù) (圖 2 (d))。疾病標(biāo)簽分類任務(wù)首先通過簡單的 rule-based 工具,例如 NegBio 和 CheXpert,從報告內(nèi)容中提取生成預(yù)先定義的標(biāo)簽, 隨后對正樣本和負(fù)樣本進(jìn)行分類。報告生成領(lǐng)域的方法繁多,諸如對比學(xué)習(xí),Attention 模型,Encoder-Decoder 模型等,核心工作都是將圖片信息轉(zhuǎn)化為文字來擬合原始的報告。盡管這些任務(wù)取得了很多進(jìn)展,但從具體臨床應(yīng)用角度來看仍存在局限性。
例如在疾病標(biāo)簽分類中 (圖 2 (b)) 中,自然語言處理(NLP)規(guī)則經(jīng)常處理不好不確定性和否定項(xiàng),導(dǎo)致提取的標(biāo)簽出了不準(zhǔn)確。同時,簡單的標(biāo)簽只提供了單一的異常信息,無法反映臨床疾病的多樣性。報告生成系統(tǒng) (圖 2 (c)) 通過挖掘圖像中的隱含信息避免這個問題,但是它不能結(jié)合臨床情況回答醫(yī)生關(guān)注的特定問題。例如圖 2 (a) 中,原始放射學(xué)報告中排除了多種常見或是醫(yī)生較為關(guān)注的疾病,但是人工報告生成器很難猜測放射科醫(yī)師想要排除哪些疾病。
相比之下,視覺問答(VQA)任務(wù) (圖 2 (c)) 更加可行,因?yàn)樗梢曰卮疳t(yī)生或病人所關(guān)注的特定問題,比如在之前提到的例子中,問題可以設(shè)定為 “圖像中是否有氣胸 “,而答案無疑是” 沒有 “。然而,現(xiàn)有的 VQA 數(shù)據(jù)集 ImageCLEF-VQA-Med 僅僅包含少量通用問題,比如” 圖像有什么問題嗎?這張圖像的主要異常是什么?",缺乏多樣性。這樣的問題不僅將 VQA 問題降級為分類問題,而且對臨床提供的幫助信息也有限。雖然 VQA-RAD 涵蓋 11 種問題類型的問題更加多樣,但該數(shù)據(jù)集僅含有 315 張圖像,無法充分發(fā)揮出需要大量數(shù)據(jù)投喂的深度學(xué)習(xí)模型的性能。為了填補(bǔ)醫(yī)學(xué) Vision Language 領(lǐng)域的這個空缺,該研究充分結(jié)合放射科醫(yī)生的實(shí)踐,提出了這項(xiàng)圖像對比 VQA(difference VQA)任務(wù),并且基于此任務(wù)構(gòu)建了一個大型的 MIMIC-Diff-VQA 數(shù)據(jù)集。
圖 2:目前醫(yī)學(xué) Vision Language 各種方法的對比
二、 數(shù)據(jù)集介紹
MIMIC-Diff-VQA 數(shù)據(jù)集包括 164,654 張圖片,和 700,703 問題,含蓋 7 種不同的具有臨床意義的問題類型,包括異常,存在,方位,位置,級別,類型,和差異。前六種問題和傳統(tǒng) VQA 一致,針對于當(dāng)前圖片提問,只有差異類型問題是針對兩張圖片的問題。各個問題的比例數(shù)據(jù)和完整問題列表請分別見圖 3 和見表格 1。
圖 3:MIMIC-Diff-VQA 問題類型的統(tǒng)計數(shù)據(jù)
表 1:每種問題類型的問題示例
三、數(shù)據(jù)集構(gòu)建
依托于 MIMIC-CXR 提供的海量的胸部 X 光片圖像和文本報告,從 377110 張圖片和 227835 個放射學(xué)報告中,該研究在放射科醫(yī)生的指導(dǎo)下構(gòu)建了 MIMIC-Diff-VQA 數(shù)據(jù)集。
構(gòu)造 MIMIC-Diff-VQA 數(shù)據(jù)集的第一步是提取一個 KeyInfo dataset。這個 KeyInfo dataset 包含每個放射學(xué)報告中的關(guān)鍵信息,比如報告中出現(xiàn)的肯定的異常對象,及其對應(yīng)的異常名稱、級別、類型、位置,以及否定出現(xiàn)的對象名。提取過程的第一步是根據(jù)醫(yī)生的意見選取出最常用的異常關(guān)鍵詞,和其對應(yīng)的屬性關(guān)鍵詞(級別、類型、位置),之后再設(shè)定相應(yīng)的規(guī)則對這些關(guān)鍵信息進(jìn)行提取,同時保留其” 肯定 / 否定 “信息。
為了保證數(shù)據(jù)集構(gòu)建的質(zhì)量,該研究主要遵循 “提取 - 檢查 - 修改” 的步驟,首先通過正則表達(dá)式設(shè)定的規(guī)則對數(shù)據(jù)庫報告中的關(guān)鍵信息進(jìn)行提取,然后利用手動和自動的方法對提取結(jié)果進(jìn)行檢查,接下來對出現(xiàn)問題的地方進(jìn)行修改使提取結(jié)果更加準(zhǔn)確。其中,檢查時使用的自動方法包括:使用 ScispaCy 提取報告中的 entity 名稱,考慮 Part-of-Speech 在句子中的作用,交叉驗(yàn)證 MIMIC-CXR-JPG 數(shù)據(jù)集中的 label 提取結(jié)果。綜合這些自動化方法和手動驗(yàn)證篩選,通過 “提取 - 檢查 - 修改” 的步驟,該研究最終完成了 KeyInfo dataset 的構(gòu)建。
在完成 KeyInfo dataset 的構(gòu)建之后,該研究便可以在其基礎(chǔ)上設(shè)計每一個病人的單次或多次訪問對應(yīng)的問題和答案,最終構(gòu)成了 MIMIC-Diff-VQA 數(shù)據(jù)集。
四、質(zhì)量保證
為了進(jìn)一步保證生成數(shù)據(jù)集的質(zhì)量,該研究使用三個人工驗(yàn)證者隨機(jī)對總計 1700 個考題和答案進(jìn)行了人工驗(yàn)證,如表 2 所示,最終的平均正確率達(dá)到了 97.4%。
表 2:人工驗(yàn)證數(shù)據(jù)集結(jié)果
五、Baseline 模型介紹
同時,在提出的數(shù)據(jù)集基礎(chǔ)上,該研究針對胸部 X 光片和 Difference VQA 任務(wù)設(shè)計了一個圖網(wǎng)絡(luò)模型。如圖 4 所示,考慮拍攝胸部 X 光片的過程中,到同一個病人在不同時間點(diǎn)可能由于身體姿態(tài)的不同,拍攝的圖像可能伴隨著大尺度的位移和改變。
圖 4:該研究提出方法的模型結(jié)構(gòu)
因此,gai通過對輸入的圖片進(jìn)行解剖學(xué)結(jié)構(gòu)定位,并提取對應(yīng)檢測對象的特征作為圖網(wǎng)絡(luò)的節(jié)點(diǎn),以排除病人身體姿態(tài)對特征的影響。圖網(wǎng)絡(luò)中的每一個節(jié)點(diǎn)是一個解剖學(xué)結(jié)構(gòu)位置的特征與問題特征的結(jié)合。為了充分挖掘圖像中可能包含的病變信息,該研究通過不同的預(yù)訓(xùn)練模型為每一個解剖學(xué)結(jié)構(gòu)提取一個純解剖學(xué)結(jié)構(gòu)特征和一個疾病特征。
在 “多關(guān)系圖網(wǎng)絡(luò)模塊” 中,該研究進(jìn)行了三種不同的圖網(wǎng)絡(luò)關(guān)系來計算最終的圖網(wǎng)絡(luò)特征,包括:隱含關(guān)系,空間關(guān)系,語義關(guān)系。對于隱含關(guān)系,使用簡單的全連接以讓模型在潛在關(guān)系中發(fā)掘有價值的信息。對于空間關(guān)系,研究團(tuán)隊(duì)考慮了節(jié)點(diǎn)之間 11 種不同的空間關(guān)系作為邊,并用 ReGAT (Relation-aware Graph Attention Network) 進(jìn)行計算。對于語義關(guān)系,該研究引入了兩種知識圖譜,即,共現(xiàn)知識圖譜(Co-occurrence Knowledge graph),和解剖學(xué)知識圖譜(Anatomical Knowledge graph)。前者考慮不同疾病之間共同出現(xiàn)的概率關(guān)系,后者考慮疾病與解剖學(xué)之間的關(guān)系。
由于該研究在第一步提取了對應(yīng)的解剖學(xué)結(jié)構(gòu)特征和疾病特征,于是便可以將他們嵌入到這兩種知識圖譜當(dāng)中。與空間關(guān)系的圖網(wǎng)絡(luò)計算類似,該研究考慮了三種語義關(guān)系:共現(xiàn)關(guān)系,解剖學(xué)關(guān)系,無關(guān)系,來作為圖網(wǎng)絡(luò)的邊,每一種關(guān)系用一個數(shù)字標(biāo)簽來進(jìn)行表征,并使用 ReGAT 進(jìn)行運(yùn)算。
最終,三種關(guān)系圖網(wǎng)絡(luò)計算后的節(jié)點(diǎn)特征進(jìn)行全局平均池化,得到最終圖像對應(yīng)的圖特征。將兩張圖片的圖特征相減便可得到差異圖特征。對這些特征通過注意力機(jī)制得到對應(yīng)的特征向量,然后將兩張圖片的特征向量和相減后得到的差異特征向量輸入最終的 LSTM 答案生成器,便可得到最終的答案。
該研究將模型與領(lǐng)域內(nèi)最先進(jìn)的方法做對比,包括 MMQ (Multiple Meta-model Quantifying), MCCFormers ( Multi-Change Captioning transformers), 和 IDCPCL (Image Difference Captioning with Pre-training and Contrastive Learning)。其中 MMQ 是傳統(tǒng)醫(yī)學(xué) VQA 模型,MCCFormers 和 IDCPCL 是差異描述(Difference Captioning)模型。由于 MMQ 無法處理多張圖像,該研究僅在除了 Difference 類問題以外的其他六種問題上將它與所提模型作對比。對于 MCCFormers 和 IDCPCL,由于他們不是 VQA 模型并且必須同時輸入兩張圖片,因此該研究僅在 Difference 類問題上與他們進(jìn)行對比。對比結(jié)果如表 3 和表 4 所示,該模型在 Difference VQA 上顯示出了更優(yōu)越的性能。
表 3:該研究提出的方法與 MMQ 在 non-difference 類問題上的準(zhǔn)確率對比
表 4:幾種方法與差異描述方法在 Difference 類問題上的對比
六、總結(jié)與討論
該研究提出了一個醫(yī)學(xué) Difference VQA 問題,并收集了一個大規(guī)模的 MIMIC-Diff-VQA 數(shù)據(jù)集,以此希望能對推動學(xué)界相關(guān)技術(shù)的發(fā)展,同時為醫(yī)學(xué)界提供有力的支持,包括提供臨床決策輔助和患者教育工具等方面。同時,該研究設(shè)計了一個專家知識感知的多關(guān)系圖網(wǎng)絡(luò)模型來解決這個問題,為學(xué)界提供了一個基準(zhǔn)模型作為參照。與當(dāng)前在相關(guān)領(lǐng)域最先進(jìn)的方法的比較表明,該研究所提方法取得了顯著改進(jìn)。
然而,該研究的數(shù)據(jù)集和方法仍存在一定的局限性,比如數(shù)據(jù)集沒有考慮對于特殊情況下同一個病灶出現(xiàn)在多于兩處的情況,以及同義詞的合并也有進(jìn)一步的提升空間。
此外,所提模型也會產(chǎn)生一些錯誤,包括:
對同一異常的不同呈現(xiàn)方面的混淆,例如肺不張和肺浸潤被互相誤認(rèn)。
相同類型異常的不同名稱,例如心影增大被錯誤分類為心臟肥大。
用于提取圖像特征的預(yù)訓(xùn)練模型(Faster-RCNN)可能提供不準(zhǔn)確的特征,并導(dǎo)致錯誤的預(yù)測,例如錯誤地將肺浸潤識別為胸膜積液。
-
模型
+關(guān)注
關(guān)注
1文章
3313瀏覽量
49226 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24834 -
大模型
+關(guān)注
關(guān)注
2文章
2549瀏覽量
3169
原文標(biāo)題:KDD2023 | GPT時代醫(yī)學(xué)AI新賽道:16萬張圖片、70萬問答對的臨床問答數(shù)據(jù)集MIMIC-Diff-VQA發(fā)布
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論