1 、概述
隨著信息技術(shù)和物聯(lián)網(wǎng)技術(shù)的發(fā)展、個人電腦和智能手機的普及以及社交網(wǎng)絡(luò)的興起,人類活動產(chǎn)生的數(shù)據(jù)正以驚人的速度增長。根據(jù)國際數(shù)據(jù)公司(International DataCorporation,IDC)的報告,僅2011年,全世界產(chǎn)生的數(shù)據(jù)就有1.8 ZB(1 ZB≈1 021 byte),并且平均每5年增長9倍[1]。大數(shù)據(jù)一詞由此而生。
大數(shù)據(jù)是指難以被傳統(tǒng)數(shù)據(jù)管理系統(tǒng)有效且經(jīng)濟地存儲、管理、處理的復(fù)雜數(shù)據(jù)集。大數(shù)據(jù)一般以PB為單位計量,并包含結(jié)構(gòu)化、半結(jié)構(gòu)化、無結(jié)構(gòu)化的數(shù)據(jù),大數(shù)據(jù)給數(shù)據(jù)的采集、運輸、加密、存儲、分析和可視化帶來了嚴峻的挑戰(zhàn)。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)包含5個V特性:Volume(數(shù)據(jù)規(guī)模巨大)、Variety(數(shù)據(jù)類型繁多)、Velocity(數(shù)據(jù)產(chǎn)生的數(shù)據(jù)非常快)、Veracity(分析結(jié)果取決于數(shù)據(jù)準確性)、Value(大數(shù)據(jù)一般包含非常重要的價值)。大數(shù)據(jù)帶來了存儲、管理、處理數(shù)據(jù)的挑戰(zhàn),也帶來了發(fā)掘數(shù)據(jù)中新的價值的機遇。多個行業(yè)已經(jīng)利用大數(shù)據(jù)改善業(yè)務(wù),例如金融業(yè)、零售業(yè)、生命科學(xué)、環(huán)境研究。大數(shù)據(jù)市場估計每年會增長50億美元的價值,到2020年將達到600億美元的價值。
醫(yī)療健康行業(yè)目前面臨著巨大的挑戰(zhàn),其中,最主要的挑戰(zhàn)包括:急劇升高的醫(yī)療支出、人口老齡化帶來的慢性疾病問題、醫(yī)療人員短缺、醫(yī)療欺詐等。國家統(tǒng)計局的數(shù)據(jù)顯示,我國2013年醫(yī)療衛(wèi)生總支出為31 668億元,較2012年上升12.6%,并且已經(jīng)連續(xù)8年每年增長超過10%。醫(yī)療支出已經(jīng)占據(jù)了社會總支出很大的比例,在可以預(yù)見的將來,醫(yī)療支出將會持續(xù)增長。然而,根據(jù)美國醫(yī)學(xué)研究院(Institute of Medicine,IOM)的一篇報告,如今醫(yī)療健康支出的1/3被浪費而沒有用于改善醫(yī)療。這些浪費包括不必要的服務(wù)、行政浪費、昂貴的醫(yī)療費用、醫(yī)療欺詐和錯失預(yù)防的機會。為了保持競爭力,醫(yī)療機構(gòu)必須把數(shù)據(jù)作為一種戰(zhàn)略資產(chǎn),分析數(shù)據(jù)以達到提高診斷準確度、提高療效、降低費用、減少浪費的目的。
醫(yī)療健康機構(gòu)采用大數(shù)據(jù)可以有效地幫助醫(yī)生進行更準確的臨床診斷;更精確地預(yù)測治療方案的成本與療效;整合病人基因信息進行個性化治療;分析人口健康數(shù)據(jù)預(yù)測疾病爆發(fā)等。利用大數(shù)據(jù)技術(shù)還能有效減少醫(yī)療成本,麥肯錫全球研究院預(yù)計使用大數(shù)據(jù)分析技術(shù)將每年為美國節(jié)省3 000億美元開支。其中,最有節(jié)省開支潛力的兩個方面包括臨床操作和研發(fā)。利用大數(shù)據(jù)技術(shù)幫助醫(yī)療企業(yè)實現(xiàn)其業(yè)務(wù)的例子正在快速增多。比如,ActiveHealthManagement收集用戶健康方面的數(shù)據(jù)以幫助用戶實現(xiàn)健康管理;CancerIQ整合臨床數(shù)據(jù)和基因數(shù)據(jù)幫助實現(xiàn)癌癥的風(fēng)險評估、預(yù)防和治療;CliniCast利用大數(shù)據(jù)預(yù)測治療效果以及降低花費。
本文首先介紹醫(yī)療健康行業(yè)的大數(shù)據(jù)特點以及大數(shù)據(jù)技術(shù)背景,然后舉例說明目前大數(shù)據(jù)在醫(yī)療健康行業(yè)的應(yīng)用,最后分析目前的醫(yī)療健康大數(shù)據(jù)系統(tǒng)及其相關(guān)技術(shù)。
2、 背景知識
2.1 大數(shù)據(jù)處理方法
根據(jù)麥肯錫全球研究院2011年的報告,適合大數(shù)據(jù)的處理技術(shù)包括:關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、數(shù)據(jù)融合、機器學(xué)習(xí)、自然語言處理、回歸、信號處理、仿真、可視化等。其中,關(guān)聯(lián)規(guī)則學(xué)習(xí)是挖掘各個變量間有趣的關(guān)系,比如在零售中發(fā)現(xiàn)經(jīng)常被一起買的商品,便于促銷;分類是通過訓(xùn)練已有的數(shù)據(jù)集來有效識別新的數(shù)據(jù),比如預(yù)測用戶的購買行為;聚類分析是按數(shù)據(jù)相似程度將整個數(shù)據(jù)集分為多個小規(guī)模的數(shù)據(jù)集;數(shù)據(jù)融合是將多個數(shù)據(jù)源的信息整合分析以產(chǎn)生新的更加精確、連續(xù)、有價值的信息;機器學(xué)習(xí)是一類算法的總稱,關(guān)注設(shè)計算法自動識別數(shù)據(jù)中的復(fù)雜模式;自然語言處理關(guān)注計算機與自然語言的聯(lián)系,幫助計算機識別人類語言;回歸是一組統(tǒng)計算法,用來判斷因變量與自變量的關(guān)系,以幫助預(yù)測。信號處理是一組用來識別、分析、處理信號的技術(shù);仿真是模擬一個復(fù)雜系統(tǒng)行為的技術(shù),經(jīng)常被用來預(yù)測;可視化是將數(shù)據(jù)處理為圖像、圖標、動畫,以幫助人類直觀了解數(shù)據(jù)。
2.2 大數(shù)據(jù)處理平臺
大數(shù)據(jù)的特點決定了傳統(tǒng)的數(shù)據(jù)庫軟件和數(shù)據(jù)處理軟件無法應(yīng)對存儲、處理、分析大數(shù)據(jù)的任務(wù)。大數(shù)據(jù)處理任務(wù)由運行在數(shù)十臺,甚至數(shù)百臺服務(wù)器的大規(guī)模并行軟件完成。常見的大數(shù)據(jù)處理平臺和工具有:MapReduce,其提供了一種分布式編程的抽象方法;Hadoop,其包含了多個系統(tǒng)和工具以幫助完成大數(shù)據(jù)任務(wù); HDFS,其用來可靠地分布式存儲數(shù)據(jù); Hive,其提供了Hado op上的SQL支持; HBase,它是基于HDFS的一種非關(guān)系型數(shù)據(jù)庫;Zookeeper,其提供了集群節(jié)點的一個管理方法。
2.3 醫(yī)療健康數(shù)據(jù)來源
醫(yī)院信息系統(tǒng)(hospital information system,HIS)是醫(yī)療數(shù)據(jù)的重要來源。醫(yī)院信息系統(tǒng)包括:電子病例系統(tǒng)(electronic medicalrecord system,EMRS)、實驗室信息系統(tǒng)(laboratory information system,LIS)、醫(yī)學(xué)影像存檔與通信系統(tǒng)(picture archiving &communicationsystem,PACS)、放射信息管理系統(tǒng)(radiology information system,RIS)、臨床決策支持系統(tǒng)(clinical decision support system,CDSS)等。根據(jù)中國醫(yī)院信息化狀況調(diào)查報告中對于醫(yī)院信息系統(tǒng)的總體實施現(xiàn)狀報告,截至2006年,電子病例系統(tǒng)、實驗室信息系統(tǒng)、醫(yī)學(xué)影像存檔與通信系統(tǒng)、臨床決策支持系統(tǒng)的已有或在建率分別為27.46%、37.70%、25.20%、12.30%。
除此之外,各種健康設(shè)備可以幫助收集用戶的生命體征信息,比如心電數(shù)據(jù)、血氧濃度、呼吸、血壓、體溫、脈搏、運動量。社交網(wǎng)絡(luò)和搜索引擎也包含了潛在的人口健康信息。
2.4 醫(yī)療健康大數(shù)據(jù)特點
醫(yī)療大數(shù)據(jù)除了包含了大數(shù)據(jù)5 個V 的特點之外,還有多態(tài)性、時效性、不完整性、冗余性、隱私性等特點。多態(tài)性指醫(yī)師對病人的描述具有主觀性而難以達到標準化;時效性指數(shù)據(jù)僅在一段時間內(nèi)有用;不完整性指醫(yī)療分析對病人的狀態(tài)描述有偏差和缺失;冗余性指醫(yī)療數(shù)據(jù)存在大量重復(fù)或無關(guān)的信息;隱私性指用戶的醫(yī)療健康數(shù)據(jù)具有高度的隱私性,泄漏信息會造成嚴重后果。
3 、醫(yī)療健康大數(shù)據(jù)應(yīng)用舉例
信息化的醫(yī)療數(shù)據(jù)、醫(yī)療研究數(shù)據(jù)、病人特征數(shù)據(jù)以及移動設(shè)備、社交網(wǎng)絡(luò)和傳感器產(chǎn)生的醫(yī)療健康相關(guān)的數(shù)據(jù)為醫(yī)療健康從業(yè)人員提供了新的思路,利用大數(shù)據(jù)技術(shù)可以從中發(fā)現(xiàn)潛在的關(guān)系、模式,從而幫助醫(yī)師提高診斷精度、預(yù)測治療效果、降低醫(yī)療成本,幫助醫(yī)藥公司發(fā)現(xiàn)潛在的藥物不良反應(yīng)、幫助公共衛(wèi)生部門及時發(fā)現(xiàn)潛在的流行病。下面將從公共衛(wèi)生、藥物副作用評估、治療預(yù)測與降低醫(yī)療成本、輔助診斷與個性化治療等幾個方面介紹大數(shù)據(jù)的用處。
3.1 助力公共衛(wèi)生檢測
2009年,Google比美國疾病控制與預(yù)防中心提前1~ 2周預(yù)測到了甲型H1N1流感爆發(fā),此事件震驚了醫(yī)學(xué)界和計算機領(lǐng)域的科學(xué)家,Google的研究報告發(fā)表在Nature雜志上。Google正是借助大數(shù)據(jù)技術(shù)從用戶的相關(guān)搜索中預(yù)測到流感爆發(fā)。隨后百度公司也上線了“百度疾病預(yù)測”借助用戶搜索預(yù)測疾病爆發(fā)。借助大數(shù)據(jù)預(yù)測流感爆發(fā)分為主動收集和被動收集,被動收集利用用戶周期提交的數(shù)據(jù)分析流感的當前狀況和趨勢,而主動收集則是利用用戶在微博的推文、搜索引擎的記錄進行分析預(yù)測。
FluNear You[12]借助用戶周期提交的自我流感檢測來預(yù)測流感的爆發(fā)。首先,用戶在Flu Near You的網(wǎng)站上注冊,隨后每個星期用戶將收到一封電子郵件,指引用戶登錄Flu Near You網(wǎng)站。在網(wǎng)站上,用戶填寫一份關(guān)于自己是否有流感癥狀的調(diào)查。最終Flu Near You收集信息并利用大數(shù)據(jù)技術(shù)生成目前流感疾病和未來流感疾病預(yù)測的可視化圖表。
流感爆發(fā)初期,通常伴隨著用戶在搜索引擎搜索相關(guān)內(nèi)容或在社交網(wǎng)絡(luò)上發(fā)布相關(guān)內(nèi)容,這些信息可以作為流行病爆發(fā)的初期預(yù)警。以用戶在Twitter上的推文以及英國健康保健局發(fā)布的城市流感樣病例率(influenza like illnessrate)為數(shù)據(jù)源,通過LASSO算法進行特征選擇,選擇推文關(guān)鍵字,建立未來數(shù)天流感樣病例率的預(yù)測模型,取得了比較精確的結(jié)果。在疾病傳播中,長時間與病原體接觸會增加感染的幾率,因此追蹤人口接觸信息以及人口位置信息將有助于了解流行病的行為。設(shè)計了一套使用智能手機自動收集人口位置信息與接觸信息的應(yīng)用。將流行病數(shù)據(jù)源分為媒體(包括官方媒體)、移動設(shè)備、社交網(wǎng)絡(luò)、Pro-Med郵件列表、實驗室和醫(yī)院數(shù)據(jù),并根據(jù)不同數(shù)據(jù)來源設(shè)計了一套收集數(shù)據(jù)、分析數(shù)據(jù)、驗證數(shù)據(jù)、數(shù)據(jù)可視化的系統(tǒng),用以直觀表現(xiàn)流行病的情況。
3.2 幫助發(fā)現(xiàn)藥物副作用
藥品上市后的不良反應(yīng)檢測一般依賴被動檢測和主動檢測。被動檢測依賴于醫(yī)生、患者、制藥公司提供的不良反應(yīng)報告。被動檢測最大的問題是漏報,認為94%的不良反應(yīng)沒有被報告。主動檢測則是利用文本挖掘、數(shù)據(jù)挖掘技術(shù)從EHR、EMR、社交網(wǎng)絡(luò)、搜索引擎中發(fā)現(xiàn)潛在藥品導(dǎo)致不良反應(yīng)事件。利用藥品不良反應(yīng)存在時間先后順序,挖掘電子病例中可能存在的藥物不良反應(yīng)。將引起不良反應(yīng)的條件分為使用一種藥品、兩種藥品、一種藥品和病人的一種特點、一種藥品和一種藥品過敏事件,根據(jù)決策樹、聚類等數(shù)據(jù)挖掘方法發(fā)現(xiàn)條件和不良反應(yīng)結(jié)果的關(guān)系。當藥物使用與不良反應(yīng)存在低頻率的因果關(guān)系時,一般的數(shù)據(jù)挖掘算法將難以分辨因果關(guān)系和偶然事件,基于預(yù)認知決策模型(RPD model)設(shè)計了多種算法用以發(fā)現(xiàn)藥品不良反應(yīng)中的低頻因果關(guān)系。
3.3 助力治療預(yù)測與降低醫(yī)療成本
目前,醫(yī)療健康行業(yè)成本高昂的部分原因來自醫(yī)療失誤和醫(yī)療浪費。根據(jù)1998年美國醫(yī)療協(xié)會的報告,僅僅在美國,可以避免的醫(yī)療失誤每年造成了98 000起死亡案例[26]。美國花在醫(yī)療健康上的費用超過1 700億美元,而中國每年花費在醫(yī)療健康上的費用超過30 000億元。在此背景下,多國通過改革醫(yī)療系統(tǒng)以減少醫(yī)療失誤及醫(yī)療浪費,最終削減醫(yī)療開支。美國于2011年通過的關(guān)于醫(yī)療健康信息技術(shù)的HITECH法案宣布:決定投入500億美元在5年內(nèi)使用信息技術(shù)解決醫(yī)療行業(yè)存在的問題。而中國在2009年宣布了花費1 200億元的10年醫(yī)療系統(tǒng)改革計劃的第一部分。
參考文獻中分析了澳大利亞的醫(yī)療保險行業(yè),認為使用目前的驗證技術(shù)無法有效發(fā)現(xiàn)醫(yī)療服務(wù)中存在的欺詐、濫用、浪費、錯誤等現(xiàn)象,原因在于舊的驗證技術(shù)只關(guān)注單個病例,無法利用多個病例間的聯(lián)系。作者以醫(yī)療賬單為數(shù)據(jù)源,建立關(guān)于治療費用、住院時間等數(shù)據(jù)的預(yù)測模型,使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)賬單中的異常數(shù)據(jù);使用領(lǐng)域?qū)<医⒌囊?guī)則庫分析異常賬單,發(fā)現(xiàn)其中可能存在的問題并給出警告。典型的應(yīng)用環(huán)境包括醫(yī)療器材濫用、手術(shù)過程與病情診斷不符、過度收費等。提早檢測出醫(yī)療過程中的問題將為國家保險機構(gòu)、患者、私立保險機構(gòu)節(jié)省大量花費。
3.4 輔助診斷
參考文獻[29,30]認為患者的基因型、生活方式、身體特征、多重病患嚴重影響了治療效果。提早根據(jù)患者的特征設(shè)計個性化的治療方案將有助于降低成本,減少醫(yī)療事故。參考文獻[31]認為通過挖掘用戶基因信息和電子病例可以做到:根據(jù)患者基因信息和患者的其他特征預(yù)測各種治療方案可能的副作用;選擇更好的治療方案,而不是嘗試各種治療方案;幫助用戶預(yù)防疾病或削弱疾病的影響。之后,參考文獻[31]設(shè)計了一套系統(tǒng)Mayo用來收集、存儲個性化治療所需要的數(shù)據(jù),并為數(shù)據(jù)分析師提供分析數(shù)據(jù)的平臺。參考文獻[32]則通過分析病人的特征數(shù)據(jù)并匹配相似病例以幫助醫(yī)師診斷。
4、 醫(yī)療健康大數(shù)據(jù)平臺
為了利用大數(shù)據(jù)技術(shù)處理醫(yī)療健康問題,需要針對數(shù)據(jù)特點以及處理方式設(shè)計專門的系統(tǒng)。下面主要介紹目前醫(yī)療健康大數(shù)據(jù)平臺如何設(shè)計以應(yīng)對挑戰(zhàn)。
4.1 個人數(shù)據(jù)收集系統(tǒng)
iEpi[1]是一個便于流行病醫(yī)療科研人員快速搭建起收集用戶接觸信息、位置信息平臺的系統(tǒng),本文主要對其進行介紹分析。
4.1.1 背景
智能手機的普及為獲取個人醫(yī)療數(shù)據(jù)提供了一個絕佳的機會,利用這些信息服務(wù)個人醫(yī)療、公共衛(wèi)生成了關(guān)注的焦點。多個應(yīng)用給予用戶控制自己健康狀況的自由,為醫(yī)療服務(wù)提供商提供病人的詳細狀態(tài)信息。這些應(yīng)用主要提供非聚集的信息。而聚集化的信息可以更容易地提供準確、一致性的信息。
人口的接觸信息提供了了解流行病傳播模式的機會。人口活動信息加上位置信息,可幫助城市規(guī)劃者了解建筑環(huán)境對健康的影響;加上環(huán)境質(zhì)量監(jiān)控器,可以幫助了解環(huán)境污染對健康的影響。
4.1.2 目標
設(shè)計一個個人數(shù)據(jù)收集系統(tǒng),周期性收集用戶數(shù)據(jù),包括位置、加速度、溫度、心跳等信息;
考慮到需要提供接觸信息,位置信息應(yīng)盡可能精準;
用戶可以設(shè)定所要收集的數(shù)據(jù)以及數(shù)據(jù)收集的頻率和持續(xù)時間;
考慮到醫(yī)療研究人員可能沒有編程經(jīng)驗,配置方式應(yīng)該簡單。
4.1.3 設(shè)計
iEpi系統(tǒng)包含2個部分:數(shù)據(jù)收集部分(HealthLogger)和輔助處理部分。其中,HealthLogger由5個模塊組成。
任務(wù)管理器:HealthLogger的任務(wù)包括上傳數(shù)據(jù)、傳輸數(shù)據(jù)、讀取傳感器。任務(wù)分連續(xù)性和周期性兩種方式調(diào)度,其中,周期性任務(wù)需要設(shè)置周期和持續(xù)時間。任務(wù)管理器也調(diào)度其他服務(wù)。
數(shù)據(jù)流和過濾器:數(shù)據(jù)流提供了訪問Android傳感器API和其他數(shù)據(jù)的標準接口,過濾器幫助用戶剔除不需要的數(shù)據(jù)。
數(shù)據(jù)日志和數(shù)據(jù)緩存:數(shù)據(jù)日志存放收集的數(shù)據(jù),數(shù)據(jù)緩存為數(shù)據(jù)日志提供臨時存放功能。
數(shù)據(jù)傳輸器:數(shù)據(jù)傳輸器是一個通用的文件上傳器,被HealthLogger的其他組件用來上傳數(shù)據(jù)到服務(wù)器。
iEpian:是HealthLogger提供的一種簡易腳本,用來為沒有編程經(jīng)驗的醫(yī)療研究員提供控制數(shù)據(jù)采集方式的功能。
因此,用戶可以在沒有編程經(jīng)驗的情況下完成數(shù)據(jù)采集器的設(shè)計。HealthLogger還提供了藍牙接口以幫助用戶采集其他設(shè)備提供的數(shù)據(jù),比如體重信息和飲食信息。當用戶數(shù)據(jù)被收集后,會以文件形式存放在Apache服務(wù)器,iEpi周期性地檢查新文件,對數(shù)據(jù)解密并解析,然后按用戶和數(shù)據(jù)采集周期存放到數(shù)據(jù)庫中。由于在室內(nèi)時GPS提供的位置信息不準確,為了提高位置信息的準確性,iEpi定位器采用SaskEPS算法利用接入點位置及信號強度提高室內(nèi)位置計算精確度。
4.2 面向病人的醫(yī)療健康網(wǎng)絡(luò)社區(qū)
DiabeticLink[27,33]為糖尿病患者及相關(guān)利益人員提供了一個多功能的健康網(wǎng)絡(luò)社區(qū),下面將分析其設(shè)計思路。
4.2.1 背景
目前,在美國,糖尿病影響了8%的人口,建立為糖尿病人服務(wù)的醫(yī)療健康網(wǎng)絡(luò)社區(qū)有助于幫助他們。該網(wǎng)絡(luò)社區(qū)主要提供以下4個方面的服務(wù):
糖尿病門戶及在線健康社區(qū),主要包括為病人提供論壇、博客等交流醫(yī)療經(jīng)驗及感情的服務(wù),還包括匿名交流的服務(wù);
糖尿病追蹤及可視化,包括記錄病人的醫(yī)療數(shù)據(jù)與健康數(shù)據(jù)并生成可視化報告;
糖尿病風(fēng)險報告,使用病人數(shù)據(jù)預(yù)測患病風(fēng)險,促進病人自我管理;
提供建議,為病人提供改善其狀態(tài)的建議,并鼓勵病人達成長期目標。
4.2.2 目標
設(shè)計一個面向病人的醫(yī)療健康網(wǎng)絡(luò)門戶,為患者、患者家屬、護士、醫(yī)師、制藥公司提供服務(wù)。其中,病人可以利用醫(yī)療健康網(wǎng)絡(luò)社區(qū)交流治療經(jīng)驗和疾病信息,學(xué)習(xí)醫(yī)療知識,以更好地了解自己的病情、控制病情發(fā)展;病人家屬可以利用醫(yī)療健康網(wǎng)絡(luò)社區(qū)了解病人疾病、討論治療經(jīng)驗、閱讀教育書籍,以提供更好的照顧;護士需要快速建立起疾病相關(guān)知識,以引導(dǎo)病人積極應(yīng)對治療。醫(yī)療健康網(wǎng)絡(luò)社區(qū)還提供了以下功能:醫(yī)師在面對不熟悉的疾病時,需要快速獲取相關(guān)工具和資源的通道;部分醫(yī)療健康網(wǎng)絡(luò)社區(qū)提供匿名的電子健康記錄,醫(yī)學(xué)研究員可以從中挖掘信息;制藥公司可以從醫(yī)療健康網(wǎng)絡(luò)社區(qū)挖掘藥物不良反應(yīng)信息。
4.2.3設(shè)計
為了滿足多方面的需求,除了提供簡單的醫(yī)療健康社區(qū)功能外,該系統(tǒng)還包含以下4個部分。
個性化病人智能工具:使用數(shù)據(jù)挖掘方法挖掘病人電子病例和病人博客以發(fā)現(xiàn)生活方式、治療和療效的關(guān)系,并為病人提供預(yù)防性建議。
疾病管理工具:記錄患者糖尿病參數(shù)(血糖、血壓、糖化血紅蛋白等)、營養(yǎng)、運動量、用藥量,并形成可視化報表,以幫助用戶管理自己的狀況。
社交功能:提供用戶分享經(jīng)驗和感情,提出回答問題,尋找情感支撐等功能。
教育功能:提供可信的醫(yī)療文章、研究報告、健康食譜等內(nèi)容,并為用戶提供知識搜索引擎。
4.3 個人體征數(shù)據(jù)收集與處理系統(tǒng)
參考文獻[34]為用戶提供了一個便于開發(fā)個人體征分析應(yīng)用的基于Hadoop的框架。
4.3.1 背景
醫(yī)療健康行業(yè)的重心正逐步從醫(yī)療轉(zhuǎn)向預(yù)防[35],而可穿戴醫(yī)療設(shè)備的興起為醫(yī)療健康行業(yè)的轉(zhuǎn)變提供了獨一無二的機會。利用可穿戴醫(yī)療設(shè)備從用戶身上收集生命體征數(shù)據(jù),比如心電圖、體溫、心跳,幫助提早檢測用戶患病危險、主動預(yù)防、管理健康。
生命體征數(shù)據(jù)包括像體溫、血壓這樣的間隔數(shù)據(jù),也包括像呼吸、心電圖這樣的連續(xù)測量才有意義的數(shù)據(jù)。前者可以用傳統(tǒng)數(shù)據(jù)庫存放,后者一般采用文件存放。
4.3.2 目標
設(shè)計一個個人健康分析系統(tǒng),以便用戶在此之上快速搭架生命體征分析應(yīng)用。系統(tǒng)應(yīng)該提供的服務(wù)包括:體征數(shù)據(jù)接收、數(shù)據(jù)存儲管理、數(shù)據(jù)分析接口、個性化服務(wù)(發(fā)送用戶服務(wù)數(shù)據(jù)到用戶的智能設(shè)備)。考慮到兩種不同體征數(shù)據(jù)形態(tài),系統(tǒng)應(yīng)該提供統(tǒng)一的處理方式。
4.3.3 設(shè)計
系統(tǒng)分為5個部分。
生命體征傳輸:為了提供可拓展性,系統(tǒng)采用符合W3C的SOAP標準傳輸數(shù)據(jù)。
中間服務(wù)層:為了對用戶提供統(tǒng)一的數(shù)據(jù)形式,系統(tǒng)添加中間服務(wù)層來預(yù)處理數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為符合HL7規(guī)范的數(shù)據(jù),中間服務(wù)層還提供接收體征數(shù)據(jù)、傳送數(shù)據(jù)到處理平臺、接收處理平臺結(jié)果并發(fā)送給用戶以及信號處理的功能(例如將加速度數(shù)據(jù)轉(zhuǎn)換為記步數(shù)據(jù))。
數(shù)據(jù)存儲服務(wù):系統(tǒng)接收中間服務(wù)層的數(shù)據(jù),存放至分布式數(shù)據(jù)庫HDFS中。
分析服務(wù):系統(tǒng)采用Hadoop作為主要的數(shù)據(jù)分析平臺。
4.4 小結(jié)
在設(shè)計醫(yī)療健康大數(shù)據(jù)處理平臺時,必須把數(shù)據(jù)放在優(yōu)先考慮的位置。下面總結(jié)了前文提到的醫(yī)療健康大數(shù)據(jù)平臺設(shè)計思路,提出了定義數(shù)據(jù)源、確定數(shù)據(jù)處理方式、分析數(shù)據(jù)流向、設(shè)計系統(tǒng)的一般步驟。
(1)定義數(shù)據(jù)源
醫(yī)療健康大數(shù)據(jù)的數(shù)據(jù)來源包括結(jié)構(gòu)化、半結(jié)構(gòu)化、無結(jié)構(gòu)化的醫(yī)療單位數(shù)據(jù)、個人健康數(shù)據(jù)和公共健康數(shù)據(jù)。例如醫(yī)療單位的電子病例數(shù)據(jù)、放射信息管理系統(tǒng)數(shù)據(jù),傳感器收集的體溫、脈搏等個人數(shù)據(jù),公共健康數(shù)據(jù)(包括政府發(fā)布的流感信息、社交媒體信息)等。為了實現(xiàn)良好的數(shù)據(jù)流,必須首先將平臺所要收集的信息分類,分析每種數(shù)據(jù)的特點,包括:是否是結(jié)構(gòu)化、無結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù);是否需要預(yù)處理;包含何種有用信息。
(2)確定數(shù)據(jù)處理方式
大數(shù)據(jù)的處理方式包括前文提到機器學(xué)習(xí)、分類、聚類、回歸等。根據(jù)上一步分析得到的數(shù)據(jù)特點和數(shù)據(jù)價值選擇相應(yīng)的處理方式。比如參考文獻[34]中,為了得到用戶的運動數(shù)據(jù),需要用戶的記步數(shù)據(jù),而記步數(shù)據(jù)可以通過將源數(shù)據(jù)中的用戶加速度信息經(jīng)過信號處理獲得。
(3)分析數(shù)據(jù)流向
根據(jù)數(shù)據(jù)源、數(shù)據(jù)處理方法和數(shù)據(jù)結(jié)構(gòu)確定數(shù)據(jù)流方向。iEpi[1]中的各類傳感器數(shù)據(jù)經(jīng)過在手機端匯總后到達服務(wù)器,以臨時文件方式存儲,經(jīng)過分析后存放在數(shù)據(jù)庫中,最后提供給用戶挖掘其中的關(guān)系、模式。
(4)設(shè)計系統(tǒng)
根據(jù)數(shù)據(jù)流的特點和數(shù)據(jù)處理方式選擇現(xiàn)有的大數(shù)據(jù)處理平臺作為子系統(tǒng),然后設(shè)計中間系統(tǒng)以連接多個子系統(tǒng)。
5 、醫(yī)療健康大數(shù)據(jù)技術(shù)
5.1 可視化技術(shù)
醫(yī)療可視化技術(shù)一直存在,比如X光、CT、核磁共振、遠程醫(yī)療等。醫(yī)療可視化的功能在于為病人、醫(yī)生以及利益相關(guān)者提供更深的理解,以幫助其做出更好的決策。
隨著醫(yī)療信息化的到來以及移動設(shè)備、社交網(wǎng)絡(luò)的流行,醫(yī)療健康數(shù)據(jù)呈爆發(fā)式增長,醫(yī)生、制藥公司、公共衛(wèi)生機構(gòu)無法在面對海量數(shù)據(jù)時有直觀的了解,需要利用可視化技術(shù)將數(shù)據(jù)以直觀的方式呈現(xiàn)給相關(guān)人員。
5.1.1 分析
醫(yī)療健康大數(shù)據(jù)來源主要包含3個方面[6]:個人健康數(shù)據(jù)、醫(yī)療數(shù)據(jù)、人口健康數(shù)據(jù)。在個人健康數(shù)據(jù)方面,數(shù)據(jù)來源主要是傳感器信息和在線信息。使用可視化技術(shù)處理個人健康數(shù)據(jù)、個人疾病數(shù)據(jù)可以幫助用戶更容易地實現(xiàn)健康管理、疾病管理。處理個人飲食、運動數(shù)據(jù)可以幫助用戶直觀了解身體狀況,有助于用戶保持身體健康。在醫(yī)療數(shù)據(jù)方面,數(shù)據(jù)來源主要是醫(yī)學(xué)研究數(shù)據(jù)、電子病例數(shù)據(jù)。醫(yī)生無法跟上從這些數(shù)據(jù)中發(fā)現(xiàn)新的醫(yī)學(xué)知識的速度并將其用到病人的治療上,醫(yī)療可視化將為醫(yī)生提供直觀了解新知識的機會。人口健康數(shù)據(jù)以及疾病監(jiān)控數(shù)據(jù)可以通過可視化技術(shù)幫助用戶了解人口健康狀況、疾病爆發(fā)狀況。
5.1.2 挑戰(zhàn)
由于需要處理大量數(shù)據(jù)以提供可視化的分析報告,可視化服務(wù)需要較長時延才能提供。當作為臨床決策支持系統(tǒng)時,醫(yī)師希望在短時間內(nèi)獲得服務(wù),這對可視化服務(wù)提供者提出了實時性服務(wù)的挑戰(zhàn)。
5.2 個性化醫(yī)療
考慮到患者間存在很大的差異,不存在針對一種病癥的適應(yīng)所有情況的治療方案[36],實際上,研究人員一直在尋找針對病人的治療經(jīng)歷、基因信息、遺傳信息、環(huán)境信息、生活方式等信息給予個性化治療的方案[37]。鑒于人類基因工程的原因,人類可以從基因角度給予患者個性化治療。
5.2.1 分析
個性化治療一般使用以下工具:家族健康歷史,利用家族健康歷史整合遺傳信息可以有效幫助預(yù)測疾病,進行主動的預(yù)防性措施;基因信息,指利用基因信息及其衍生物信息,包括RNA、蛋白質(zhì)、代謝產(chǎn)物信息進行疾病預(yù)測和個性化治療,然而,基因檢測費用高昂[38],基因多態(tài)性的特質(zhì)可能導(dǎo)致評估錯誤及預(yù)測錯誤,導(dǎo)致了通過基因檢測提供個性化治療難以獲得較高的性價比;臨床決策支持系統(tǒng),其提供了一個利用所有信息為患者提供個性化治療方案的機會。
5.2.2 挑戰(zhàn)
個性化醫(yī)療的挑戰(zhàn)主要在于部分用于疾病預(yù)測、療效預(yù)測的數(shù)據(jù)源難以獲得。首先,平價的個人基因分析技術(shù)應(yīng)該被提上日程;其次,用戶不愿意提交個人醫(yī)療數(shù)據(jù)的部分原因是擔(dān)心隱私泄露[39],這就對醫(yī)療數(shù)據(jù)提供商的安全和隱私保護提出了要求。
6 、結(jié)束語
本文首先介紹了大數(shù)據(jù)概念、特點與處理平臺,之后分析了醫(yī)療健康行業(yè)的數(shù)據(jù)來源與特點,然后討論了利用大數(shù)據(jù)技術(shù)應(yīng)對醫(yī)療健康行業(yè)挑戰(zhàn)的例子,最后介紹了醫(yī)療健康大數(shù)據(jù)系統(tǒng)與關(guān)鍵技術(shù)。目前醫(yī)療健康大數(shù)據(jù)還處于初期發(fā)展階段,但是它已經(jīng)展現(xiàn)了改變醫(yī)療服務(wù)的潛力。醫(yī)療健康服務(wù)提供商利用大數(shù)據(jù)分析技術(shù)可以從臨床數(shù)據(jù)、研究數(shù)據(jù)、個人健康數(shù)據(jù)、公共健康數(shù)據(jù)中挖掘潛在的關(guān)系,為臨床決策、公共衛(wèi)生、個人健康提供幫助。將來,醫(yī)療健康大數(shù)據(jù)將會快速地發(fā)展。目前,醫(yī)療健康大數(shù)據(jù)還面臨著諸多挑戰(zhàn),隱私問題關(guān)系到用戶的數(shù)據(jù)不會被用作惡意用途,數(shù)據(jù)安全和標準化需要成立專門的機構(gòu)來管理。然而,隨著技術(shù)的發(fā)展,醫(yī)療技術(shù)和大數(shù)據(jù)技術(shù)的結(jié)合將更好地為人類健康提供服務(wù)。
-
醫(yī)療
+關(guān)注
關(guān)注
8文章
1840瀏覽量
58984 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8910瀏覽量
137844
原文標題:醫(yī)療健康大數(shù)據(jù):應(yīng)用實例與系統(tǒng)分析
文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論