由中國人工智能學會主辦,廣州易間網絡科技有限公司承辦的2018第八屆中國智能產業高峰論壇11 月17-18日在成都完美收官,論壇在兩天的會議里帶來了多場精彩報告。
此次小編為大家整理的是來自清華大學電子工程系副主任吳及主題為《知識與智能——從醫考引擎走向智慧醫療》的精彩演講。
吳及
清華大學電子工程系副主任
以下內容根據速記進行整理
經過吳及本人校對
本次論壇覆蓋到了人工智能+的幾個方面,包括智慧醫療、智慧金融、智慧司法和商業智能。我的題目《知識與智能》是借了論壇的名字,很高興有機會介紹一些我們的工作和思考。
人工智能第三次浪潮大家很熟悉,有一個標志性的事件就是AlphaGO,通過一系列的人機對決,人們終于認識到在圍棋這個領域,人已經不是機器的對手。不管以前大家怎么樣去看待個圍棋,計算機的獲勝最終證明圍棋就是一個計算問題。AlphaGO采用的主要策略包括蒙特卡洛搜索樹、策略網絡、價值網絡,采用強化學習進行訓練。Deepmind在強化學習上下了很多功夫,在很大程度上推進這方面的研究。
人工智能不僅能下圍棋,還能玩游戲。這是一個彈球游戲,看機器達到了什么樣的水平?如果擋板能擋住小球,反彈起來就可以繼續得分,次數越多,得到的分數就越高。迭代次數越多表現越好,擋板的移動速度越來越快,預測越來越準確。而到600輪迭代后,就從量變產生了質變。人工智能系統找到一個有效的策略,把球彈到上面,在上面不斷的得分,只要不掉下來,下面的板根本不用動。每次小球從上面掉下來時,它就試圖把這個球反彈到上面去,經過600輪迭代優化實現了這個能力,這是典型的強化學習。在這樣的學習過程中,其唯一需要就是游戲規則,規則決定只要不把這個球漏掉,只要不斷反彈就可以不斷得分,于是它就學習到了這個策略。在這個游戲中,人工智能系統進行600次迭代用不很長時間,然后就可以把游戲玩得這么好;而人類,無論哪個游戲高手想在短時間內練到這個水平,都是很困難的。
Deepmind寫了篇論文,發表在Nature上,題目就是《機器掌握下圍棋的游戲不需要人類知識》。實際上他們確實做到,不需要任何知識,只是通過機器的自我學習,機器在圍棋上已經超過所有下圍棋的人類高手。我舉這個例子,實際上是提出了一個問題,就是從實現人工智能的角度,知識有沒有用,有多大用?這在學術上其實有不同的觀點,并不是很一致。有人認為有數據就夠了,也有人認為有數據加一小部分知識就夠了,也有可能像我們今天這個論壇,在座的大部分人可能都認為知識很重要。
舉一個例子。假設有兩個人在聊天,第一個人和第二個人說我想上廁所,第二個人說街角有個肯德基。大家都不難明白他想表達的是什么意思。但是如果我們不具備生活常識,假設從宋代抓一個人來,他肯定理解不了。理解不僅依靠這句話本身,還需要有世界知識。想實現自然語言理解,很多時候只依靠自然語言的句子本身是做不到的,必須要有足夠的背景知識。
現在很流行穿越小說,但這真的只能當小說讀。我們如果把一個人扔到古代去,他可能連一天活不了,所以知識是非常重要的。人工智能本質上就是一門關于知識的學科,涉及到怎樣表述知識、獲得知識和使用知識。我們這里討論知識與智能,相信在絕大多數實際生活的場景下,沒有知識就不會有智能。
自從AlphaGO的成功之后,人工智能有很多進一步研究是關于考試的。日本國立情報學研究所和東京大學等機構想合作研發一個高考機器人,目標是2020年考上東京大學。它在2015、2016年兩次參加了日本的高考,分數超過了日本高考學生平均成績,但是離考上東京大學還有很大差距。經過兩年的嘗試,他們放棄了后續的嘗試。主要原因是,第二次參加考試比第一次只進步了十幾分,有一些理解的問題并沒有有效的路徑去解決,因此放棄了考上東京大學的設想,轉而到工業界去尋找可能的應用。
另一個例子是美國有一個研究所AI2,是由微軟的聯合創始人保羅·艾倫創辦的。他們嘗試做的一個工作,就是開發人工智能系統去參加美國中小學的生物考試。美國大學前教育是12年制,這個智能機器的水平,我們了解到的是已經通過了四年級的考試,但還沒有通過八年級的考試。我國“863”計劃也有個項目是研究高考機器人,希望能在2020年考上清華大學;中國成都的一個公司研發了名為“學霸君”的系統,去年用高考的數學考試進行了測試。
現在機器玩游戲的水平已經很高,下圍棋人類已經不是機器的對手,機器的下一個目標就是在考試上挑戰人類。考試是以標準程序和方式考核學生特定范疇知識的方法,以往的考試都是面對人的。在很多應用中,人和機器是相互協作的,我們在淘寶上買東西就是這樣,系統希望你有很好的購物體驗,你希望能順利買到滿意的商品,所以你們是完全的合作關系,目標一致。但考試不是,考試是有限合作,考試要考出學生之間的差距來,要有區分度;而學生想盡量考出一個好成績。因此在考試這件事情上,人和AI是部分協作的關系。
我們前幾年開始進入智慧醫療的領域,作為階段性的研究目標,想研發一個人工智能系統去參加國家執業醫師考試。醫學考試的知識量非常大,我們當時購買了大量的醫學教材。一個醫學院的學生在5~8年的學習過程中,有大量的知識需要學習;而且僅有書本知識還不夠,任何一個只讀過書但沒有經歷過臨床實踐鍛煉的醫生都不實際具備看病的能力。所以要成為合格的醫生既需要理論知識,又需要實踐經驗。國家執業醫師考試是一個高利害的考試,在我國要想成為真正的醫生,就必須通過這個考試,否則就不具備行醫資格。這個考試分兩級四大類。考試分為臨床、中醫、口腔和衛生四類。其中,70%的考生選擇臨床,臨床筆試覆蓋面非常寬,考試大綱里公布了2 700多個知識點。
國家執業醫師考試的報考門檻是醫學本科畢業加上一年以上的臨床實踐,或者專科畢業加上兩年以上的臨床實踐,因此這個考試必須是學醫的人并且經過實踐才可以參加,而且考試總的通過率并不高。當然這里面差異也很大,比如北京協和,北醫畢業的學生通過率應該在99%以上,但是從全中國的范圍來看,通過這個考試對很多人來說,難度是挺大的。這也反映了中國優質醫療資源的緊缺和分布上的極不平衡。
國家執業醫師考試的形式是兩天四場,每場150道題,時間是150分鐘。國家醫學考試中心這個機構,最重要的任務就是出考題組織各種醫學方面的考試。一個上崗的醫生是否合格,對社會和老百姓太重要了,如果我們的醫學水平不夠,那我們實際上都很危險。國家執業醫師考試的考題分為兩類,一類是知識題,需要理解掌握醫學知識;另一類是案例題,題目就是一個實際的案例,一個什么樣的病人出現了什么樣的癥狀,問你應該怎么診斷怎么治療。這類考題的比例,從這幾年的趨勢來講是越來越高了,現在臨床執業醫生考試中案例題已經超過了50%。我們可以把這個考試任務同機器閱讀的一個著名任務SQuAD做比較。SQuAD是斯坦福大學發布的一個機器閱讀任務,現在有很多研究機構經常刷榜,誰的成績領先就可以證明自己的機器閱讀能力很不錯。這個任務和我們中小學做語文,英語的閱讀理解題一樣。回答這個題目所需要的知識都包含在這個文章里,并不需要額外的知識。只要閱讀理解能力夠,就可以通過閱讀文章來回答這些問題。這個任務就可以衡量機器對語言的理解能力。
但這個任務和國家執業醫師考試是兩個完全不同的任務,國家執業醫師考試600道題,參加考試的人需要利用過去5年,8年,甚至10年學習到的理論知識和實踐經驗來做題。因此,如何讓機器具備學習掌握并且運用知識來回答考題的能力,是這個任務最大的難點。具體來說就是兩個方面,一個是知識的表達;一個是知識的推理。把電子文本存在計算機里,不叫做表達,因為計算機并沒有辦法直接使用;而讓機器來做推理更是非常困難的事情。很多人可能會有個疑問,大家每天都用搜索引擎,它的搜索能力那么強,是不是做一個針對考題的搜索引擎就可以了?其實這是不行的,醫考歷年的考題都是絕密,即使考試結束也不會有考題流出來。其次國家執業醫師考試并不依賴與固定的題庫,每年國家醫學考試中心都要組織很多專家出題,為了出這600道考題,投入的時間精力都是非常驚人的。
知識圖譜方面已經有很好的研究工作,在很多領域也發揮了很大的作用。但知識圖譜也存在一些不足,主要表現在它的描述能力有限,擴展維護也比較困難。所以對醫學領域很多復雜知識,僅靠知識圖譜難以被有效描述。因為醫生看病過程是一個過程性的事情。比如一個人感冒發燒,并不能確定就一定是上呼吸道感染。
在這個研究中,我們主要做了兩方面工作,一個是知識表達;一個是知識運用。知識表達主要有符號表達和向量表達兩種形式,符號表達容易人類理解;向量表達更利于機器計算。我們在表達方面做了兩個工作,現在流行的詞語義潛入(word embedding)是無監督訓練得到的,所以實際上有模糊性。我們一方面引入了詞的多語義表達,另一方面把無監督訓練得到的表示向量作為種子,通過引入一些監督來進一步學習和調整。
在推理方面我們做了多尺度的推理,主要是三個層次,首先是點對點,比如某些癥狀是某種疾病的金標準,這樣就容易建立起來詞和詞之間的關系;而在很多時候一兩個詞不足以得到疾病的診斷,所以就要引入句子和段落層面的證據,這個方法的基礎是雙向LSTM,然后我們疊加了雙路的注意力機制,一路是從證據看考題,一路是從考題看證據,然后再連接池化層和決策層;還有一些醫學問題比較復雜,單個證據還沒有辦法證明什么是正確答案,因此我們把多個證據連接起來,選擇合適的部分和特征,去評估答案的正確性。
2017年8月27號我們研發的人工智能以系統參加了國家執業醫師考試臨床筆試的測試。我們的人工智能系統跟與所有考生的考試過程完全同步,考生在全國各地的考場參加考試,我們的系統在國家醫學考試中心單獨設立的考場中參加考試。斷開互聯網,全程監控錄像,兩位國家醫學中心的監考老師和兩名公證人員全程監考,嚴格按照考試流程做。每一場考試,考生的時間是150分鐘,我們的系統都在不到18分鐘的時間內完成了答題。去年11月公布成績,考試總分600分,及格線360分,我們的系統取得了456分的成績,百分位點是96.3%。不僅大幅超越及格線,而且超過96.3%的人類考生。
2018年10月,我們關于醫考引擎的學術論文發表在《自然.通訊》上,這是對我們學術成果的一個認可。國內外媒體的宣傳報道也很多,《麻省理工科技評論》2017年3月介紹了我們的工作,并在其6月主辦的創新科技香港峰會上邀請我作了報告。
考試以后,很多人都問我們,取得這么好的成績,是不是說今后機器人可以給人看病了。我說不能,千萬不要以為考試考得好就可以看病了,考試跟真正看病有很大差別,我們只不過是邁出了萬里長征第一步。
Gartner每年都會發布技術成熟度曲線,把技術的發展分為幾個階段,包括技術觸發、期望頂峰、幻滅低谷、緩慢復蘇、生產力成熟。我們實驗室在語音識別方面做了很多年的工作,1998年在國家“863”計劃組織的語音識別測試中,我們對標準口音新聞的識別率就達到了94%。但如果把訊飛輸入法月活躍用戶過億作為語音識別技術進入老百姓實際生活的標志,這就要到2016年,兩者之間是18年。一個技術從開始的性能提升到最后實際應用將是一個漫長的過程,技術的發展和成熟不可能一蹴而就。
我們最近啟動了一個國家研發計劃項目——大眾醫療健康醫學人工智能管理服務模式。智慧醫療不是一個單點技術,而是涉及到整個體系的提升。在這個體系中,人工智能技術可以在各個層面發揮作用,幫助大家做健康管理,幫助大家做全科診斷,幫助大家做專科診療。前幾年衛計委就提過要開展基層首診和雙向轉診,但在實踐中遇到了很大的困難,主要因為基層能力不夠,沒有高水平的全科大夫做首診。現在隨著人工智能技術的發展,讓我們看到這樣一種可能性,就是讓人工智能系統來幫助提升基層醫生的全科診斷能力。
這是我們做的另一個工作,是和北京大學口腔醫院合作的。在我國,中老年人群中缺牙是常見情況,可摘局部義齒是最常用的解決方案。但全國不同醫院在可摘局部義齒的方案設計上,水平差別很大。我們這個工作的目標,就是給定患者的口腔情況,我們的系統能夠自動設計出可摘局部義齒的方案來,希望起到拉高整體水平的作用。初步驗證情況表明,在絕大多數情況下,我們給出的方案是可以直接使用,或者稍加修改就可以使用的;能夠幫助基層醫生設計出更合理的方案,也能提升高水平醫生的工作效率。
人工智能在醫學領域的推進,離不開知識有效表達和應用。在很多領域都可以有大數據,但在醫學領域的大多數場景,數據量都是不充分的。只能靠一部分的數據加上專家知識,協同起來推進醫學人工智能的水平。醫療是及其復雜的領域,從健康,、亞健康、慢性病,到全科的診斷和專科的治療,每一種疾病的處理手段都不一樣,這方面的研究是一條漫長的道路,需要學者和研究機構一起攜手才能往前推進。在人工智能的發展道路上,知識是我們重要的力量源泉!
-
人工智能
+關注
關注
1804文章
48589瀏覽量
245885 -
智慧醫療
+關注
關注
9文章
1093瀏覽量
47093
原文標題:CIIS2018演講實錄丨吳及:知識與智能——從醫考引擎走向智慧醫療
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
基于智能穿戴的智慧校園運動健康解決方案NRF52832
研華科技布局全球智慧醫療的三重策略
工業 4G 路由器賦能駕考,打造公正智慧新考場

智慧醫院智能化系統設計
傳感器:開啟智能生活的新篇章
智慧管網:供熱企業的智能升級引擎

智慧醫院:數字化醫療新境界

評論