近日,由上海AI實驗室和上海市數字醫學創新中心聯合推出的MedBench評測更新榜單,繼4月份奪冠后,云知聲山海大模型醫療行業版(UniGPT-Med)再次以綜合得分82.2的優異成績位列全球第一,各項指標全面超越GPT-4,充分展現出山海大模型在擁有業內一流的通用能力之外,更具備打造世界領先的行業大模型的能力。
MedBench致力于打造一個科學、公平且嚴謹的中文醫療大模型評測體系及開放平臺,其基于醫學權威標準,不斷更新維護高質量的醫學數據集,全方位多維度量化模型在各個醫學維度的能力。
MedBench的五大評測維度——醫學語言理解、醫學語言生成、醫學知識問答、復雜醫學推理、醫療安全和倫理,構成了其專業評測框架的核心。這一框架吸納了海量醫學知識庫和醫院醫學專家的豐富經驗,涵蓋8個公開數據集和12個自建數據集,總計約30萬道中文醫療專業測評題目,覆蓋了從醫學考試題庫到患者服務、醫學問診、病例分析以及病歷生成等廣泛的醫學任務,致力為中文醫療大模型提供客觀科學的性能評測參考。
今年5月,MedBench平臺全面升級,不僅引入API評測方式,豐富了參評途徑,還優化了開放域問答的評估指標。通過醫學專家的精準標注,平臺進一步提升了評測結果的公正性和專業性。同時,平臺在數據集、評測方法和系統功能等方面也進行了升級,旨在為醫療大模型評測構建一個更加完善的社區環境,并提供更加豐富、真實的實踐場景。
此次評測,云知聲山海大模型醫療行業版(UniGPT-Med)通過API提交方式,不僅以82.2的綜合得分刷新了MedBench評測記錄,更是在各個維度上力壓GPT-4,排名全球第一。這一成績的取得,是山海大模型醫療專業能力的集中展現,也標志著其技術迭代和創新發展達到了一個新的高度。
目前,山海大模型通用能力已超越GPT-3.5,并在SuperCLUE 4月評測中躋身國內大模型Top10;與GPT-4的對戰中,山海綜合勝率與和率為75.55%。
在醫療專業能力上,山海大模型于2023年6月的MedQA任務中超越Med-PaLM 2,取得87.1%的優異成績;在臨床執業醫師資格考試中以523分(總分600分)的優異成績,超過99%的考生水平;其基于山海大模型孵化的醫療行業版大模型,也在CCKS 2023 PromptCBLUE醫療大模型評測中奪得通用賽道一等獎。
隨著醫療行業對智能化、精準化服務需求的不斷增長,云知聲山海大模型醫療行業版(UniGPT-Med)有望在醫療健康領域扮演更加關鍵的角色,為提升醫療服務效率、優化患者體驗、推動醫療科技進步提供強有力的支持。
-
醫療
+關注
關注
8文章
1836瀏覽量
58955 -
云知聲
+關注
關注
0文章
195瀏覽量
8420 -
大模型
+關注
關注
2文章
2551瀏覽量
3172
原文標題:MedBench最新評測:山海大模型醫療專業能力全球第一,各項指標力壓GPT-4
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
云知聲榮登2024大模型企業TOP50榜單
云知聲榮登2024全球AIGC先鋒者系列榜單
云知聲山海大模型多項能力全球領跑
![<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b><b class='flag-5'>山海</b>大<b class='flag-5'>模型</b>多項<b class='flag-5'>能力</b><b class='flag-5'>全球</b>領跑](https://file1.elecfans.com/web2/M00/09/57/wKgZomcKF9SAFfIDAAAY0HHK2ww790.png)
評論