剛剛,商湯科技日日新SenseNova多模態大模型,在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。
商湯日日新平均得分達到77.4,領先GPT-4o、Claude 3.5 Sonnet以及國內所有不同尺寸的開源和閉源模型,尤其在涵蓋算術、統計、代數、幾何、數值常識、科學和邏輯的權威數據集MathVista維度上,取得78.4分的最高分,展現了領先的“數理”能力。
OpenCompass 多模態評測包含八個核心數據集,從多種視角客觀量化多模態大模型的能力。此次評測中,商湯日日新在幾乎所有維度上都達到或超過GPT-4o水平,其中四個維度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。
OpenCompass大模型開放評測體系是上海人工智能實驗室推出的,擁有完整開源可復現的評測框架,定期發布對各類大模型的評測成績和排名。體系覆蓋了語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等多個方面,是對大模型真實能力各個維度的全面診斷。
小試牛刀,商湯多模態進階
作為計算機視覺領域的先行者和領軍企業,早在幾年前,商湯就確定了多模態大模型的研究方向,并在研發中,融合積累的領先算法、豐富數據和場景認知建立起核心優勢。
2023年4月,商湯率先發布了行業領先的多模態大模型;
2024年2月,基于商湯日日新4.0的多模態大模型,在當時權威評測基準測試集MME Benchmark上位列第一,綜合得分達2199.5(超過GPT-4V的1926.57),并應用到智能駕駛、智能車艙、電力行業等多個場景;
2024年7 月,商湯發布國內首個交互體驗上對標GPT-4o的大模型——日日新 5o,實現無延時的實時流式交互。
全新階段,跨模態深度融合
今年三季度以來,商湯已跨越初期探索,進入了多模態大模型的研發新階段——實現跨模態深度融合。以此目標,商湯打造了全新原生多模態大模型——日日新SenseNova多模態大模型。
跨模態深度融合指能夠跨越不同模態(自然語言、代碼、語音、圖像、醫療影像、視頻等)之間的鴻溝,充分利用不同模態的信息,通過跨模態逆渲染、多模態思維鏈等技術創新,實現數據之間的集成和交互。由此,模型的感知和理解能力將得到極大增強,并支持多模態融合推理的實現。
跨模態融合有多種方法。例如,通過融合預訓練以及后訓練技術,商湯日日新多模態大模型大幅增強了數理邏輯和推理能力。
評測中,當我們從“五年高考,三年模擬”里隨機抽取幾道高考數學題,日日新多模態大模型都可以輕松應對。
此外,通過多模態融合并對模型進行定向優化,商湯日日新多模態大模型還大幅提升了對統計圖表和多模態文檔的理解能力。
評測中,當難度提升,讓我們看看結果如何。
商湯日日新成功輸出推理結果,效果令人驚嘆。
隨著融合模態有效提升AI大模型性能,多模態融合未來可廣泛應用于諸多場景,例如在線上教育、語音客服等場景,結合語音和自然語言來提升交互體驗;在自動駕駛場景,融合視覺及多種模態數據,來提升感知精度和決策能力等。
數理還只是起點。目前,日日新SenseNova多模態大模型已經可以通過API調用,即將開放普通用戶體驗。
One more thing,商湯日日新多模態大模型還能看懂中國書畫。
-
人工智能
+關注
關注
1796文章
47667瀏覽量
240288 -
商湯科技
+關注
關注
8文章
518瀏覽量
36175 -
大模型
+關注
關注
2文章
2545瀏覽量
3167
原文標題:挑戰高考數學完勝!商湯日日新多模態大模型權威評測第一
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
商湯“日日新”融合大模型榮獲雙料冠軍
商湯日日新大模型中標上海電信訂單
商湯科技推出SenseFoundry-VL方舟多模態新智平臺
![<b class='flag-5'>商湯</b>科技推出SenseFoundry-VL方舟<b class='flag-5'>多</b><b class='flag-5'>模態</b>新智平臺](https://file1.elecfans.com/web2/M00/FB/59/wKgZomaQyhqAIKS_AAR-zcJv67Y887.jpg)
商湯科技"日日新SenseNova 5.5"大模型閃耀WAIC,引領AI新紀元
商湯“日日新”大模型全面賦能2024 WAIC
商湯科技發布日日新5.5大模型體系
商湯發布日日新大模型5.0粵語版
中文大模型測評基準SuperCLUE:商湯日日新5.0,刷新國內最好成績
![中文大<b class='flag-5'>模型</b>測評基準SuperCLUE:<b class='flag-5'>商湯</b><b class='flag-5'>日日新</b>5.0,刷新國內最好成績](https://file1.elecfans.com/web2/M00/E7/A4/wKgZomZMQ--ASmW1AABKUiL82nM339.png)
評論