5月18日,北京智源研究院發(fā)布了關于國內外各類開/閉源語言及多模態(tài)大模型性能評估的最新研究成果。此項研究覆蓋了140余個語言模型的綜合實力對比,包括其對中文文本理解和多模態(tài)圖文問答等任務的處理能力。
研究發(fā)現(xiàn),盡管國內頭部語言模型在中文環(huán)境中的整體表現(xiàn)已接近國際一流水平,但仍存在能力發(fā)展不平衡的問題。
在多模態(tài)理解圖文問答任務中,開源和閉源模型表現(xiàn)相當,而國產模型則表現(xiàn)出色。此外,在中文語境下的文生圖能力方面,國產多模態(tài)模型與國際一流水平的差距相對較小。
具體到語言模型的排名,在中文語境下,字節(jié)跳動的豆包Skylark2以及OpenAI的GPT-4分別名列第一和第二。值得注意的是,國產大模型在理解中國用戶需求方面具有明顯優(yōu)勢。
在語言模型客觀評價中,OpenAI的GPT-4和百川智能的Baichuan3分列第一和第二。同時,百度的文心一言4.0、智譜華章的GLM-4以及月之暗面的Kimi也躋身語言模型主客觀評價的前五名。
在多模態(tài)理解模型的客觀評價中,圖文問答方面,阿里巴巴的通義Qwen-vl-max和上海人工智能實驗室的InternVL-Chat-V1.5在某些指標上超越了OpenAI的GPT-4,LLaVA-Next-Yi-34B和上海人工智能實驗室的Intern-XComposer2-VL-7B緊隨其后。
-
開源
+關注
關注
3文章
3349瀏覽量
42500 -
模型
+關注
關注
1文章
3243瀏覽量
48840 -
大模型
+關注
關注
2文章
2450瀏覽量
2707
發(fā)布評論請先 登錄
相關推薦
浪潮信息與智源研究院達成戰(zhàn)略合作協(xié)議
百川智能發(fā)布Baichuan4-Finance金融大模型
百川智能發(fā)布一站式大模型商業(yè)化解決方案
【附實操視頻】聆思CSK6大模型開發(fā)板接入國內主流大模型(星火大模型、文心一言、豆包、kimi、智譜glm、通義千問)
智能硬件接入主流大模型做語音交互(附文心一言、豆包、kimi、智譜glm、通義千問示例)
摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配
大模型廠商“輸血”不斷,百川智能完成50億元A輪融資!
![大<b class='flag-5'>模型</b>廠商“輸血”不斷,<b class='flag-5'>百川</b><b class='flag-5'>智能</b>完成50億元A輪融資!](https://file1.elecfans.com//web2/M00/FF/AA/wKgZomap3f2AN_VtAAMaW-WYCAE100.jpg)
百川智能完成50億元A輪融資
亞馬遜云科技接入百川智能和零一萬物基礎模型
百川智能發(fā)布Baichuan 4大模型及首款AI助手“百小應”
中文大模型測評基準SuperCLUE:商湯日日新5.0,刷新國內最好成績
![中文大<b class='flag-5'>模型</b><b class='flag-5'>測評</b>基準SuperCLUE:商湯日日新5.0,刷新國內最好成績](https://file1.elecfans.com/web2/M00/E7/A4/wKgZomZMQ--ASmW1AABKUiL82nM339.png)
百川智能與北京大學將共建通用人工智能聯(lián)合實驗室
數(shù)勢聯(lián)動百川,發(fā)布首批大模型聯(lián)合解決方案,推動中國大模型價值落地
![數(shù)勢聯(lián)動<b class='flag-5'>百川</b>,發(fā)布首批大<b class='flag-5'>模型</b>聯(lián)合解決方案,推動中國大<b class='flag-5'>模型</b>價值落地](https://file1.elecfans.com//web2/M00/C2/B0/wKgaomXeq0iAQVMDAAHYFuRuifY421.png)
評論