5月18日,北京智源研究院發(fā)布了關(guān)于國(guó)內(nèi)外各類開(kāi)/閉源語(yǔ)言及多模態(tài)大模型性能評(píng)估的最新研究成果。此項(xiàng)研究覆蓋了140余個(gè)語(yǔ)言模型的綜合實(shí)力對(duì)比,包括其對(duì)中文文本理解和多模態(tài)圖文問(wèn)答等任務(wù)的處理能力。
研究發(fā)現(xiàn),盡管國(guó)內(nèi)頭部語(yǔ)言模型在中文環(huán)境中的整體表現(xiàn)已接近國(guó)際一流水平,但仍存在能力發(fā)展不平衡的問(wèn)題。
在多模態(tài)理解圖文問(wèn)答任務(wù)中,開(kāi)源和閉源模型表現(xiàn)相當(dāng),而國(guó)產(chǎn)模型則表現(xiàn)出色。此外,在中文語(yǔ)境下的文生圖能力方面,國(guó)產(chǎn)多模態(tài)模型與國(guó)際一流水平的差距相對(duì)較小。
具體到語(yǔ)言模型的排名,在中文語(yǔ)境下,字節(jié)跳動(dòng)的豆包Skylark2以及OpenAI的GPT-4分別名列第一和第二。值得注意的是,國(guó)產(chǎn)大模型在理解中國(guó)用戶需求方面具有明顯優(yōu)勢(shì)。
在語(yǔ)言模型客觀評(píng)價(jià)中,OpenAI的GPT-4和百川智能的Baichuan3分列第一和第二。同時(shí),百度的文心一言4.0、智譜華章的GLM-4以及月之暗面的Kimi也躋身語(yǔ)言模型主客觀評(píng)價(jià)的前五名。
在多模態(tài)理解模型的客觀評(píng)價(jià)中,圖文問(wèn)答方面,阿里巴巴的通義Qwen-vl-max和上海人工智能實(shí)驗(yàn)室的InternVL-Chat-V1.5在某些指標(biāo)上超越了OpenAI的GPT-4,LLaVA-Next-Yi-34B和上海人工智能實(shí)驗(yàn)室的Intern-XComposer2-VL-7B緊隨其后。
-
開(kāi)源
+關(guān)注
關(guān)注
3文章
3624瀏覽量
43536 -
模型
+關(guān)注
關(guān)注
1文章
3499瀏覽量
50075 -
大模型
+關(guān)注
關(guān)注
2文章
3046瀏覽量
3862 -
百川智能
+關(guān)注
關(guān)注
0文章
17瀏覽量
78
發(fā)布評(píng)論請(qǐng)先 登錄
字節(jié)豆包大模型團(tuán)隊(duì)提出稀疏模型架構(gòu)
百川智能發(fā)布全場(chǎng)景深度思考模型Baichuan-M1-preview
百川智能發(fā)布全場(chǎng)景深度思考模型Baichuan-M1-preview
字節(jié)跳動(dòng)豆包大模型1.5 Pro發(fā)布
字節(jié)跳動(dòng)發(fā)布豆包大模型1.5 Pro
浪潮信息與智源研究院攜手共建大模型多元算力生態(tài)
安謀科技與智源研究院達(dá)成戰(zhàn)略合作,共建開(kāi)源AI“芯”生態(tài)

浪潮信息與智源研究院達(dá)成戰(zhàn)略合作協(xié)議
百川智能發(fā)布Baichuan4-Finance金融大模型
百川智能發(fā)布一站式大模型商業(yè)化解決方案
【附實(shí)操視頻】聆思CSK6大模型開(kāi)發(fā)板接入國(guó)內(nèi)主流大模型(星火大模型、文心一言、豆包、kimi、智譜glm、通義千問(wèn))
智能硬件接入主流大模型做語(yǔ)音交互(附文心一言、豆包、kimi、智譜glm、通義千問(wèn)示例)
摩爾線程攜手智源研究院完成基于Triton的大模型算子庫(kù)適配
大模型廠商“輸血”不斷,百川智能完成50億元A輪融資!

評(píng)論