OpenAI Vs Google
目前大模型 top2 應該就是 OpenAI 的 GPT-4,以及谷歌的PALM-2。這兩家公司早已布局,而且技術實力雄厚。國內大模型和 GPT-4 相比,還是有比較大的差距。
但是國內的勢頭目前不錯,百家齊鳴,還沒有一家有絕對的優勢。
讓人頭暈的排名
之前有媒體給出了目前國內Top-5的大模型公司,分別是:百度的文心一言、阿里的通義千問、騰訊的混元、華為的盤古以及360的智腦。
而最近,中文通用大模型基準(SuperCLUE)評測公布了最新結果,GPT-4 遙遙領先,而國內成績最好的是科大訊飛的星火認知大模型。這里面文心一言居然排在了最后一名,甚至比ChatGLM-6B的得分還低,實在難以置信。
但是我又仔細看了一下這個評測。媽呀,評測集是SuperCLUE,而非SuperGLUE。
眾所周知,在國際NLP領域,有大名鼎鼎的數據集 GLUE 和 SuperGLUE,非常權威,OpenAI、谷歌等的大模型都在上面評測,極大推動了 NLP 領域的發展。
這次這份 SuperCLUE 評測的發起方為 Chinese GLUE 組織 (簡稱 CLUE),CLUE 是仿照 GLUE由國內民間組織的評測,權威度和影響力與 GLUE 相比差很遠,其微信賬號主體屬性為個人。但這也迷惑了不少圈內人,GLUE和 CLUE 分不清楚,堪稱李逵和李鬼。
還有一點存疑,評測榜單發布當天5月9日,其官網顯示信息,中文基準測評成員顧問中排名第一的是崔一鳴,身份為學術顧問委員會主任,哈工大訊飛聯合實驗室(HFL)資深級研究員。而5月10日,官網已刪除此條顧問的信息。
而001號創始會員徐亮,是會長,相當于這個榜單的實際負責人。昵稱 brightmart,中文任務基準測評發起人。多個預訓練模型中文版、文本分類和數據集開源項目作者。
徐亮還有另一個身份,在5月9日官網中顯示,他是杭州實在智能算法專家,也就是元語智能的創始人,曾在2月份發布自稱“國內首個功能對話大模型ChatYuan”,不僅無法測試,發布幾天即被監管叫停。4月,又被報道套殼推出開源組件。有分析人士認為,不排除創業公司有融資壓力,蹭熱度吸引投資人關注。
該 SpuerClue 榜單發起方,001號顧問是訊飛身份背景、001號基準發起人是創業公司創始人。在榜單發布后,擔心行業質疑其公平、公正,相關信息還被刪除。這就有點不言而喻了。
僅用100道評測題目就出來了一份“權威報告”
最后來說下這個榜單本身,業內人士一眼就可以看出來,評測的很不合理,首先,沒有公布評估數據,以及具體的評估方式。同時從它的公開表述,可推斷總共題目就 100 道題目。這個題目量少到難以置信。專業人士可能有參與過,像國際權威 SuperGlue 榜單,題目一般都得有 2 萬多道,離權威可是差了幾萬倍。況且,它的評測得分榜首都是人類,那這個評分的基準到底是什么?是否有很多主觀性因素在里面?是否某些大模型提前在這個數據集上已經訓練過?
任務設計太武斷,所謂“通用”基準,是用以測試通用的人工認知能力的,那么我們自然希望,評測任務是參考了模型想要模擬的認知能力及相關理論,系統化地選擇出來的。而實際上,我們觀察到的則是,基準的作者們在選擇任務的時候,更像是圖方便、省事。以往,CLUE 中存在著部分數據集,一味考慮任務的復雜性,卻在最起碼的分布邊界劃分上(如NER各個類別的邊界,如場所、景點類,組織機構及其子類),模糊不清,且數據的一致性無法保證。
要么別比,要比就來點正規的比賽。自己出題自己考,說不準還搶跑,自己還是評委,那這是欺不負了解真相的吃瓜群眾。投機取巧,終皆散去。苦練內功,才是王道。
國內大模型排名(僅供參考)
拋開這些,從模型規模、模型效果、市場占有率等多個角度,百度的文心一言、華為的盤古、阿里的通義千問、騰訊的混元排在前四,應該是比較合理的,至于后面的排名,就不大能保證了。不過下面的排名也可以參考一下:
下面是一份完整的名單:
按發布時間排序:
百度:文心一言
作為國內最早發布的大模型,百度的文心一言在今年3月16號就發布了,隨后經過了多個版本的迭代。目前已經有上千家企業接入。文心一言支持圖片、語音等多模態。
3月16日,百度在全球大廠中率先發布對標 ChatGPT 的大模型產品文心一言。據了解,文心一言內測一個多月,就完成了4次大的技術升級,大模型推理性能提升近10倍。
李彥宏在5月4日百度內部活動中表示,百度之所以能夠在Google、Meta、Amazon等大廠之前率先發布生成式大模型產品,是因為百度在芯片、框架、模型、應用等四個層面做到全棧布局、層層領先。
360:360智腦
百度是國內搜索市場排名第一公司,而排名第二就是360。
大模型依靠的算力、數據、算法、場景,這兩家公司都具備,這也是搜索公司的優勢,有業務和數據支撐大模型研發和落地。
5月16日,360集團和智譜AI宣布達成戰略合作,雙方共同研發的千億級大模型“360GLM”已具備新一代認知智能通用模型水準。
而在今天的世界智能大會上,周鴻祎展示了“360智腦”的多輪對話和“360鴻圖”的AI生圖兩個能力。
就像谷歌和微軟,一個擁有谷歌搜索,一個擁有必應。國內的百度和360,一個擁有百度搜索,一個擁有360搜索。
搜索公司應該是這場大模型爭霸賽最后的贏家。(只是個人看法)
審核編輯 :李倩
-
模型
+關注
關注
1文章
3313瀏覽量
49232 -
GPT
+關注
關注
0文章
360瀏覽量
15508 -
OpenAI
+關注
關注
9文章
1140瀏覽量
6707
原文標題:國內大模型爭霸賽,你最看好哪家?這是你心目中的大模型排名嗎?
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
英諾賽科香港上市,國內氮化鎵半導體第一股誕生
2024“畫質爭霸賽”落下帷幕,海信電視U8N Pro“最強機皇”實至名歸
![2024“畫質<b class='flag-5'>爭霸賽</b>”落下帷幕,海信電視U8N Pro“最強機皇”實至名歸](https://file1.elecfans.com//web3/M00/04/71/wKgZPGdzvxCAWFUZAAAAK9-bfWo635.gif)
第一屆“澎峰云?大模型AI校園應用創新賽完美結束
50萬獎金池!開放原子大賽——第二屆OpenHarmony創新應用挑戰賽正式啟動
GAP!你對AI大模型到底了解多少?
【附實操視頻】聆思CSK6大模型開發板接入國內主流大模型(星火大模型、文心一言、豆包、kimi、智譜glm、通義千問)
思爾芯賽題正式發布,邀你共戰EDA精英挑戰賽!
![思爾芯<b class='flag-5'>賽</b>題正式發布,邀<b class='flag-5'>你</b>共戰EDA精英挑戰<b class='flag-5'>賽</b>!](https://file.elecfans.com/web2/M00/4B/6A/pYYBAGKoTXWAFdqwAAAWmg44LUs841.png)
中文大模型測評基準SuperCLUE:商湯日日新5.0,刷新國內最好成績
![中文大<b class='flag-5'>模型</b>測評基準SuperCLUE:商湯日日新5.0,刷新<b class='flag-5'>國內</b>最好成績](https://file1.elecfans.com/web2/M00/E7/A4/wKgZomZMQ--ASmW1AABKUiL82nM339.png)
ChatGPT、Gemini、通義千問等一眾大語言模型,哪家更適合您?
![](https://file1.elecfans.com/web2/M00/E5/23/wKgaomY_CfWAY_mcAAJRnhKIn7Q603.jpg)
新品爭霸賽:AI加持、屏幕升級,手表、手環還有哪些新花樣
![新品<b class='flag-5'>爭霸賽</b>:AI加持、屏幕升級,手表、手環還有哪些新花樣](https://file1.elecfans.com/web2/M00/C5/BC/wKgZomYCIL6AKApCAAvXeUEgeVg998.png)
評論