穿越小说排行榜,好看的历史书籍推荐,有声小说下载

OpenAI Vs Google

目前大模型 top2 應該就是 OpenAI 的 GPT-4，以及谷歌的PALM-2。這兩家公司早已布局，而且技術實力雄厚。國內大模型和 GPT-4 相比，還是有比較大的差距。

但是國內的勢頭目前不錯，百家齊鳴，還沒有一家有絕對的優勢。

讓人頭暈的排名

之前有媒體給出了目前國內Top-5的大模型公司，分別是：百度的文心一言、阿里的通義千問、騰訊的混元、華為的盤古以及360的智腦。

而最近，中文通用大模型基準（SuperCLUE）評測公布了最新結果，GPT-4 遙遙領先，而國內成績最好的是科大訊飛的星火認知大模型。這里面文心一言居然排在了最后一名，甚至比ChatGLM-6B的得分還低，實在難以置信。

但是我又仔細看了一下這個評測。媽呀，評測集是SuperCLUE，而非SuperGLUE。

眾所周知，在國際NLP領域，有大名鼎鼎的數據集 GLUE 和 SuperGLUE，非常權威，OpenAI、谷歌等的大模型都在上面評測，極大推動了 NLP 領域的發展。

這次這份 SuperCLUE 評測的發起方為 Chinese GLUE 組織（簡稱 CLUE），CLUE 是仿照 GLUE由國內民間組織的評測，權威度和影響力與 GLUE 相比差很遠，其微信賬號主體屬性為個人。但這也迷惑了不少圈內人，GLUE和 CLUE 分不清楚，堪稱李逵和李鬼。

還有一點存疑，評測榜單發布當天5月9日，其官網顯示信息，中文基準測評成員顧問中排名第一的是崔一鳴，身份為學術顧問委員會主任，哈工大訊飛聯合實驗室（HFL）資深級研究員。而5月10日，官網已刪除此條顧問的信息。

而001號創始會員徐亮，是會長，相當于這個榜單的實際負責人。昵稱 brightmart，中文任務基準測評發起人。多個預訓練模型中文版、文本分類和數據集開源項目作者。

徐亮還有另一個身份，在5月9日官網中顯示，他是杭州實在智能算法專家，也就是元語智能的創始人，曾在2月份發布自稱“國內首個功能對話大模型ChatYuan”，不僅無法測試，發布幾天即被監管叫停。4月，又被報道套殼推出開源組件。有分析人士認為，不排除創業公司有融資壓力，蹭熱度吸引投資人關注。

該 SpuerClue 榜單發起方，001號顧問是訊飛身份背景、001號基準發起人是創業公司創始人。在榜單發布后，擔心行業質疑其公平、公正，相關信息還被刪除。這就有點不言而喻了。

僅用100道評測題目就出來了一份“權威報告”

最后來說下這個榜單本身，業內人士一眼就可以看出來，評測的很不合理，首先，沒有公布評估數據，以及具體的評估方式。同時從它的公開表述，可推斷總共題目就 100 道題目。這個題目量少到難以置信。專業人士可能有參與過，像國際權威 SuperGlue 榜單，題目一般都得有 2 萬多道，離權威可是差了幾萬倍。況且，它的評測得分榜首都是人類，那這個評分的基準到底是什么？是否有很多主觀性因素在里面？是否某些大模型提前在這個數據集上已經訓練過？

任務設計太武斷，所謂“通用”基準，是用以測試通用的人工認知能力的，那么我們自然希望，評測任務是參考了模型想要模擬的認知能力及相關理論，系統化地選擇出來的。而實際上，我們觀察到的則是，基準的作者們在選擇任務的時候，更像是圖方便、省事。以往，CLUE 中存在著部分數據集，一味考慮任務的復雜性，卻在最起碼的分布邊界劃分上（如NER各個類別的邊界，如場所、景點類，組織機構及其子類），模糊不清，且數據的一致性無法保證。

要么別比，要比就來點正規的比賽。自己出題自己考，說不準還搶跑，自己還是評委，那這是欺不負了解真相的吃瓜群眾。投機取巧，終皆散去。苦練內功，才是王道。

國內大模型排名（僅供參考）

拋開這些，從模型規模、模型效果、市場占有率等多個角度，百度的文心一言、華為的盤古、阿里的通義千問、騰訊的混元排在前四，應該是比較合理的，至于后面的排名，就不大能保證了。不過下面的排名也可以參考一下：