在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

號稱「碾壓」LLaMA的Falcon實測得分僅49.08,HuggingFace決定重寫排行榜代碼

OpenCV學堂 ? 來源:機器之心 ? 2023-06-11 11:24 ? 次閱讀

LLaMA v.s. Falcon = 63.64 v.s. 49.08。評估結果表明,LLaMA 并未被「碾壓」。

267daa54-0798-11ee-962d-dac502259ad0.png

作為開源模型界的扛把子,LLaMA 一直備受矚目。

這是一組由 Meta 開源的大型語言模型,共有 7B、13B、33B、65B 四種版本。其中,LLaMA-13B 在大多數數據集上超過了 GPT-3(175B),LLaMA-65B 達到了和 Chinchilla-70B、PaLM-540B 相當的水平。

自 2 月份發布以來,開源社區一直在 LLaMA 的基礎上進行二創,先后推出了 Alpaca、Vicuna 等多個「羊駝」大模型,生物學羊駝屬的英文單詞都快被用光了。

不過,也有人對 LLaMA 發起了挑戰。5 月底,阿聯酋阿布扎比的技術創新研究所(TII)開源了一個 400 億參數的因果解碼器模型「Falcon-40B」,該模型在 RefinedWeb 的 1 萬億個 token 上進行了訓練,并使用精選數據集增強。剛一發布,「Falcon-40B」就沖上了 Huggingface 的 OpenLLM 排行榜首位,「碾壓」了參數規模 1.5 倍的「LLaMA-65B」,也優于 MPT、RedPajama 和 StableLM 等開源大模型。

26941e74-0798-11ee-962d-dac502259ad0.png

后來,Falcon-40B Instruct 版本占據了排行榜首位,Falcon-40B 則退到了第三,而 LLaMA-65B 已經掉到了第六位。

不過,仔細看過數據之后,圍觀者產生了疑問:為什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 這項分數是 48.8,明顯低于官方數據 63.4?

26b6affc-0798-11ee-962d-dac502259ad0.png

HuggingFace 的 Open LLM 排行榜。地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

26d346b2-0798-11ee-962d-dac502259ad0.png

LLaMA 論文中的 MMLU 數據。MMLU 是 Massive Multitask Language Understanding 的縮寫,是一個基準數據集,旨在通過僅在零樣本和少樣本設置下評估模型來衡量預訓練期間獲取的知識。它由一系列學術科目中類似考試的問題組成,用于測試模型對于世界理解的能力。

還有人表示,在測 Falcon-40B 時,他們也復現不了排行榜上的分數。

26e54894-0798-11ee-962d-dac502259ad0.png

面對這樣的爭議,Karpathy 等大牛選擇了謹慎觀望。

26fd6154-0798-11ee-962d-dac502259ad0.png

愛丁堡大學博士生符堯等則選擇自己測一遍。

簡而言之,他們在 Chain-of-thought Hub 上重新寫了開源的 LLaMA eval 代碼,然后在同樣的設定下,用官方 prompt,fp16,HF 默認代碼,公平比較了 Falcon 和 LLaMA 在 MMLU 上的表現。

「沒有花哨的 prompt 工程和解碼,一切都是在默認設置下進行的。」符堯在推文中寫道。

6 月 8 日,他們公布了第一批結果:LLaMA 65B 的 MMLU 得分為 61.4,比較接近官方數字(63.4),明顯高于其 Open LLM Leaderboard 分數 48.8,且遠高于 Falcon-40B 的 Leaderboard 分數 52.7。

270f7b6e-0798-11ee-962d-dac502259ad0.png

初步來看,「你大爺還是你大爺」。不過,這還不是 LLaMA 65B 的真實實力。在 6 月 10 日凌晨公布的第二波結果中,符堯解釋說,他們在第一波測評中發現了一個「long prompt」引起的 bug,這個 bug 導致 LLaMA 在高中歐洲歷史和高中美國歷史上得到 0 分。在修復了這個 bug 后,LLaMA 得分變成了 63.64,與論文中報道的數字基本相同。

271d3ba0-0798-11ee-962d-dac502259ad0.png

公平起見,使用相同的腳本,他們也測出了 Falcon-40B 的得分:49.08,低于 Leaderboard 分數 52.7,只比 LLaMA 13B 好一點。

27286e1c-0798-11ee-962d-dac502259ad0.png

274360aa-0798-11ee-962d-dac502259ad0.png

由此,這次所謂的「碾壓」事件徹底反轉。

符堯團隊的這一嘗試也吸引了 HuggingFace 研究科學家 Nathan Lambert 的注意,后者決定重寫 Open LLM Leaderboard 的代碼。

2751e06c-0798-11ee-962d-dac502259ad0.png

不過,符堯專門指出,他們不打算在 LLaMA 和 Falcon 之間挑起戰爭:「兩者都是偉大的開源模型,并為該領域做出了重大貢獻!Falcon 還具有更簡單的許可證優勢,這也賦予了它強大的潛力!」

為了方便大家檢查代碼和開源結果,符堯公布了相關地址:https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU

如果在檢查后有新的發現,歡迎在評論區留言。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1152

    瀏覽量

    40958
  • 語言模型
    +關注

    關注

    0

    文章

    542

    瀏覽量

    10344

原文標題:徹底反轉:號稱「碾壓」LLaMA的Falcon實測得分僅49.08,HuggingFace決定重寫排行榜代碼

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    HarmonyOS開發案例:【排行榜頁面】

    本課程使用聲明式語法和組件化基礎知識,搭建一個可刷新的排行榜頁面。在排行榜頁面中,使用循環渲染控制語法來實現列表數據渲染,使用@Builder創建排行列表布局內容,使用裝飾器@State、@Prop、@Link來管理組件狀態。
    的頭像 發表于 04-30 16:16 ?2086次閱讀
    HarmonyOS開發案例:【<b class='flag-5'>排行榜</b>頁面】

    中國IC設計公司排行榜

    作者:林曉林  中國IC設計公司排行榜:近日,市場調研公司iSuppli出臺了2005年度中國IC設計公司排行榜,與中國半導體協會的排名不同,此次名列榜首的是來自香港的晶門
    發表于 05-26 14:29

    2013年2月份編程軟件排行榜,LabVIEWTop27,進步很大。

    本帖最后由 sushu 于 2013-2-13 10:58 編輯 剛剛上網發現編程軟件排名,關注的LabVIEW現在已經是27位了,小開心一下。TIOBE編程語言社區排行榜是編程語言流行趨勢
    發表于 11-06 12:40

    資料下載總排行榜

    資料下載總排行榜,怎么就那幾個啊,怎么下載到人氣高的資料?資料茫茫,我相信大家的眼睛雪亮的。求方法收集些好的資料。。。
    發表于 03-05 16:24

    各種排行榜匯總貼!!!!!

    本帖最后由 dongyumin 于 2013-7-31 11:39 編輯 1.2012網上各地年終獎排行榜,科技、電子企業全面領跑!https://bbs.elecfans.com
    發表于 07-30 11:55

    2014年4月方案公司出貨量排行榜

    。而其他方案廠商憑借海外市場以及國內中小品牌、中低端市場持續穩扎穩守。2014年4月方案公司出貨量排行榜如下:(更多精彩關注公眾微信號:ittbank)
    發表于 06-23 11:41

    2014年10月 TIOBE 編程語言排行榜發布

    2014年10月的 TIOBE 編程語言排行榜發布了,該版本最大的兩點是 Google 的 Dart 語言首次進入前 20 名。其競爭者包括 CoffeeScript 目前排名 133,TypeScript 排名 122.想知道完整的排名表格請回復
    發表于 12-08 13:46

    小米放出“手機電量排行榜” 為續航神機Max 2造勢

    小米手機家族的電量排行榜,并向網友征詢:“你覺得小米Max2多大電量夠你用? ”從排行榜來看,現款小米Max以4850mAh的容量排名第一,其次是小米MIX(4400mAh)、紅米4(4100mAh
    發表于 06-03 14:20

    MapReduce框架音樂排行榜案例

    Hadoop綜合實戰之MapReduce運算優化——音樂排行榜
    發表于 10-16 12:20

    求職必知獨角獸公司排行榜

    世界第 3 的滴滴裁員,求職必知獨角獸公司排行榜
    發表于 06-18 07:30

    2019年2月編程語言排行榜分享

    2019年2月編程語言排行榜
    發表于 07-14 10:28

    2020年最新主板型號排行榜 精選資料推薦

    2020年最新主板型號排行榜2020主板型號天梯圖2020主板選購指南一、Intel、AMD電腦主板的辨別二、主板芯片組級別三、板形四、主板對電腦性能有什么影響在使用電腦的時候,我們有時候會需要更換
    發表于 07-26 06:16

    華為榮獲手機推薦度排行榜第一

    近日,品牌評級權威機構Chnbrand發布了手機推薦度排行榜,華為依然以27.8的C-NPS得分排在榜首;蘋果以16.5的C-NPS得分位居第二,相較去年排名提升了2位;小米則以12.8的C-NPS
    的頭像 發表于 01-21 14:40 ?3265次閱讀

    小米斬獲2020年手機推薦度排行榜前三

    近日,品牌評級權威機構Chnbrand發布了手機推薦度排行榜,華為以27.8的C-NPS得分排在榜首。
    的頭像 發表于 01-22 09:13 ?2039次閱讀

    開源大模型Falcon(獵鷹) 180B發布 1800億參數

    ? 世界最強開源大模型 Falcon 180B 忽然火爆全網,1800億參數,Falcon 在 3.5 萬億 token 完成訓練,性能碾壓 Llama 2,登頂 Hugging Fa
    的頭像 發表于 09-18 09:29 ?1581次閱讀
    開源大模型<b class='flag-5'>Falcon</b>(獵鷹) 180B發布 1800億參數
    主站蜘蛛池模板: 欧美成人一区亚洲一区 | 色妹子在线 | 999影院成 人在线影院 | 成人在线黄色 | bt天堂在线观看 | 色综合久久天天综合观看 | 国产成人a一区二区 | 夜夜春夜夜夜夜猛噜噜噜噜噜 | 男人操女人免费网站 | 三级黄色片在线播放 | 香港三级理论在线观看网站 | 97人人揉人人捏人人添 | 天堂网在线.www天堂在线资源 | аⅴ资源中文在线天堂 | 日本人六九视频69jzz免费 | japanese 69hdxxxx日本| 欧美人成绝费网站色www吃脚 | 中文字幕在线观看第一页 | 午夜色福利 | 色老二精品视频在线观看 | 在线观看黄色x视频 | 色婷婷资源网 | 国产色播 | 亚1州区2区3区4区产品乱码 | 三及毛片 | 白嫩美女一级高清毛片免费看 | 欧美午夜小视频 | 久久久久久国产精品mv | 四虎影院一级片 | 91桃色国产线观看免费 | 一区视频在线 | 黄色日本视频 | 免费日韩三级 | www.jizz中国| 女同性大尺度床戏视频 | 婷婷久久综合九色综合98 | 2021色噜噜狠狠综曰曰曰 | 1区2区3区4区 | 欧美线人一区二区三区 | 天天插天天操 | 老湿成人影院 |