在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分析自動評測器的工具包

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-06-17 14:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

除了各類開源模型外,還有GPT-4、PaLM 2等眾多「閉源」模型,甚至還開設(shè)了一個「準(zhǔn)中文」排行榜。

最近,來自斯坦福的團(tuán)隊(duì),也發(fā)布了一款LLM自動評測系統(tǒng)——AlpacaEval,以及對應(yīng)的AlpacaEval Leaderboard。

在斯坦福的這個排行榜中,GPT-4依然以絕對領(lǐng)先的優(yōu)勢奪得第一,勝率超過了95%。

緊隨其后的是,勝率都在80%以上的Claude和ChatGPT。其中,Claude以不到3%的優(yōu)勢拿下第二,而ChatGPT則位列第三。

此次獲得第四名的,則是一位排位賽新人——微軟華人團(tuán)隊(duì)發(fā)布的WizardLM。

UC伯克利的Vicuna發(fā)揮依然穩(wěn)定,憑借著超過70%的勝率排在第六。

相比之下,斯坦福自己的Alpaca卻只排到了第16……

其實(shí),團(tuán)隊(duì)自從原始的Alpaca推出以來,已經(jīng)做了不小的改進(jìn)——勝率從26%提升到了44%,但依然距離領(lǐng)獎臺很遠(yuǎn)。

對此,其中一位作者有些無奈地表示:「是不是我們哪里做的不對?」

AlpacaEval:易使用、速度快、成本低、經(jīng)過人類標(biāo)注驗(yàn)證

AlpacaEval把AlpacaFarm和Aviary進(jìn)行了結(jié)合。

一方面使用與AlpacaFarm相同的代碼(緩存/隨機(jī)排列/超參數(shù)),另一方面則使用類似于Aviary的排序提示。

與此同時,還對Aviary的提示進(jìn)行了修改,從而減少對較長輸出的偏見。

團(tuán)隊(duì)表示,AlpacaEval有著拔群的效果:

與人類多數(shù)票的一致性,高于單個人類標(biāo)注者

勝率與人類標(biāo)注高度相關(guān)(0.94)

相比于lmsys評測器,有顯著提升(從63%提高到69%)

685d061e-0cd3-11ee-962d-dac502259ad0.png

勝率

模型的輸出在每個指令上優(yōu)于text-davinci-003(即參考文本)的比例。

具體而言,首先從AlpacaEval數(shù)據(jù)集中收集了期望模型在每個指令上的輸出對,并將每個輸出與相同指令下的參考模型(text-davinci-003)的輸出進(jìn)行配對。

隨后,把這些輸出同時喂給自動評測器,讓它去判斷哪一個更好(也就是評測器的偏好)。

最后,將數(shù)據(jù)集中所有指令的偏好進(jìn)行平均,從而得到模型相對于text-davinci-003的勝率。如果兩個模型打平,那么就算半個偏好。

686540ea-0cd3-11ee-962d-dac502259ad0.png

論文地址:
https://arxiv.org/pdf/2305.14387.pdf

標(biāo)準(zhǔn)誤差

勝率的標(biāo)準(zhǔn)誤差(通過N-1進(jìn)行歸一化),即不同指令上的平均偏好。

686f295c-0cd3-11ee-962d-dac502259ad0.png

不同評測器的對比

團(tuán)隊(duì)通過與收集的2.5K個人工標(biāo)注(每個指令平均包含4個人工標(biāo)注)進(jìn)行比較,評測了AlpacaEval數(shù)據(jù)集上的不同自動標(biāo)注程序。

687ad73e-0cd3-11ee-962d-dac502259ad0.png▲斯坦福的評測器(alpaca_eval_gpt4)、之前的自動評測器(alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4)、人類(humans)以及不同基準(zhǔn)模型(gpt4、claude、text_davinci_003、guanaco_33b、chatgpt)的測試結(jié)果

人類一致性:標(biāo)注者與交叉標(biāo)注集中人類多數(shù)票之間的一致性

為了估計(jì)單個人類標(biāo)注者(表格中的humans行)與多數(shù)人類之間的一致性,首先需要選取一個標(biāo)注,并計(jì)算其在預(yù)測其他3個標(biāo)注的眾數(shù)時的準(zhǔn)確率。

然后,將所有4個標(biāo)注和650個指令上的準(zhǔn)確率求平均,得到人類一致性,即計(jì)算預(yù)期的(對于人類和樣本)留一法一致性。如果眾數(shù)不唯一,我們隨機(jī)選擇其中一個眾數(shù)。

對于自動標(biāo)注器,我們進(jìn)行完全相同的計(jì)算,以便最終的結(jié)果可以進(jìn)行比較。

價格:每1000個標(biāo)注的平均價格

對于人類來說,這是支付眾包工人進(jìn)行這些標(biāo)注的價格(每小時18美元)。如果價格取決于用于計(jì)算標(biāo)注的機(jī)器(例如Guanaco),則將其留空。

時間:計(jì)算1000個標(biāo)注所需的平均時間

對于人類來說,這是每個眾包工人標(biāo)注1000個示例所需時間的中位數(shù)。

對于自動標(biāo)注器,這是運(yùn)行標(biāo)注所需的平均時間。值得注意的是,這可能取決于不同用戶的API限制以及集群正在處理的請求數(shù)量。

6887ceda-0cd3-11ee-962d-dac502259ad0.png

最后,為了進(jìn)一步改善自動評測流程,團(tuán)隊(duì)發(fā)布了:

一個易于定制的流程

模型和自動評測器的排行榜

分析自動評測器的工具包

18K人類標(biāo)注

2K人類交叉標(biāo)注

局限性

雖然AlpacaEval提供了一個有用的比較模型,但它并不是一個全面的的模型能力評測系統(tǒng),其局限性可以概括為以下三點(diǎn):

指令比較簡單

評分時可能更偏向于風(fēng)格而非事實(shí)

沒有衡量模型可能造成的危害
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6685

    瀏覽量

    105688
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4899

    瀏覽量

    70623
  • 工具包
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    9706

原文標(biāo)題:斯坦福最新LLM排行榜發(fā)布!自家Alpaca墊底,華人團(tuán)隊(duì)WizardLM開源第一,GPT-4、Claude穩(wěn)居前二

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    fastrbf工具包

    求matlab中fastrbf的工具包 ,有誰有這個工具包呢?求分享?急需
    發(fā)表于 03-05 20:05

    SAM9G45-EK評測工具包怎么樣?

    愛特梅爾公司(Atmel? Corporation)宣布推出SAM9G45-EK評測工具包,支持基于愛特梅爾400 MHz ARM926?之嵌入式微處理(MPU)并帶有DDR2存儲
    發(fā)表于 09-19 07:14

    并口開發(fā)調(diào)試工具包

    并口開發(fā)調(diào)試工具包:開發(fā)調(diào)試工具包包括三個功能模塊:“并口調(diào)試”、“并口測試信號發(fā)生”和“并口監(jiān)視”。
    發(fā)表于 05-26 09:53 ?37次下載

    并口開發(fā)調(diào)試工具包 (推薦)

    并口開發(fā)調(diào)試工具包 (推薦):
    發(fā)表于 05-27 10:15 ?35次下載
    并口開發(fā)調(diào)試<b class='flag-5'>工具包</b> (推薦)

    固件工具包

    固件工具包 修改工具包 高興向大家公布這個信息! 首先介紹一下這個工具地用途: 1、修改固件 - 通過此工具能夠修改固件中絕大多數(shù)地信息及配置。 2、...
    發(fā)表于 03-16 14:49 ?71次下載

    SAM9G45評測工具包(Atmel)

    SAM9G45評測工具包(Atmel) 愛特梅爾公司(Atmel® Corporation)宣布推出SAM9G45-EK評測工具包,支持基于愛特梅爾400 MHz ARM92
    發(fā)表于 11-02 09:35 ?1244次閱讀

    愛特梅爾推出SAM9G45評測工具包

    愛特梅爾推出SAM9G45評測工具包 愛特梅爾公司(Atmel Corporation)宣布推出SAM9G45-EK評測工具包,支持基于愛特梅爾400 MHz ARM926之嵌入式微
    發(fā)表于 11-05 09:46 ?827次閱讀

    有刷迷你四軸飛行工具包

    有刷迷你四軸飛行工具包.有刷迷你四軸飛行工具包.有刷迷你四軸飛行工具包.有刷迷你四軸飛行
    發(fā)表于 11-17 17:07 ?9次下載

    Labview2013各工具包的功能簡介

    Labview2013各工具包的功能簡介Labview2013各工具包的功能簡介
    發(fā)表于 11-20 11:20 ?0次下載

    WEBENCH 設(shè)計(jì)工具包綜合概述

    WEBENCH 設(shè)計(jì)工具包綜合概述
    發(fā)表于 09-15 09:28 ?6次下載
    WEBENCH 設(shè)計(jì)<b class='flag-5'>工具包</b>綜合概述

    用于代碼編碼分析工具包V1.3版本的詳細(xì)資料概述

    分析工具包(ATK)是一種有助于增強(qiáng)魯棒性的工具,并分析了嵌入式DSP應(yīng)用的性能。工具包提供源行覆蓋信息的可視化,幫助您構(gòu)建測試以確保代碼的
    發(fā)表于 05-04 17:29 ?0次下載
    用于代碼編碼<b class='flag-5'>器</b>的<b class='flag-5'>分析</b><b class='flag-5'>工具包</b>V1.3版本的詳細(xì)資料概述

    Microchip蘋果配件開發(fā)工具包

    這一講是Microchip蘋果配件開發(fā)工具包蘋果配件開發(fā)工具包
    的頭像 發(fā)表于 06-06 13:45 ?2589次閱讀

    SM2246XT工具包

    SM2246XT工具包免費(fèi)下載。
    發(fā)表于 04-23 09:35 ?37次下載

    iSCSI驅(qū)動工具包

    電子發(fā)燒友網(wǎng)站提供《iSCSI驅(qū)動工具包.exe》資料免費(fèi)下載
    發(fā)表于 08-01 14:43 ?0次下載
    iSCSI驅(qū)動<b class='flag-5'>器</b><b class='flag-5'>工具包</b>

    OneInstall工具包

    電子發(fā)燒友網(wǎng)站提供《OneInstall工具包.exe》資料免費(fèi)下載
    發(fā)表于 08-18 14:54 ?0次下載
    OneInstall<b class='flag-5'>工具包</b>
    主站蜘蛛池模板: 国产成人精品亚洲日本在线 | 一级特黄a大片免费 | 国产一区二区三区免费大片天美 | 污夜影院| 狠狠叉 | 性做久久久久 | 免费在线观看视频网站 | 日本大片免a费观看在线 | 天天做天天干 | 天天在线影院 | 亚洲成人高清 | 亚州怡红院 | 婷婷 综合网站 | 日韩a一级欧美一级 | 久国产精品久久精品国产四虎 | 亚洲第一免费网站 | 91精品啪国产在线观看免费牛牛 | 特级全黄一级毛片视频 | 国产精品李雅在线观看 | 国产二区三区毛片 | 黄色日比| 五月婷婷丁香综合 | 人人玩人人添天天爽 | 五月天婷婷色综合 | 97综合网| 色偷偷亚洲天堂 | 国产美女影院 | 亚洲欧美国产高清va在线播放 | 国产在线精彩视频二区 | 国产三级在线视频观看 | 涩涩高清无乱码在线观看 | 五月天婷五月天综合网在线 | 亚洲亚洲人成网站在线观看 | 性生生活三级视频在线观看 | 亚洲成年人在线 | 美女黄18以下禁止观看 | 色天使色婷婷丁香久久综合 | 四虎最新网址 | 日本网络视频www色高清免费 | 日本丰满毛茸茸熟妇 | 亚洲日本一区二区三区在线不卡 |