在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

13B模型全方位碾壓GPT-4?這背后有什么貓膩

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-11-20 09:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你的測(cè)試集信息在訓(xùn)練集中泄漏了嗎?


一個(gè)參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結(jié)果的有效性,這項(xiàng)測(cè)試還遵循了 OpenAI 的數(shù)據(jù)去污方法,更關(guān)鍵的是沒(méi)有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。

如果你細(xì)細(xì)查看圖中的模型,發(fā)現(xiàn)只要帶有「rephraser」這個(gè)單詞,模型性能都比較高。
這背后到底有何貓膩?原來(lái)是數(shù)據(jù)污染了,即測(cè)試集信息在訓(xùn)練集中遭到泄漏,而且這種污染還不易被檢測(cè)到。盡管這一問(wèn)題非常關(guān)鍵,但理解和檢測(cè)污染仍然是一個(gè)開放且具有挑戰(zhàn)性的難題。
現(xiàn)階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來(lái)檢測(cè)污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預(yù)訓(xùn)練模型(例如 BERT)的嵌入來(lái)查找相似且可能受到污染的示例。
然而,來(lái)自 UC 伯克利、上海交通大學(xué)的研究表明測(cè)試數(shù)據(jù)的簡(jiǎn)單變化(例如,改寫、翻譯)就可以輕松繞過(guò)現(xiàn)有的檢測(cè)方法。他們并將測(cè)試用例的此類變體稱為「改寫樣本(Rephrased Samples)」。
下面演示了 MMLU 基準(zhǔn)測(cè)試中的改寫樣本。結(jié)果證明,如果訓(xùn)練集中包含此類樣本,13B 模型可以達(dá)到極高的性能 (MMLU 85.9)。不幸的是,現(xiàn)有的檢測(cè)方法(例如,n-gram 重疊、嵌入相似性)無(wú)法檢測(cè)到這種污染。比如嵌入相似性方法很難將改寫的問(wèn)題與同一主題(高中美國(guó)歷史)中的其他問(wèn)題區(qū)分開來(lái)。

通過(guò)類似的改寫技術(shù),本文在廣泛使用的編碼和數(shù)學(xué)基準(zhǔn)測(cè)試中觀察到一致的結(jié)果,例如 HumanEval 和 GSM-8K(如文章開頭圖中所示)。因此,能夠檢測(cè)此類改寫樣本變得至關(guān)重要。
接下來(lái),我們看看這項(xiàng)研究是如何進(jìn)行的。


  • 論文地址:https://arxiv.org/pdf/2311.04850.pdf

  • 項(xiàng)目地址:https://github.com/lm-sys/llm-decontaminator#detect


論文介紹
文中表示,大模型(LLM)在快速發(fā)展的同時(shí),關(guān)于測(cè)試集污染的問(wèn)題被越來(lái)越多的重視起來(lái),很多人對(duì)公共基準(zhǔn)的可信度表示擔(dān)憂。
為了解決這一問(wèn)題,有些人采用傳統(tǒng)的去污方法如字符串匹配(例如,n-gram 重疊)來(lái)刪除基準(zhǔn)數(shù)據(jù),但這些操作還遠(yuǎn)遠(yuǎn)不夠,因?yàn)閷?duì)測(cè)試數(shù)據(jù)進(jìn)行一些簡(jiǎn)單的更改(例如,改寫、翻譯)就可以輕松繞過(guò)這些凈化措施。
更重要的是,如果不消除測(cè)試數(shù)據(jù)的這種更改,13B 模型很容易過(guò)度擬合測(cè)試基準(zhǔn)并實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅堋K麄冊(cè)?MMLU、GSK8k 和 HumanEval 等基準(zhǔn)測(cè)試中驗(yàn)證了這些觀察結(jié)果。
同時(shí)為了解決這些日益增長(zhǎng)的風(fēng)險(xiǎn),本文還提出了一種更為強(qiáng)大的基于 LLM 的去污方法 LLM decontaminator,并將其應(yīng)用于流行的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集,結(jié)果表明,本文提出的 LLM 方法在刪除改寫樣本方面明顯優(yōu)于現(xiàn)有方法。
這一做法也揭露了一些先前未知的測(cè)試重疊(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等預(yù)訓(xùn)練集中,本文發(fā)現(xiàn) HumanEval 基準(zhǔn)有 8-18% 重疊。此外,本文還在 GPT-3.5/4 生成的合成數(shù)據(jù)集中發(fā)現(xiàn)了這種污染,這也說(shuō)明了在 AI 領(lǐng)域存在潛在的意外污染風(fēng)險(xiǎn)。
本文希望,社區(qū)在使用公共基準(zhǔn)時(shí)采取更強(qiáng)有力的凈化方法,并呼吁社區(qū)積極開發(fā)新的一次性測(cè)試(one-time exams)案例來(lái)準(zhǔn)確評(píng)估模型。
改寫樣本
本文的目標(biāo)是調(diào)查訓(xùn)練集中包含測(cè)試集的簡(jiǎn)單變化是否會(huì)影響最終的基準(zhǔn)性能,并將測(cè)試用例的這種變化稱為「改寫樣本」。實(shí)驗(yàn)中考慮了基準(zhǔn)的各個(gè)領(lǐng)域,包括數(shù)學(xué)、知識(shí)和編碼。示例 1 是來(lái)自 GSM-8k 的改寫樣本,其中有 10-gram 重疊無(wú)法檢測(cè)到,修改后和原始文本保持相同的語(yǔ)義。

基準(zhǔn)污染具有不同的形式,因此改寫技術(shù)存在一些細(xì)微的差異。對(duì)于基于文本的基準(zhǔn),本文在不改變語(yǔ)義的情況下改寫測(cè)試用例,例如通過(guò)重新排列詞序或用同義術(shù)語(yǔ)替換;對(duì)于基于代碼的基準(zhǔn)測(cè)試,本文改變編碼風(fēng)格、命名方式等。
如下所示,算法 1 中針對(duì)給定的測(cè)試集提出了一種簡(jiǎn)單的算法。該方法可以幫助測(cè)試樣本逃避檢測(cè)。

接下來(lái)本文提出了一種新的污染檢測(cè)方法,可以準(zhǔn)確地從相對(duì)于基準(zhǔn)的數(shù)據(jù)集中刪除改寫樣本。
具體而言,本文引入了 LLM decontaminator。首先,對(duì)于每個(gè)測(cè)試用例,它使用嵌入相似度搜索來(lái)識(shí)別具有最高相似度的 top-k 訓(xùn)練項(xiàng),之后通過(guò) LLM(例如 GPT-4)評(píng)估每一對(duì)是否相同。這種方法有助于確定數(shù)據(jù)集中有多少改寫樣本。
圖 4 展示了不同污染以及不同檢測(cè)方法的維恩圖。

實(shí)驗(yàn)
在第 5.1 節(jié)中,實(shí)驗(yàn)證明了在改寫樣本上訓(xùn)練的模型可以取得顯著的高分,在三個(gè)廣泛使用的基準(zhǔn)(MMLU、HumanEval 和 GSM-8k)中實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅埽@表明改寫樣本應(yīng)被視為污染,應(yīng)從訓(xùn)練數(shù)據(jù)中刪除。在第 5.2 節(jié)中,本文根據(jù) MMLU/HumanEval 中改寫樣本評(píng)估不同的污染檢測(cè)方法。在第 5.3 節(jié)中,本文將 LLM decontaminator 應(yīng)用于廣泛使用的訓(xùn)練集并發(fā)現(xiàn)以前未知的污染。
接下來(lái)我們看看一些主要結(jié)果。
改寫樣本污染基準(zhǔn)
如表 2 所示,在改寫樣本上訓(xùn)練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分,從 45.3 到 88.5。這表明經(jīng)過(guò)改寫的樣本可能會(huì)嚴(yán)重扭曲基準(zhǔn)數(shù)據(jù),應(yīng)被視為污染。

本文還對(duì) HumanEval 測(cè)試集進(jìn)行了改寫,并將其翻譯成五種編程語(yǔ)言:C、JavaScript、Rust、Go 和 Java。結(jié)果顯示,在改寫樣本上訓(xùn)練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分?jǐn)?shù),分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能達(dá)到 67.0。

下表 4 取得了同樣的效果:

對(duì)檢測(cè)污染方法的評(píng)估
如表 5 所示,除 LLM decontaminator 外,所有其他檢測(cè)方法都會(huì)引入一些誤報(bào)。改寫和翻譯的樣本都不會(huì)被 n-gram 重疊檢測(cè)到。使用 multi-qa BERT,嵌入相似性搜索被證明對(duì)翻譯樣本完全無(wú)效。

數(shù)據(jù)集污染情況
表 7 顯示了每個(gè)訓(xùn)練數(shù)據(jù)集中不同基準(zhǔn)的數(shù)據(jù)污染百分比。

LLM decontaminator 揭示了 79 個(gè)自改寫樣本的實(shí)例,占 MATH 測(cè)試集的 1.58%。示例 5 是 MATH 訓(xùn)練數(shù)據(jù)中 MATH 測(cè)試的改寫示例。




原文標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    芯片、模型生態(tài)分散,無(wú)問(wèn)芯穹、沐曦、壁仞談國(guó)產(chǎn)算力瓶頸破局之道

    ,而GPT-4之后的一段時(shí)間里,無(wú)論是OpenAI發(fā)布的新模型,還是其他大模型,整體算法能力進(jìn)入了放緩甚至是停滯的階段。 夏立雪認(rèn)為,其中,表面上看是大
    的頭像 發(fā)表于 07-07 11:14 ?5434次閱讀
    芯片、<b class='flag-5'>模型</b>生態(tài)分散,無(wú)問(wèn)芯穹、沐曦、壁仞談國(guó)產(chǎn)算力瓶頸破局之道

    具有載波聚合的 RX 分集 FEM(B26、B8、B12/13B2/25、B4B7) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()具有載波聚合的 RX 分集 FEM(B26、B8、B12/13B2/25、B4
    發(fā)表于 06-19 18:35
    具有載波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B</b>8、<b class='flag-5'>B</b>12/<b class='flag-5'>13</b>、<b class='flag-5'>B</b>2/25、<b class='flag-5'>B4</b> 和 <b class='flag-5'>B</b>7) skyworksinc

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費(fèi)級(jí)顯卡上,利用PaddleNLP實(shí)踐OpenAI的GPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-4等大參數(shù)
    的頭像 發(fā)表于 02-19 16:10 ?946次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b>預(yù)訓(xùn)練技術(shù)

    OpenAI簡(jiǎn)化大模型選擇:薩姆·奧特曼制定路線圖

    前的技術(shù)環(huán)境下,大模型被廣泛應(yīng)用于各種聊天機(jī)器人中,其中OpenAI的ChatGPT就是一個(gè)典型的例子。然而,對(duì)于大多數(shù)用戶來(lái)說(shuō),選擇最適合自己需求的AI模型卻并非易事。OpenAI目前提供了多種模型供用戶選擇,其中包括能夠快速
    的頭像 發(fā)表于 02-18 09:12 ?483次閱讀

    OpenAI即將發(fā)布GPT-4.5與GPT-5

    GPT-4.5將在未來(lái)幾周內(nèi)率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術(shù)上進(jìn)行了諸多優(yōu)化和升級(jí),旨在為用戶提供更加精準(zhǔn)、高效的AI服務(wù)。 而在GPT-4
    的頭像 發(fā)表于 02-13 13:43 ?621次閱讀

    OpenAI即將推出GPT-5模型

    先進(jìn)技術(shù),其中包括備受矚目的o3工具。通過(guò)整合這些技術(shù),GPT-5模型將實(shí)現(xiàn)更加強(qiáng)大的功能和性能。 值得一提的是,GPT-5模型將被廣泛應(yīng)用于OpenAI的聊天機(jī)器人ChatGPT以及
    的頭像 發(fā)表于 02-13 11:21 ?569次閱讀

    OpenAI報(bào)告GPT-4o及4o-mini模型性能下降,正緊急調(diào)查

    近日,全球領(lǐng)先的AI研究機(jī)構(gòu)OpenAI發(fā)布了一份事故報(bào)告,引起了業(yè)界的廣泛關(guān)注。報(bào)告中指出,OpenAI目前正面臨GPT-4o和4o-mini兩款重要模型性能下降的問(wèn)題。 據(jù)Ope
    的頭像 發(fā)表于 01-23 10:22 ?820次閱讀

    OpenAI:GPT-4o及4o-mini模型性能下降,正展開調(diào)查

    近期,OpenAI發(fā)布了一份事故報(bào)告,指出其GPT-4o及4o-mini模型遭遇了性能下降的問(wèn)題。這一消息引起了業(yè)界的廣泛關(guān)注和討論。 據(jù)OpenAI官方透露,他們目前正在積極調(diào)查這一性能下降的原因
    的頭像 發(fā)表于 01-21 10:34 ?622次閱讀

    如何在邊緣端獲得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    GPT4-V的能力:MiniCPM-V 2.6 。 MiniCPM-V 2.6是MiniCPM-V系列最新、性能最佳的模型,基于SigLip-400M和Qwen2-7B構(gòu)建,共8B參數(shù)
    的頭像 發(fā)表于 01-20 13:40 ?591次閱讀
    如何在邊緣端獲得<b class='flag-5'>GPT4</b>-V的能力:算力魔方+MiniCPM-V 2.6

    電器EMC測(cè)試整改解決:應(yīng)對(duì)電磁干擾的全方位方案

    深圳南柯電子|電器EMC測(cè)試整改解決:應(yīng)對(duì)電磁干擾的全方位方案
    的頭像 發(fā)表于 11-27 11:41 ?905次閱讀
    電器EMC測(cè)試整改解決:應(yīng)對(duì)電磁干擾的<b class='flag-5'>全方位</b>方案

    訊飛星火大模型技術(shù)進(jìn)展及落地

    訊飛星火4.0 Turbo重磅發(fā)布,七大核心能力全面超過(guò)GPT-4 Turbo,數(shù)學(xué)和代碼能力超越GPT-4o,國(guó)內(nèi)外中英文14項(xiàng)主流測(cè)試集中訊飛星火4.0 Turbo實(shí)現(xiàn)9項(xiàng)第一。大模型的產(chǎn)業(yè)藍(lán)圖正在徐徐展開,AI日益進(jìn)入場(chǎng)景
    的頭像 發(fā)表于 10-27 15:50 ?2238次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術(shù)的飛速發(fā)展,我們見證了一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來(lái)革命性的變化。在這場(chǎng)技術(shù)競(jìng)賽中,Llama 3和GPT-4作為兩個(gè)備受矚目的模型,它們代表了當(dāng)前AI領(lǐng)域的最前
    的頭像 發(fā)表于 10-27 14:17 ?1111次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過(guò)GPT-4 Turbo,數(shù)學(xué)能力和代碼能力更是超過(guò)了Open AI最新一代GPT模型GPT-4o。此外,其效率相對(duì)提升50%。
    的頭像 發(fā)表于 10-24 11:39 ?1005次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來(lái)取代GPT-3.5.這是目前市場(chǎng)上最具成本效益的小模型。 ? 該模型在MMLU上得分為82
    的頭像 發(fā)表于 07-21 10:20 ?1646次閱讀
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    OpenAI揭秘CriticGPT:GPT自進(jìn)化新篇章,RLHF助力突破人類能力邊界

    OpenAI近期震撼發(fā)布了一項(xiàng)革命性成果——CriticGPT,一個(gè)基于GPT-4深度優(yōu)化的新型模型,其獨(dú)特之處在于能夠自我提升,助力未來(lái)GPT模型的訓(xùn)練效率與質(zhì)量躍升至新高度。這一創(chuàng)
    的頭像 發(fā)表于 07-02 10:19 ?1041次閱讀
    主站蜘蛛池模板: 优优国产在线视频 | 欧美极品在线观看 | 亲女乱h文小兰第一次 | cao榴| 日韩午夜精品 | 免费一级黄| 亚洲精品色一区色二区色三区 | 色综合久久五月 | 俺去俺来也www色官网免费的 | 欧美成人午夜精品免费福利 | 极品吹潮视频大喷潮tv | 婷婷综合久久中文字幕蜜桃三 | 日本人亚洲人成人 | 色视频网站色视频播放 | 国产精品资源在线 | 国色天香精品亚洲精品 | 精品亚洲欧美无人区乱码 | 在线不卡一区 | 国产三级精品在线 | 欧美精品亚洲网站 | 天天天天做夜夜夜夜做 | 2018天天操天天干 | 欧美色欧美亚洲高清在线观看 | 午夜在线观看视频在线播放版 | 最新亚洲情黄在线网站 | 日韩午夜在线视频不卡片 | 欧美亚洲天堂 | 丁香花在线 | 一区精品视频 | 在线成人免费观看国产精品 | 美女扒开尿口给男人看大全 | 一区二区三区精品国产欧美 | 黄色免费小视频 | 天天天操天天天干 | 黄视频在线观看免费 | 永久免费视频 | 国产精品臀控福利在线观看 | 免费又爽又黄1000禁片 | 亚洲日本欧美日韩高观看 | 性在线视频 | 日韩三级小视频 |