91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

32k上下文可商用!羊駝進化成長頸鹿,“開源大模型之最”

深度學習自然語言處理 ? 來源:量子位 ? 2023-08-25 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

號稱“世界首個上下文長度達32k的開源可商用大模型”來了。

名字“簡單粗暴”,就叫“長頸鹿”(Giraffe),基于130億規模的Llama-2打造。

c5db892e-4323-11ee-a2ef-92fbcf53809c.png

如作者所言,原始的Llama-2和Llama-1都只有4k上下文,很難真正在企業領域被商用。

而現在這個是其8倍的“Giraffe”,直接改變這一局面:

能夠一次處理更大文檔、維持更長時間對話、執行更復雜檢索且結果出錯更少……在開源大模型界中,可謂真正的商業/企業友好。

網友紛紛表示:“太有用了”、“馬上就要試試”。

c5f7b338-4323-11ee-a2ef-92fbcf53809c.png

所以,長頸鹿是如何從羊駝“進化”而來的?

擴充上下文長度的探索

長頸鹿的作者來自Abacus.AI。

這是一家搞AI數據科學平臺的初創企業,成立于2019年,已完成5000萬元C輪融資。

為了擴展開源模型的上下文長度,他們將目前最突出的已有方法整理在一起,并進行徹底測試確定出最有效的方法。

在此之上,他們也提出了一些新思路,其中一種稱為“截斷(truncation)”,它表現出了不小的潛力。

c671c47a-4323-11ee-a2ef-92fbcf53809c.png

具體來看:

首先團隊發現,目前已有的長下文外推方法普遍都是通過修改注意力機制中使用的位置編碼系統,指示token和activation在輸入序列中的位置而完成。

包括線性縮放/位置插值、xPos、隨機化位置編碼等等。

在此,他們提出了兩種新方法。

一個叫Power Scaling,主要是對原始的RoPE編碼進行了如下變換:

c68e7b88-4323-11ee-a2ef-92fbcf53809c.png

這使得基礎的高頻(短距離)元素比低頻(長距離)元素受到的影響更小,讓模型不得不對低頻元素進行不那么復雜的外推,從而讓整體得到提升。

另一個方法叫Truncated Basis(也就是上面所說的“截斷”),主要是對原始RoPE編碼進行了如下變換:

c6c66552-4323-11ee-a2ef-92fbcf53809c.png

其中ρ是一個相對較小的固定值,a和b是選定的截止值。

作者在這里的想法是,保留basis的高頻分量,但將低頻分量設置為恒定值(比如0)。

而通過明智地選擇截止值a,模型就可以在微調期間(由于正弦函數和正弦函數的周期性)經歷上下文長度中的所有basis值,從而更好地外推到更大的上下文長度。

接下來,便是對以上這些方法進行徹底測試。

在此,作者認為,很多人只用困惑度來衡量模型的長下文能力是遠遠不夠的,因為它的細粒度不夠。

為此,除了困惑度,他們還加了三個新的評估任務(都已公開發布到HuggingFace之上):

FreeFormQA、AlteredNumericQA和LongChat Lines,其中前兩個是一類,為問答任務,第三個為關鍵值檢索任務。

通過使用這兩種類型的任務,我們能夠強制要求模型更加關注完整的上下文,從而獲得高精度的測試結果。

那么結果如何?

直接上結論:

首先,線性插值是最好的上下文長度外推方法。

其次,所有上下文長度外推方法都隨著長度的增加,在任務準確性上出現了下降。

第三,通過在評估階段使用比微調時更高的比例因子,可以進一步增加上下文長度,但比例因子似乎最多只能提高2倍。

以下是這些方法在三個評估數據集上的具體表現(精度為1.0表示性能完美,0.0表示每次評估都是錯誤的):

c6d58db6-4323-11ee-a2ef-92fbcf53809c.png

△ LongChat Lines

c6e605a6-4323-11ee-a2ef-92fbcf53809c.png

△ AlteredNumericQA和FreeFormQA

可以看到,除了佐證上面的結論,作者們新提出的Truncated Basis方法表現確實不錯,有一定的前景。

而基于以上研究,團隊也在LLaMA2-13B基礎模型上發布了長頸鹿大模型,當然,用的是性能最優的線性插值法。

根據上下文長度不同,長勁鹿家族最終一共有三個版本:4k、16k和32k,感興趣的朋友就可以去HuggingFace上下載了。

c700bb76-4323-11ee-a2ef-92fbcf53809c.png

其實是并列第一

雖然Abacus.AI號稱長頸鹿是世界首個上下文可達32k的開源LLM,但Together.AI其實更為搶先一步:

他們已在本月初發布了32k的Llama-2-7B大模型(已有近1萬7千次下載),以及在上周五發布了llama-2-7b-32k-instruct。

c70c966c-4323-11ee-a2ef-92fbcf53809c.png

大家的上下文長度一樣,唯一的大區別是Together.AI的參數規模要小些。

現在,大伙也好奇能不能出一個對比,看看究竟誰更勝一籌。

c721fde0-4323-11ee-a2ef-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    968

    瀏覽量

    55746
  • 開源
    +關注

    關注

    3

    文章

    3673

    瀏覽量

    43791
  • 大模型
    +關注

    關注

    2

    文章

    3132

    瀏覽量

    4050

原文標題:32k上下文可商用!羊駝進化成長頸鹿,“開源大模型之最”

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    鴻蒙中Stage模型與FA模型詳解

    模型中, featureAbility 是舊版FA模型(Feature Ability)的用法 ,Stage模型已采用全新的應用架構,推薦使用 組件化的上下文獲取方式 ,而非依賴
    的頭像 發表于 07-07 11:50 ?146次閱讀

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無法在EntryAbility中無法使用最新版

    摘要:隨著鴻蒙系統API升級至16版本(modelVersion5.1.1),多項API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發表于 07-01 10:57 ?182次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無法在EntryAbility中無法使用最新版

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發表于 06-10 14:27 ?270次閱讀
    Transformer架構中編碼器的工作流程

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執行上下文切換?

    如果我們在 AUTOSAR 中使用 CAT1 ISR,是否需要執行上下文切換?另外,是否需要返回指令才能跳回到作系統?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    發表于 03-27 07:34

    為什么深度學習中的Frame per Second高于OpenVINO?演示推理腳本?

    在 DL Workbench 上使用 Microsoft 通用對象上下文 (MS COCO) 數據集運行 YOLOv4 對象檢測模型,并獲得 50 - 60 FPS。 OpenVINO?演示推理腳本運行,并獲得更高的 FPS。
    發表于 03-06 07:27

    DeepSeek推出NSA機制,加速長上下文訓練與推理

    的特性,專為超快速的長上下文訓練和推理而設計。 NSA通過針對現代硬件的優化設計,顯著加快了推理速度,并大幅度降低了預訓練成本,同時保持了卓越的性能表現。這一機制在確保效率的同時,并未犧牲模型的準確性或功能。 在廣泛的基準測試、涉及長
    的頭像 發表于 02-19 14:01 ?626次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    生成 支持常規代碼生成 優化邏輯嚴謹性(長代碼鏈、算法實現) 多語言支持 多語言均衡能力(中/英/小語種) 側重中英文,尤其在技術術語上更精準 長文本處理 標準上下文窗口(約32K tokens
    發表于 02-14 02:08

    模型遭遇算力墻,探索超級應用的發展路徑

    的評論透露出 GPT-5 難產的隱憂,直言有限的算力約束讓 OpenAI 面臨迭代優先級的艱難抉擇,在通往 AGI 的道路上一路高歌猛進的領頭羊似乎撞上了“算力墻”。 除此之外,能耗、資金,難以根除的幻覺,有限的知識更新速率、有限的上下文寬度、高昂的運營成本等等,都讓外界對大模型
    的頭像 發表于 02-10 17:24 ?1172次閱讀
    大<b class='flag-5'>模型</b>遭遇算力墻,探索超級應用的發展路徑

    阿里云通義開源長文本新模型Qwen2.5-1M

    近日,阿里云通義宣布了一項重大開源舉措,推出了支持100萬Tokens上下文的Qwen2.5-1M模型。這一新模型在處理長文本任務中展現出了卓越的性能,穩定超越了GPT-4o-mini
    的頭像 發表于 02-05 14:01 ?517次閱讀

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    布外任務展示出多樣化和復雜的推廣能力。 知識載體 知識嵌入在訓練期間學習的模型參數中。 知識載體是記憶和隱藏狀態,專注于上下文學習和適應。 擴展性 通過擴展參數和預訓練數據集提高性能。 通過擴展元
    發表于 12-24 15:03

    阿里通義千問發布Qwen2.5-Turbo開源AI模型

    近日,阿里通義千問官方宣布,經過數月的精心優化與改進,正式推出了Qwen2.5-Turbo開源AI模型。這款新模型旨在滿足社區對更長上下文長度的迫切需求,為用戶帶來更加便捷、高效的AI
    的頭像 發表于 11-19 18:07 ?1218次閱讀

    Llama 3 在自然語言處理中的優勢

    領域的最新進展。 1. 高度的上下文理解能力 Llama 3的一個顯著優勢是其對上下文的深刻理解。傳統的NLP模型往往在處理復雜的語言結構和上下文依賴性時遇到困難。Llama 3通過使
    的頭像 發表于 10-27 14:22 ?726次閱讀

    Llama 3 語言模型應用

    在人工智能領域,語言模型的發展一直是研究的熱點。隨著技術的不斷進步,我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。 一、Llama 3 語言模型的核心功能 上下文理解 :Lla
    的頭像 發表于 10-27 14:15 ?727次閱讀

    SystemView上下文統計窗口識別阻塞原因

    SystemView工具可以記錄嵌入式系統的運行時行為,實現可視化的深入分析。在新發布的v3.54版本中,增加了一項新功能:上下文統計窗口,提供了對任務運行時統計信息的深入分析,使用戶能夠徹底檢查每個任務,幫助開發人員識別阻塞原因。
    的頭像 發表于 08-20 11:31 ?697次閱讀

    超ChatGPT-4o,國產大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

    、速度慢、費用高且難以準確理解上下文”的問題。相比之下,AI大模型憑借其強大的學習能力和適應性,在翻譯質量、效率、上下文理解和多語言支持等方面表現出色,提供了更加
    的頭像 發表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國產大<b class='flag-5'>模型</b>竟然更懂翻譯,8款大<b class='flag-5'>模型</b>深度測評|AI 橫評
    主站蜘蛛池模板: 天天爱夜夜爽 | 久久精品福利 | japanesexxx日本69 japan日韩xxxx69hd | 中文网丁香综合网 | 国产高清美女一级a毛片 | 色午夜视频 | 日本欧美一区二区免费视 | 在线视频 亚洲 | 永久免费人成网ww555kkk手机 | 好硬好湿好爽再深一点h视频 | 久久久久久久成人午夜精品福利 | 依依成人精品无v国产 | 天天综合天天综合色在线 | 五月综合激情 | 国模吧一区二区三区精品视频 | videossexotv极度另类高清 | 国产精品美女自在线观看免费 | 全午夜免费一级毛片 | 国产精品女丝袜白丝袜 | av 狼| 免费国产成高清人在线视频 | 人成网站在线观看 | 国产精品久久久久久影院 | 欧美亚洲在线 | 久久久久久国产精品mv | 日本一区三区二区三区四区 | 日日干天天干 | 嗯好舒服好爽好快好大 | 在线精品91青草国产在线观看 | 日韩欧美一区二区三区视频 | 天天综合色天天综合网 | 一区二区三区视频在线 | 韩国xxxxxxxx69 | 18视频免费网址在线观看 | 婷婷草 | 毛色毛片免费观看 | 他也色在线 | 天天操天天射天天操 | 五月婷婷六月合 | 1区2区3区4区 | 亚洲精品乱码久久久久久蜜桃图片 |