在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

32k上下文可商用!羊駝進化成長頸鹿,“開源大模型之最”

深度學習自然語言處理 ? 來源:量子位 ? 2023-08-25 17:05 ? 次閱讀

號稱“世界首個上下文長度達32k的開源可商用大模型”來了。

名字“簡單粗暴”,就叫“長頸鹿”(Giraffe),基于130億規模的Llama-2打造。

c5db892e-4323-11ee-a2ef-92fbcf53809c.png

如作者所言,原始的Llama-2和Llama-1都只有4k上下文,很難真正在企業領域被商用。

而現在這個是其8倍的“Giraffe”,直接改變這一局面:

能夠一次處理更大文檔、維持更長時間對話、執行更復雜檢索且結果出錯更少……在開源大模型界中,可謂真正的商業/企業友好。

網友紛紛表示:“太有用了”、“馬上就要試試”。

c5f7b338-4323-11ee-a2ef-92fbcf53809c.png

所以,長頸鹿是如何從羊駝“進化”而來的?

擴充上下文長度的探索

長頸鹿的作者來自Abacus.AI。

這是一家搞AI數據科學平臺的初創企業,成立于2019年,已完成5000萬元C輪融資。

為了擴展開源模型的上下文長度,他們將目前最突出的已有方法整理在一起,并進行徹底測試確定出最有效的方法。

在此之上,他們也提出了一些新思路,其中一種稱為“截斷(truncation)”,它表現出了不小的潛力。

c671c47a-4323-11ee-a2ef-92fbcf53809c.png

具體來看:

首先團隊發現,目前已有的長下文外推方法普遍都是通過修改注意力機制中使用的位置編碼系統,指示token和activation在輸入序列中的位置而完成。

包括線性縮放/位置插值、xPos、隨機化位置編碼等等。

在此,他們提出了兩種新方法。

一個叫Power Scaling,主要是對原始的RoPE編碼進行了如下變換:

c68e7b88-4323-11ee-a2ef-92fbcf53809c.png

這使得基礎的高頻(短距離)元素比低頻(長距離)元素受到的影響更小,讓模型不得不對低頻元素進行不那么復雜的外推,從而讓整體得到提升。

另一個方法叫Truncated Basis(也就是上面所說的“截斷”),主要是對原始RoPE編碼進行了如下變換:

c6c66552-4323-11ee-a2ef-92fbcf53809c.png

其中ρ是一個相對較小的固定值,a和b是選定的截止值。

作者在這里的想法是,保留basis的高頻分量,但將低頻分量設置為恒定值(比如0)。

而通過明智地選擇截止值a,模型就可以在微調期間(由于正弦函數和正弦函數的周期性)經歷上下文長度中的所有basis值,從而更好地外推到更大的上下文長度。

接下來,便是對以上這些方法進行徹底測試。

在此,作者認為,很多人只用困惑度來衡量模型的長下文能力是遠遠不夠的,因為它的細粒度不夠。

為此,除了困惑度,他們還加了三個新的評估任務(都已公開發布到HuggingFace之上):

FreeFormQA、AlteredNumericQA和LongChat Lines,其中前兩個是一類,為問答任務,第三個為關鍵值檢索任務。

通過使用這兩種類型的任務,我們能夠強制要求模型更加關注完整的上下文,從而獲得高精度的測試結果。

那么結果如何?

直接上結論:

首先,線性插值是最好的上下文長度外推方法。

其次,所有上下文長度外推方法都隨著長度的增加,在任務準確性上出現了下降。

第三,通過在評估階段使用比微調時更高的比例因子,可以進一步增加上下文長度,但比例因子似乎最多只能提高2倍。

以下是這些方法在三個評估數據集上的具體表現(精度為1.0表示性能完美,0.0表示每次評估都是錯誤的):

c6d58db6-4323-11ee-a2ef-92fbcf53809c.png

△ LongChat Lines

c6e605a6-4323-11ee-a2ef-92fbcf53809c.png

△ AlteredNumericQA和FreeFormQA

可以看到,除了佐證上面的結論,作者們新提出的Truncated Basis方法表現確實不錯,有一定的前景。

而基于以上研究,團隊也在LLaMA2-13B基礎模型上發布了長頸鹿大模型,當然,用的是性能最優的線性插值法。

根據上下文長度不同,長勁鹿家族最終一共有三個版本:4k、16k和32k,感興趣的朋友就可以去HuggingFace上下載了。

c700bb76-4323-11ee-a2ef-92fbcf53809c.png

其實是并列第一

雖然Abacus.AI號稱長頸鹿是世界首個上下文可達32k的開源LLM,但Together.AI其實更為搶先一步:

他們已在本月初發布了32k的Llama-2-7B大模型(已有近1萬7千次下載),以及在上周五發布了llama-2-7b-32k-instruct。

c70c966c-4323-11ee-a2ef-92fbcf53809c.png

大家的上下文長度一樣,唯一的大區別是Together.AI的參數規模要小些。

現在,大伙也好奇能不能出一個對比,看看究竟誰更勝一籌。

c721fde0-4323-11ee-a2ef-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    959

    瀏覽量

    54981
  • 開源
    +關注

    關注

    3

    文章

    3421

    瀏覽量

    42779
  • 大模型
    +關注

    關注

    2

    文章

    2651

    瀏覽量

    3263

原文標題:32k上下文可商用!羊駝進化成長頸鹿,“開源大模型之最”

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    阿里云通義開源長文本新模型Qwen2.5-1M

    近日,阿里云通義宣布了一項重大開源舉措,推出了支持100萬Tokens上下文的Qwen2.5-1M模型。這一新模型在處理長文本任務中展現出了卓越的性能,穩定超越了GPT-4o-mini
    的頭像 發表于 02-05 14:01 ?177次閱讀

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    布外任務展示出多樣化和復雜的推廣能力。 知識載體 知識嵌入在訓練期間學習的模型參數中。 知識載體是記憶和隱藏狀態,專注于上下文學習和適應。 擴展性 通過擴展參數和預訓練數據集提高性能。 通過擴展元
    發表于 12-24 15:03

    阿里通義千問發布Qwen2.5-Turbo開源AI模型

    近日,阿里通義千問官方宣布,經過數月的精心優化與改進,正式推出了Qwen2.5-Turbo開源AI模型。這款新模型旨在滿足社區對更長上下文長度的迫切需求,為用戶帶來更加便捷、高效的AI
    的頭像 發表于 11-19 18:07 ?757次閱讀

    Llama 3 語言模型應用

    在人工智能領域,語言模型的發展一直是研究的熱點。隨著技術的不斷進步,我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。 一、Llama 3 語言模型的核心功能 上下文理解 :Lla
    的頭像 發表于 10-27 14:15 ?397次閱讀

    SystemView上下文統計窗口識別阻塞原因

    SystemView工具可以記錄嵌入式系統的運行時行為,實現可視化的深入分析。在新發布的v3.54版本中,增加了一項新功能:上下文統計窗口,提供了對任務運行時統計信息的深入分析,使用戶能夠徹底檢查每個任務,幫助開發人員識別阻塞原因。
    的頭像 發表于 08-20 11:31 ?496次閱讀

    鴻蒙Ability Kit(程序框架服務)【應用上下文Context】

    [Context]是應用中對象的上下文,其提供了應用的一些基礎信息,例如resourceManager(資源管理)、applicationInfo(當前應用信息)、dir(應用文件路徑)、area
    的頭像 發表于 06-06 09:22 ?594次閱讀
    鴻蒙Ability Kit(程序框架服務)【應用<b class='flag-5'>上下文</b>Context】

    騰訊云推出全新大模型定價策略:免費并降低API費用

    他進一步表示,盡管傳統搜索引擎已相當出色,但大模型卻能使其更上一層樓。自去年9月騰訊推出大模型產品以來,模型效率已提升50%,參數規模由千億增至萬億,支持256K原生窗口
    的頭像 發表于 05-30 15:20 ?917次閱讀

    微軟發布PhI-3-Vision模型,提升視覺AI效率

    Phi-3-vision 是一種小型多模式語言模型(SLM),主要適用于本地人工智能場景。其模型參數高達 42 億,上下文序列包含 128k 個符號,
    的頭像 發表于 05-28 11:35 ?561次閱讀

    編寫一個任務調度程序,在上下文切換后遇到了一些問題求解

    大家好, 我正在編寫一個任務調度程序,在上下文切換后遇到了一些問題。 為下一個任務恢復上下文后: __builtin_tricore_mtcr_by_name(\"pcxi\"
    發表于 05-22 07:50

    OpenAI發布GPT-4o模型,支持文本、圖像、音頻信息,速度提升一倍,價格不變

     此外,該模型還具備128K上下文記憶能力,知識截止日期設定為2023年10月。微軟方面也宣布,已通過Azure OpenAI服務提供GPT-4o的預覽版。
    的頭像 發表于 05-14 17:12 ?919次閱讀

    Meta Llama 3基礎模型現已在亞馬遜云科技正式可用

    亞馬遜云科技近日宣布,Meta公司最新發布的兩款Llama 3基礎模型——Llama 3 8B和Llama 3 70B,現已正式上線并集成至Amazon SageMaker JumpStart平臺。這兩款先進的生成文本模型,具備8k
    的頭像 發表于 05-09 10:39 ?463次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    矩陣,如詞-文檔矩陣和詞-上下文矩陣,然后對共現矩陣進行降維操作,得到詞的表示。其中,基于概率主題模型的方法最為流行,如潛在語義索引(LSI)和隱含狄利克雷分布(LDA)等。這些方法通過矩陣分解或貝葉斯
    發表于 05-05 12:17

    零一萬物正式發布Yi大模型API開放平臺

    近日,零一萬物正式發布Yi大模型API開放平臺,為開發者提供通用Chat、200k超長上下文、多模態交互等模型。
    的頭像 發表于 03-17 09:55 ?1287次閱讀

    TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH錯誤怎么解決?

    我收到EVAL_6EDL7141_TRAP_1SH 3 類(TIN4-Free 上下文列表下溢)上下文管理EVAL_6EDL7141_TRAP_1SH錯誤。 請告訴我解決這個問題的辦法。
    發表于 03-06 08:00

    請問risc-v中斷還需要軟件保存上下文和恢復嗎?

    risc-v中斷還需要軟件保存上下文和恢復嗎?
    發表于 02-26 07:40
    主站蜘蛛池模板: 色聚网久久综合 | 欧美黄色一级网站 | 国产精品99r8在线观看 | 久久夜色精品国产噜噜小说 | 国产激情在线观看 | 三级理论手机在线观看视频 | 国产一区二区三区欧美精品 | 欧美天堂色 | 九月丁香婷婷亚洲综合色 | 国产亚洲精品久久久久久午夜 | 久久人人视频 | 欧美日韩中文字幕 | 天天爱天天做久久天天狠狼 | 久久综合九色综合欧美播 | 日本亚洲精品成人 | 欧美色视频日本片免费高清 | 中国日韩欧美中文日韩欧美色 | 国产日本三级在线播放线观看 | 天天操天天干天天射 | 色婷婷激婷婷深爱五月老司机 | 午夜影视在线视频观看免费 | 99香蕉国产 | 成人亚洲精品 | 成人免费无毒在线观看网站 | 久久久久久人精品免费费看 | 手机在线观看国产精选免费 | 2021国产精品成人免费视频 | 午夜欧美性视频在线播放 | 国产性老妇女做爰在线 | 一区二区三区四区五区 | 最近2018年在线中文字幕高清 | 色天使网 | 亚洲国产影视 | 1区2区| cao草棚视频网址成人 | 天天澡天天摸天天爽免费 | 男男全肉高h腐文 | 国产色妞妞在线观看 | 久久精品免费观看久久 | 亚洲码欧美码一区二区三区 | 美女扒开尿口给男人桶爽视频 |