91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

商湯科技發(fā)布新一代大語言模型書生·浦語2.0

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2024-01-17 15:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1月17日,商湯科技與上海AI實驗室聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)正式發(fā)布新一代大語言模型書?·浦語2.0(InternLM2)。

InternLM2 的核心理念在于回歸語言建模的本質(zhì),致力于通過提高語料質(zhì)量及信息密度,實現(xiàn)模型基座語言建模能力質(zhì)的提升,進而在數(shù)理、代碼、對話、創(chuàng)作等各方面都取得長足進步,綜合性能達到開源模型的領(lǐng)先水平。

InternLM2是在2.6萬億token的高質(zhì)量語料上訓(xùn)練得到的。沿襲第一代書生·浦語(InternLM)設(shè)定,InternLM2包含7B及20B兩種參數(shù)規(guī)格及基座、對話等版本,滿足不同復(fù)雜應(yīng)用場景需求,繼續(xù)開源,提供免費商用授權(quán)。

回歸語言建模本質(zhì)

筑牢大模型能力基礎(chǔ)

大模型的研究應(yīng)回歸語言建模本質(zhì),大模型各項性能提升的基礎(chǔ)在于語言建模能力的增強。

為此,聯(lián)合團隊提出了新一代的數(shù)據(jù)清洗過濾技術(shù),通過更高質(zhì)量的語料及更高的信息密度,筑牢大模型能力基礎(chǔ)。

主要發(fā)展了以下幾個方面的技術(shù)方法:

多維度數(shù)據(jù)價值評估:基于文本質(zhì)量、信息質(zhì)量、信息密度等維度對數(shù)據(jù)價值進行綜合評估與提升。

高質(zhì)量語料驅(qū)動的數(shù)據(jù)富集:利用高質(zhì)量語料的特征從物理世界、互聯(lián)網(wǎng)以及語料庫中進一步富集類似語料。

針對性的數(shù)據(jù)補齊:針對性補充語料,重點加強現(xiàn)實世界知識、數(shù)理、代碼等核心能力。

目前,浦語背后的數(shù)據(jù)清洗過濾技術(shù)已經(jīng)歷三輪迭代升級。僅使用約60%的訓(xùn)練數(shù)據(jù)即可達到使用第二代數(shù)據(jù)訓(xùn)練1T tokens的性能表現(xiàn),模型訓(xùn)練效率大幅提升。

wKgaomWne-iAQbT_AAEIBmxsGEc255.png

第三代數(shù)據(jù)清洗過濾技術(shù)大幅度提升模型訓(xùn)練效率

基于第三代數(shù)據(jù)清洗過濾技術(shù),InternLM2語言建模能力實現(xiàn)了顯著增強。

wKgaomWne-iAGGMaAAEp5gb_hxg049.png

與第一代InternLM相比,InternLM2在大規(guī)模高質(zhì)量的驗證語料上的Loss分布整體左移,表明其語言建模能力實質(zhì)性增強

支持200K超長上下文

“大海撈針”近乎完美

長語境輸入及理解能力能夠顯著拓展大模型應(yīng)用場景,比如支持大型文檔處理、復(fù)雜的推理演算和實際場景的工具調(diào)用等。然而,大模型有限的上下文長度當(dāng)前仍是學(xué)界及業(yè)內(nèi)面臨的重要難題。

通過拓展訓(xùn)練窗口大小和位置編碼改進,InternLM2支持20萬 tokens的上下文,能夠一次性接受并處理約30萬漢字(約五六百頁的文檔)的輸入內(nèi)容,準(zhǔn)確提取關(guān)鍵信息,實現(xiàn)長文本中“大海撈針”。

參考業(yè)界范例,研究人員對InternLM2進行了“大海撈針”試驗:將關(guān)鍵信息隨機插入一段長文本的不同位置并設(shè)置問題,測試模型能否從中提取出關(guān)鍵信息。

wKgaomWne-iAMWLhAAHPhFbq5Kg567.png

InternLM2“大海撈針”試驗效果

上圖展示了InternLM2在不同長度的上下文(橫軸)及上下文中不同位置(縱軸)上召回關(guān)鍵信息的準(zhǔn)確率(Recall)。紅色代表較低的召回準(zhǔn)確率,而綠色則代表較高的召回率。試驗結(jié)果表明,InternLM2在上下文長度延展到200K時依舊保持了近乎完美的召回成功率,驗證了InternLM2對于超長上下文堅實的支持能力。

為測試InternLM2在真實長文本處理任務(wù)中的能力,研究人員將一份時長3小時的公開會議錄音轉(zhuǎn)錄稿輸入模型中,并要求InternLM2從中提取出關(guān)鍵信息。

wKgZomWne-iAb9TxAAKeZy0-Z5E797.png

InternLM2準(zhǔn)確總結(jié)“聯(lián)合國2023年10月2日召開的聯(lián)合國貿(mào)易和發(fā)展會議會議記錄”

原始公開記錄詳見:

https://conf.unog.ch/digitalrecordings/index.html?guid=public/60.5295/9849DF25-F3B5-4BFF-8979-C5A989586205_10h09&position=0&channel=ORIGINAL

測試結(jié)果表明,盡管在未校對的文本中存在較多錯別字,但InternLM2仍從中準(zhǔn)確提煉出了關(guān)鍵信息,并總結(jié)了關(guān)鍵發(fā)言人的觀點。

性能全面提升

綜合領(lǐng)先同量級開源模型

InternLM2的各項能力獲得全面進步,相比于初代InternLM,在推理、數(shù)學(xué)、代碼等方面的能力提升尤為顯著,綜合能力領(lǐng)先于同量級開源模型。

根據(jù)大語言模型的應(yīng)用方式和用戶關(guān)注的重點領(lǐng)域,研究人員定義了語言、知識、推理、數(shù)學(xué)、代碼、考試等六個能力維度,在55個主流評測集上對多個同量級模型的表現(xiàn)進行了綜合評測。

評測結(jié)果顯示,InternLM2的輕量級及中量級版本性能在同量級模型中表現(xiàn)優(yōu)異。

wKgZomWne-iAYX2dAAOU3xvEZm0395.png

InternLM2的輕量級及中量級版本性能在同量級開源模型中表現(xiàn)優(yōu)異

下面表格對比了InternLM2各版本與ChatGPT(GPT-3.5)以及GPT-4在典型評測集上的表現(xiàn)。

wKgZomWne-iAbmVbAABeTz7Q-O4654.png

InternLM2與ChatGPT的評測結(jié)果對比

可以看到,InternLM2只用20B參數(shù)的中等規(guī)模,即在整體表現(xiàn)上達到了與ChatGPT比肩的水平。其中,在AGIEval、 BigBench-Hard(BBH)、GSM8K、MATH等對推理能力有較高要求的評測上,InternLM2表現(xiàn)甚至優(yōu)于ChatGPT。

與此同時,綜合性能的增強,帶來了下游任務(wù)的全方位能力提升。新發(fā)布的InternLM2提供優(yōu)秀的對話及創(chuàng)作體驗,支持多輪任務(wù)規(guī)劃及工具調(diào)用,并提供實用的數(shù)據(jù)分析能力。

對話及創(chuàng)作:更溫情、更富想象力

InternLM2不僅在客觀性能指標(biāo)上提升顯著,在主觀體驗上也有明顯改善,可以為用戶提供優(yōu)秀的對話和交互體驗。

研究測試表明,InternLM2-Chat可以精準(zhǔn)地理解和遵循用戶意圖,具備較強的共情能力和豐富的結(jié)構(gòu)化創(chuàng)作能力。

下面是幾個示例:

示例一:在嚴(yán)格格式要求下編制課程大綱

wKgaomWne-mAG337AAREsUaUmIA061.png

InternLM2設(shè)計的課程大綱精準(zhǔn)遵循用戶要求(比如格式、數(shù)量、內(nèi)容等)

示例二:以富有人文關(guān)懷的回答開解用戶

wKgaomWne-iARq8gAAOpZVBuhxo378.png

InternLM2能夠在對話中與用戶“共情”

示例三:展開想象力,編寫《流浪地球3》的劇本

wKgZomWne-mAIIUyAAdrIFPut2A371.png

InternLM2設(shè)計的具備充滿豐富的合理想象,比如外星遺跡、量子糾纏的引入等。同時整個故事表現(xiàn)了人類面對危機時的勇氣和團結(jié)精神

對話和創(chuàng)造的體驗進步的原因,一方面是基礎(chǔ)語言能力的顯著增強,另一方面也得益于微調(diào)技術(shù)的提升。

InternLM2進行微調(diào)的過程使用了經(jīng)過第三代數(shù)據(jù)清洗過濾技術(shù)處理的指令微調(diào)語料,同時也采用了更強的Online RLHF。

研究人員在微調(diào)InternLM2的過程中,對獎勵模型和對話模型進行了三輪迭代更新,每一輪更新均針對前一輪模型的表現(xiàn)更新偏好數(shù)據(jù)與提示詞。

在獎勵模型訓(xùn)練(RM)和近端策略優(yōu)化(PPO)階段,研究人員均衡采用各類提示詞,不僅提高了對話的安全性,也提升了用戶體驗。

工具調(diào)用:能力升級,更精準(zhǔn)的工具選用,更可靠的多步規(guī)劃

基于更強大、更具泛化性的指令理解、工具篩選與結(jié)果反思等能力,InternLM2可支持復(fù)雜智能體的搭建,支持對工具進行多輪有效調(diào)用及多步驟規(guī)劃,完成復(fù)雜任務(wù)。

聯(lián)合團隊針對多種任務(wù)構(gòu)建了細(xì)粒度工具調(diào)用評測集T-Eval(https://open-compass.github.io/T-Eval),InternLM2-Chat-7B在該評測集上表現(xiàn)超越了Claude-2.1和目前的開源模型,性能接近GPT-3.5。

wKgaomWne-mABQpTAAI-EDiHJ5g700.png

InternLM2工具調(diào)用能力全面提升

通過工具調(diào)用,使得大語言模型可通過搜索、計算、代碼解釋器等獲取知識并處理更復(fù)雜的問題,從而拓展應(yīng)用邊界。研究人員對模型調(diào)用工具流程實施細(xì)粒度的拆解和分析,針對規(guī)劃、推理、工具選擇、理解、執(zhí)行、反思等步驟進行了針對性增強和優(yōu)化。

9319c0b8-b4f3-11ee-8b88-92fbcf53809c.gif

基于InternLM2通過開源智能體框架Lagent搭建的用戶助手智能體,能夠在一次指令回應(yīng)中完成地圖查詢、路線規(guī)劃、發(fā)郵件等任務(wù)

數(shù)理推理:會做題,還會可視化分析

數(shù)學(xué)能力是大模型邏輯思維和推理能力的重要體現(xiàn)。

InternLM2的數(shù)學(xué)能力全面提升,達到當(dāng)前開源模型的標(biāo)桿水平。

基于更加科學(xué)構(gòu)建的預(yù)訓(xùn)練語料,InternLM2形成了很強的內(nèi)生計算能力。

在不依靠計算器等外部工具的情況下,在100以內(nèi)的簡單數(shù)學(xué)運算上能夠做到接近100%的準(zhǔn)確率,在1000以內(nèi)達到80%左右的運算準(zhǔn)確率。在GSM8K和MATH評測中,InternLM2-20B的表現(xiàn)超過了ChatGPT(GPT-3.5)。

wKgZomWne-mAY4SLAABadSiq160159.jpg

InternLM2在100以內(nèi)的簡單數(shù)學(xué)運算上能夠做到接近100%的準(zhǔn)確率

為應(yīng)對各類復(fù)雜計算,InternLM2-Chat還可借助代碼解釋器(Code-Interpreter)編寫代碼進行計算,或?qū)ν评淼慕Y(jié)果進行形式化驗證,從而解決計算要求更高或者演算過程更加復(fù)雜的問題。

在典型的數(shù)學(xué)評測集 GSM8K 和 MATH 上,配合代碼解釋器,InternLM2取得了更高的評測分?jǐn)?shù)。其中對于難度更高的 MATH 數(shù)據(jù)集,InternLM2的計算精度從 32.5 大幅提升到 51.2,甚至超過了 GPT-4 的表現(xiàn)。

wKgZomWne-mAWtYyAAAxpHyXgBQ884.png

下面示例展示了InternLM2可以和代碼解釋器結(jié)合解決較復(fù)雜的高等數(shù)學(xué)問題。

wKgaomWne-mAL_XLAAI-5vcDqXI119.png

InternLM2能夠完成積分求解等高等數(shù)學(xué)題目

基于在計算及工具調(diào)用方面強大的基礎(chǔ)能力,InternLM2在語言模型中具備了數(shù)據(jù)分析和可視化實用能力,進一步貼近用戶使用場景。

936b4384-b4f3-11ee-8b88-92fbcf53809c.gif

向InternLM2輸入國家統(tǒng)計局公布的“2023年3-11月份規(guī)模以上工業(yè)企業(yè)主要財務(wù)指標(biāo)(分行業(yè))”,InternLM2能夠分析數(shù)據(jù)并繪制折線圖

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280015
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10794
  • 商湯科技
    +關(guān)注

    關(guān)注

    8

    文章

    564

    瀏覽量

    36798

原文標(biāo)題:支持200K超長上下文,一次可讀30萬漢字,“書生·浦語”2.0正式開源

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    廣和通發(fā)布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發(fā)布新一代AI語音智能體FiboVista,并已率先應(yīng)用于車聯(lián)網(wǎng),成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創(chuàng)新AI大模型和場景服務(wù)洞察,F(xiàn)iboVista將在智慧家
    的頭像 發(fā)表于 06-17 09:22 ?564次閱讀

    商湯大裝置SenseCore 2.0全新升級

    在2025商湯技術(shù)交流日上,作為最懂大模型的AI基礎(chǔ)設(shè)施,商湯大裝置SenseCore 2.0全新升級,致力于為企業(yè)提供敏捷、靈活、可靠的全棧AI基礎(chǔ)設(shè)施服務(wù),以極致性價比推動大
    的頭像 發(fā)表于 04-14 18:07 ?568次閱讀

    商湯“日日新”融合大模型登頂大語言與多模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評測》結(jié)果顯示:在語言和多模態(tài)核心能力測評中,商湯“日日新”融合大
    的頭像 發(fā)表于 03-18 10:35 ?583次閱讀

    易控智駕推出新一代全場景智能巡檢產(chǎn)品“礦巡2.0

    近日,在無人駕駛礦用車規(guī)模化應(yīng)用成果發(fā)布會上,易控智駕正式發(fā)布新一代全場景智能巡檢產(chǎn)品——“礦巡2.0”,助力礦山實現(xiàn)環(huán)境信息采集、安全隱患排查、設(shè)備狀態(tài)監(jiān)測等功能的自動化,大幅提升巡
    的頭像 發(fā)表于 03-13 11:24 ?561次閱讀

    ??低?b class='flag-5'>發(fā)布新一代事件檢測系列攝像機

    ??低曉诙藗?cè)發(fā)布新一代事件檢測系列攝像機,并在中心端同步部署大模型能力,推出事件檢測終端、事件檢測服務(wù)器。
    的頭像 發(fā)表于 03-05 17:45 ?879次閱讀

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗艦大
    的頭像 發(fā)表于 02-07 15:07 ?717次閱讀

    OpenAI發(fā)布新一代推理模型o3及o3-mini

    近日,OpenAI在為期12天的發(fā)布會上宣布了新一代推理模型o3及其精簡版o3-mini。這兩款模型被專門設(shè)計用于在回答問題之前進行更深入的思考,以期提高答案的準(zhǔn)確性。 據(jù)悉,o3
    的頭像 發(fā)表于 12-24 09:29 ?854次閱讀

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復(fù)雜主題探索與報告撰寫輔助。 Gemini 2.0通過高
    的頭像 發(fā)表于 12-12 10:13 ?646次閱讀

    恩智發(fā)布首個UWB無線BMS解決方案

    汽車市場值得信賴的創(chuàng)新解決方案合作伙伴恩智半導(dǎo)體發(fā)布新一代無線電池管理系統(tǒng)(BMS)解決方案,恩智擁有業(yè)內(nèi)最豐富的UWB產(chǎn)品組合之,方
    的頭像 發(fā)表于 11-26 17:36 ?1761次閱讀

    商湯星云發(fā)布新一代智能服務(wù)器AIS 4.0

    近日,商湯星云發(fā)布新一代面向智慧園區(qū)場景的智能服務(wù)器AIS 4.0。集成領(lǐng)先的多模態(tài)大模型能力,實現(xiàn)軟硬件全面國產(chǎn)化,為各類園區(qū)綜合管理效能提升提供更安全、更智能、更易用的AI新智引擎
    的頭像 發(fā)表于 11-19 10:23 ?573次閱讀

    Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

    近日,Kimi正式推出了其新一代數(shù)學(xué)推理模型k0-math。據(jù)基準(zhǔn)測試顯示,該模型的數(shù)學(xué)能力可與全球領(lǐng)先的OpenAI o1系列中的o1-mini和o1-preview模型相媲美。 在
    的頭像 發(fā)表于 11-18 11:38 ?970次閱讀

    谷歌計劃12月發(fā)布Gemini 2.0模型

    近日,有消息稱谷歌計劃在12月發(fā)布其下一代人工智能模型——Gemini 2.0。這消息引發(fā)了業(yè)界的廣泛關(guān)注,因為谷歌在人工智能領(lǐng)域
    的頭像 發(fā)表于 10-29 11:02 ?1139次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言模型

    ,科大訊飛以其貫的創(chuàng)新精神,開創(chuàng)性地發(fā)布了星火多語言模型。這創(chuàng)新之舉不僅進步鞏固了科大訊
    的頭像 發(fā)表于 10-24 13:58 ?911次閱讀

    聯(lián)發(fā)科新一代天璣旗艦芯片針對谷歌大語言模型Gemini Nano優(yōu)化

    近日,聯(lián)發(fā)科宣布了個重要的技術(shù)進展——新一代天璣旗艦芯片已經(jīng)針對谷歌的大語言模型Gemini Nano進行了深度優(yōu)化。
    的頭像 發(fā)表于 10-09 16:44 ?831次閱讀

    DeepL推出新一代翻譯編輯大型語言模型

    在人工智能與語言處理領(lǐng)域,DeepL再次以其創(chuàng)新實力引領(lǐng)潮流,宣布成功推出新一代面向翻譯與編輯應(yīng)用的大型語言模型。這里程碑式的進展,不僅鞏
    的頭像 發(fā)表于 07-19 15:56 ?1016次閱讀
    主站蜘蛛池模板: 国产精品久久久久久久9999 | 天天干天天碰 | 天天操夜夜做 | 福利午夜在线 | 免费一区二区 | 女人被男人免费播放网站 | 视频在线观看免费网址 | 久久鲁视频 | 午夜三级成人三级 | 免费h视频网站 | 亚洲天堂不卡 | 老师您的兔子好软水好多动漫视频 | 天天干天天天天 | 分分操免费视频在线观看 | 天天操夜夜添 | 国产成人a| 一区二区三区在线观看免费 | 天天做人人爱夜夜爽2020毛片 | 欧美潘金莲一级风流片a级 欧美片欧美日韩国产综合片 | 亚洲午夜精品久久久久久成年 | 一本视频在线 | 羞羞答答91麻豆网站入口 | 精品videosex性欧美 | 日本久本草精品 | 亚洲国产欧美视频 | 亚洲综合在线观看一区www | 色天天综合 | 日本极度另类网站 | 综合爱| www.av网| 免费可以看黄的视频 s色 | 91大神大战丝袜美女在线观看 | 亚洲一区二区三区精品视频 | 成人午夜在线观看国产 | 精品三级国产精品经典三 | 欧美另类xx| 欧美色p| 看草逼 | 亚洲黄色三级视频 | 亚洲精品aaa揭晓 | 香蕉黄色网 |