在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

悟道·天鷹 Aquila + 天秤 FlagEval,打造大模型能力與評測標準雙標桿

硬科技星球 ? 來源:硬科技星球 ? 作者:硬科技星球 ? 2023-06-27 16:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為推動大模型在產業落地和技術創新,智源研究院發布“開源商用許可語言大模型系列+開放評測平臺” 2 大重磅成果,打造“大模型進化流水線”,持續迭代、持續開源開放。

01

悟道·天鷹(Aquila)

開源商用許可語言大模型系列

悟道·天鷹(Aquila) 語言大模型是首個具備中英雙語知識、支持商用許可協議、國內數據合規需求的開源語言大模型。

悟道·天鷹(Aquila)語言大模型在中英文高質量語料基礎上從 0 開始訓練,通過數據質量的控制、多種訓練的優化方法,實現在更小的數據集、更短的訓練時間,獲得比其它開源模型更優的性能。系列模型包括 Aquila基礎模型(7B、33B),AquilaChat對話模型(7B、33B)以及 AquilaCode-7B “文本-代碼”生成模型,

后續將持續更新迭代并開源更新版本。

開源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基礎模型(7B、33B)

在技術上繼承了 GPT-3、LLaMA 等的架構設計優點,替換了一批更高效的底層算子實現、重新設計實現了中英雙語的 tokenizer,升級了 BMTrain 并行訓練方法,實現了比 Magtron+DeepSpeed ZeRO-2

將近8倍的訓練效率

AquilaChat 對話模型(7B、33B)

支持流暢的文本對話及多種語言類生成任務,通過定義可擴展的特殊指令規范,實現 AquilaChat對其它模型和工具的調用,且易于擴展。例如,調用智源開源的 AltDiffusion 多語言文圖生成模型,實現了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型,輕松實現對人臉圖像的多步可控編輯。

AquilaChat 訓練過程中,實現了模型能力與指令微調數據的循環迭代,包括數據集的高效篩選與優化,充分挖掘基礎模型的潛力。

AquilaChat 支持可擴展的特殊指令規范,令用戶可在AquilaChat中輕松實現多任務、工具的嵌入,如文圖生成,下圖示例為在對話中調用智源開源的多語言文圖生成模型 AltDiffusion。

AquilaChat 具備強大的指令分解能力,配合智源InstructFace多步可控文生圖模型,輕松實現對圖片的多步可控編輯。

AquilaCode-7B “文本-代碼”生成模型,

基于 Aquila-7B 強大的基礎模型能力,以小數據集、小參數量,實現高性能,是目前支持中英雙語的、性能最好的開源代碼模型,經過了高質量過濾、使用有合規開源許可的訓練代碼數據進行訓練。

此外,AquilaCode-7B 分別在英偉達和***上完成了代碼模型的訓練,并通過對多種架構的代碼+模型開源,推動芯片創新和百花齊放。

02

天秤(FlagEval)

大模型評測體系及開放平臺

天秤(FlagEval)大模型評測體系及開放平臺,旨在建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能,同時探索利用AI方法實現對主觀評測的輔助,大幅提升評測的效率和客觀性。

目前已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎模型、跨模態基礎模型實現評測。后續將全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象,包括自然語言處理(NLP)、計算機視覺(CV)、語音(Audio)及多模態(Multimodal)等四大評測場景和豐富的下游任務。

首期推出的 FlagEval 大語言模型評測體系,創新構建了“能力-任務-指標”三維評測框架,細粒度刻畫基礎模型的認知能力邊界,可視化呈現評測結果,總計 600+ 評測維度,任務維度包括 22 個主觀&客觀評測數據集。除了知名的公開數據集 HellaSwag、MMLU、C-Eval等,FlagEval 還集成了包括智源自建的主觀評測數據集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大學與閩江學院共建的語義關系判斷、多義詞理解、修辭手法判斷評測數據集。更多維度的評測數據集也在陸續集成中。

FlagEval 評測榜單目前涵蓋了前面談到的22 個主觀和客觀評測集,84433 道題目,細粒度刻畫大模型的認知能力。基于“悟道 · 天鷹”Aquila 基礎模型(7B)打造的 AquilaChat 對話模型,在 FlagEval 大語言模型評測榜單上,目前暫時在“主觀+客觀”的評測上領先其他同參數量級別的開源對話模型。

在我們當前的最新評測結果中,AquilaChat 以大約相當于其他模型 50% 的訓練數據量(SFT 數據+預訓練數據分別統計)達到了最優性能。

但由于當前的英文數據僅訓練了相當于Alpaca的40%,所以在英文的客觀評測上還暫時落后于基于 LLaMA 進行指令微調的Alpaca。隨著后續訓練的進行,我們相信很快可以超越。

悟道·天鷹(Aquila)模型還在迭代進步的過程中,天秤(FlagEval)評測能力也在不斷的擴充中,因而此評測結果只是暫時的,新的評測結果還會不斷更新。此外,FlagEval的評測體系方法及相關研究還需要繼續深入,當前對模型能力的覆蓋程度仍有很大的進步空間,智源也期待與多方合作,共同打造全面、科學的評測方法體系。

天秤(FlagEval)開放評測平臺現已開放申請(flageval.baai.ac.cn),打造自動化評測與自適應評測機制,可輔助模型研發團隊利用評測結果指導模型訓練,同時支持英偉達、昇騰(鵬城云腦)、寒武紀、昆侖芯等多種芯片架構及 PyTorch、MindSpore 等多種深度學習框架。

作為“科技創新2030”旗艦項目重要課題,天秤(FlagEval)正與北京大學、北京航空航天大學、北京師范大學、北京郵電大學、閩江學院、南開大學、中國電子技術標準化研究院、中國科學院自動化研究所等合作單位共建(按首字母排序),定期發布權威評測榜單。

總的來說,智源此次發布的 2 大重磅成果僅僅是一個新的起點:

一方面,悟道 · 天鷹 Aquila 語言大模型將不斷完善訓練數據、優化訓練方法、提升模型性能,在更優秀的基礎模型基座上,培育枝繁葉茂的“模型樹”,持續開源開放。

另一方面,天秤 FlagEval 大模型評測體系及開放平臺將繼續拓展“大模型認知能力”框架,集成豐富的數據集與評測指標,并探索與心理學、教育學、倫理學等社會學科的交叉研究,以期更加科學、全面地評價語言大模型。

「模型 + 評測」雙輪驅動,

加速大模型技術創新與產業落地。歡迎學界、產業界同仁提供建議。

審核編輯黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大模型
    +關注

    關注

    2

    文章

    3075

    瀏覽量

    3952
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    深蘭科技醫療大模型榮獲MedBench評測第一

    近日,國內權威醫療大模型評測平臺MedBench在官網更新了榜單,多個知名醫療AI產品及研究團隊入榜,其中深蘭DeepBlue-MR-v1醫療大模型以復雜醫學推理評測第一的成績領跑Me
    的頭像 發表于 04-30 16:08 ?323次閱讀

    芯盾時代助力打造智慧醫療安全新標桿

    芯盾時代中標?安徽醫科大學第二附屬醫院(以下簡稱“安醫二附院”)!芯盾時代基于零信任安全理念,融合動態身份驗證、智能風險感知與策略執行能力,將為安醫二附院構建動態化、智能化的零信任安全防護體系,助力其打造智慧醫療安全新標桿。?
    的頭像 發表于 04-02 17:18 ?564次閱讀

    云知聲深度參與三項大模型國家標準編寫

    》、20231746-T-469《人工智能 大模型第2部分:評測指標與方法》以及20231741-T-469《人工智能大模型 第3部分:服務能力成熟度評估》正式批準發布。
    的頭像 發表于 03-18 18:19 ?517次閱讀

    生成式人工智能模型的安全可信評測

    受到關注。但當前大模型仍然面臨可信瓶頸,無法開展大規模應用。大模型的安全可信受到高度關注,國內外已經有多項法規與標準快速制定并落地。本文以層次化的結構,構建了生成式人工智能的安全可信評測
    的頭像 發表于 01-22 13:55 ?965次閱讀
    生成式人工智能<b class='flag-5'>模型</b>的安全可信<b class='flag-5'>評測</b>

    首批首家!DataCanvas Alaya NeW智算操作系統通過中國信通院“大模型計算資源調度平臺” 標準評測

    1月8日,“大模型工程化成果發布會”在北京圓滿召開。會上,中國信息通信研究院(簡稱“中國信通院”)正式發布6項AIInfra(人工智能基礎平臺)標準成果,憑借領先的應用效能和靈活的擴展能力,九章云極
    的頭像 發表于 01-10 11:24 ?491次閱讀
    首批首家!DataCanvas Alaya NeW智算操作系統通過中國信通院“大<b class='flag-5'>模型</b>計算資源調度平臺” <b class='flag-5'>標準</b><b class='flag-5'>評測</b>

    騰訊混元文生圖登頂智源FlagEval評測榜首

    近日,北京智源人工智能研究院(BAAI)發布了最新的FlagEval模型評測排行榜,其中多模態模型評測榜單的文生圖
    的頭像 發表于 12-25 10:06 ?794次閱讀

    商湯日日新多模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova多模態大模型,在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?951次閱讀

    國家管網集團與華為聯合打造“管網”大模型

    近日,國家管網集團 “管網”大模型正式上線應用。“管網”大模型基于華為算力底座和技術棧,打造“管網制度流程+數據+IT+大模型”體系,構建具有管網特色的大
    的頭像 發表于 12-04 11:07 ?835次閱讀

    名單公布!【書籍評測活動NO.52】基于大模型的RAG應用開發與優化

    與編造、錯誤的復雜推理或者在復雜語境下處理能力不足等。其主要原因來自于: (1)訓練知識存在偏差:老師教錯了,學生自然對不了。 在訓練大模型時輸入的海量知識可能包含錯誤、過時,甚至帶有偏見的信息。這些
    發表于 12-04 10:50

    名單公布!【書籍評測活動NO.49】大模型啟示錄:一本AI應用百科全書

    CRM流程、使用Copilot等提高員工效率。 但更多的行業雖然有充分的落地積極性,卻很難看清我們現在擁抱的“大模型”在企業工作流程中應該長成啥樣。在行業早期,因為缺乏標準化產品,最先落地的也往往是
    發表于 10-28 15:34

    通用大模型評測標準正式發布

    近日,在2024中國移動全球合作伙伴大會上,一項關于大模型評測體系建設的新成果——《通用大模型評測標準》正式發布。這一
    的頭像 發表于 10-14 15:52 ?980次閱讀

    云知聲山海大模型多項能力全球領跑

    國內人工智能權威機構清華大學基礎模型研究中心發布SuperBench九月綜合榜單。本次評測選取海內外24個具有代表性的大模型,結果顯示,山海大模型對齊、智能體、安全等多項
    的頭像 發表于 10-12 14:30 ?789次閱讀
    云知聲山海大<b class='flag-5'>模型</b>多項<b class='flag-5'>能力</b>全球領跑

    云知聲山海大模型醫療專業能力全球第一

    ,各項指標全面超越GPT-4,充分展現出山海大模型在擁有業內一流的通用能力之外,更具備打造世界領先的行業大模型能力
    的頭像 發表于 09-19 15:47 ?713次閱讀

    名單公布!【書籍評測活動NO.41】大模型時代的基礎架構:大模型算力中心建設指南

    工作日內未聯系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入
    發表于 08-16 18:33

    商湯科技加入中國移動人工智能大模型評測聯盟

    WAIC 2024期間,中國移動發起成立人工智能大模型評測聯盟(弈衡),商湯科技作為初創成員受邀加入聯盟。 人工智能實現突破發展,“AI+”評測正成為關鍵一環。人工智能大模型
    的頭像 發表于 07-12 14:20 ?908次閱讀
    主站蜘蛛池模板: 午夜 福利 | 五月婷婷六月爱 | 色的视频网站 | 日本xxxxx黄区免费看动漫 | 欧美成人全部费免网站 | 亚洲视频第一页 | 亚洲视频天天射 | 中文字幕一区二区三区5566 | 五月婷婷久 | 精品国产免费久久久久久婷婷 | 免费爱爱网 | 免费高清特黄a 大片 | 亚洲精品福利视频 | 国产一区二区三区不卡观 | 加勒比一区二区三区 | 痴女中文字幕在线视频 | 狠狠色噜噜噜噜狠狠狠狠狠狠奇米 | 欲香欲色天天综合和网 | 免费视频精品 | 91网站网站网站在线 | 欧美草比 | 韩国电影天堂网 | 深爱开心激情 | 天天操天天干天天操 | 欧美黄色录像 | 妇乱子伦激情 | 天堂视频在线观看 | 成人精品人成网站 | 人人福利 | 亚洲一区二区三区中文字幕5566 | 人与牲动交xxxbbb | 国产精品一区二区综合 | 国产美女流出白浆在线观看 | 色视频网站色视频播放 | 欧美午夜精品久久久久久黑人 | 国模吧| 国产精品任我爽爆在线播放6080 | 成人午夜影院在线观看 | 一级片 在线播放 | 午夜性爽爽爽 | 米奇影院777 |