在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

可商用多語言聊天LLM開源,性能直逼GPT-4

OSC開源社區 ? 來源:OSC開源社區 ? 2023-05-25 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

SambaNova 與 Together 兩家公司合作開源了可商用的 BLOOMChat,一個 1760 億參數的多語言聊天大語言模型 (LLM)。由 BLOOM (176B) 在助理式的對話數據集上進行指導調整,并支持多種語言的對話、問題回答和生成性答案。

根據介紹,BLOOMChat 是一個新的、開放的、多語言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 獨特的可重構數據流架構在 SambaNova DataScale 系統上訓練了 BLOOMChat;其建立在 BigScience 組織的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上進行了微調。目前,BLOOM 已經是最大的多語言開放模型,在 46 種語言上進行了訓練。

在針對英語、中文、法語、阿拉伯語、西班牙語、印度語這 6 種語言的評測中,GPT-4 的勝率為 54.75%,BLOOMChat 的勝率為 45.25%,稍弱于 GPT-4。但與其它 4 種主流的開源聊天 LLM 相比,BLOOMChat 在 65.92% 的時間內表現更優。且在使用 BLOOMChat 進行跨語言 NLP 任務的初步研究中,BLOOMChat 在 WMT 翻譯基準中的表現要優于其他 BLOOM 變體和主流開源聊天模型。

“我們確實想指出,與我們比較的這些模型中,有些并不適合多語言環境。但由于開源社區中沒有替代品,所以才有了現在的比較。我們的研究結果表明,使用正確的技術,可以在開源 LLM 之上構建以實現強大的多語言聊天功能。我們希望我們的研究結果和 BLOOMChat checkpoint 的發布能夠為開源社區的持續討論做出貢獻,并激發 LLM 領域的進一步發展。”

項目團隊使用定性和定量措施來評估了 BLOOMChat 的多語言聊天能力以及跨語言任務能力。共做了 3 種不同場景的實驗測評,評測了英語、中文、阿拉伯語、法語、西班牙語和印度語。

實驗一:人類偏好排序

旨在將 BLOOMChat 模型在多種語言中的聊天能力與現有的開源模型以及選定的封閉源模型進行比較。使用了 “OpenAssistant Conversations”附錄 E 中的 22 個英文問題作為基準。首先讓一些人類志愿者將這 22 個英文問題手動翻譯成他們各自的母語;然后讓另一組不同的志愿者,在匿名的前提下評價每個模型所給出的回答。

將 BLOOMChat 與 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三種開源模型進行了比較:

586afb58-fa9a-11ed-90ce-dac502259ad0.png

51 名志愿者在所有模型和 6 種語言中共提交了 1158 次比較。如上圖所示,BLOOMChat (65.92%) 明顯優于其它幾個開源模型。

與GPT-4 相比:

587f9e14-fa9a-11ed-90ce-dac502259ad0.png

實驗二:模型質量評估

此實驗旨在驗證 BLOOMChat 生成的多種語言文本的質量。

5894d23e-fa9a-11ed-90ce-dac502259ad0.png

81.8% 的回答被歸類為 “正確” 或 “可接受但有輕微缺陷”。盡管只在英語數據集上進行了微調,但 BLOOMChat 在每種語言中都獲得了超過 70% 的 “正確” 或 “可接受” 評級。

實驗三:WMT 翻譯任務

為了初步了解模型解決跨語言 NLP 任務的能力,評估了模型在 WMT 翻譯任務上的翻譯能力。

58b8ddbe-fa9a-11ed-90ce-dac502259ad0.png

總體而言,BLOOMChat 在翻譯任務中的表現明顯優于其他 BLOOM 變體和開源聊天模型,但和 GPT-4 還有一定差距。

此外,BLOOMChat 團隊也坦承了一些該模型的局限性:

BLOOMChat 有時可能會生成聽起來合理但事實不正確或與主題無關的回復信息。

BLOOMChat 可能在單個回復中無意間切換語言,影響輸出的連貫性和可理解性。

BLOOMChat 可能會產生重復的短語或句子,導致回復內容缺乏吸引力和有效信息。

BLOOMChat 在生成代碼或解決復雜數學問題方面的性能可能會受到限制。

BLOOMChat 可能無意中生成含有不適當或有害內容的回復。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3659

    瀏覽量

    43734
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10758
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25389
  • LLM
    LLM
    +關注

    關注

    1

    文章

    325

    瀏覽量

    805

原文標題:可商用多語言聊天LLM開源,性能直逼GPT-4

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5即將面市 性能遠超GPT-4

    行業芯事
    電子發燒友網官方
    發布于 :2025年06月04日 13:38:23

    微軟Copilot Voice升級,積極拓展多語言支持

    近日,據報道,微軟近期在人工智能領域取得了新的進展,正積極拓展其Copilot Voice的多語言支持功能。這一舉措標志著微軟在語音識別和自然語言處理技術上又邁出了重要一步。 此次Copilot
    的頭像 發表于 02-06 14:10 ?418次閱讀

    在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在與 NVIDIA Tensor
    的頭像 發表于 12-25 17:31 ?710次閱讀
    在NVIDIA TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?797次閱讀

    什么是LLMLLM在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理(NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現,標志著我們對語言理解能力的一次飛躍。L
    的頭像 發表于 11-19 15:32 ?3591次閱讀

    LLM技術的未來趨勢分析

    。 技術進步 1. 模型規模的增長 隨著計算能力的提升和數據集的擴大,LLM的規模也在不斷增長。更大的模型能夠捕捉更復雜的語言模式,提高任務的性能。例如,GPT-3模型擁有1750億個
    的頭像 發表于 11-08 09:35 ?1090次閱讀

    Llama 3 與 GPT-4 比較

    沿。 一、技術架構 Llama 3和GPT-4都是基于深度學習的自然語言處理(NLP)模型,但它們的設計理念和技術細節有所不同。 Llama 3 采用了一種創新的混合架構,結合了傳統的Transformer模型和最新的神經網絡技術。這種架構使得Llama 3在處理復雜的
    的頭像 發表于 10-27 14:17 ?1120次閱讀

    ChatGPT 的多語言支持特點

    )技術迎來了巨大的挑戰和機遇。ChatGPT,作為一個領先的語言模型,其多語言支持的特點成為了它在眾多應用場景中不可或缺的優勢。 1. 多語言理解能力 ChatGPT 的多語言支持首先
    的頭像 發表于 10-25 17:30 ?1491次閱讀

    科大訊飛發布訊飛星火4.0 Turbo大模型及星火多語言大模型

    ,科大訊飛以其一貫的創新精神,開創性地發布了星火多語言大模型。這一創新之舉不僅進一步鞏固了科大訊飛在中文和英文處理領域的領先地位,更將語言的支持范圍大幅擴展,涵蓋了俄語、日語、阿拉伯語、韓語、法語、西班牙語、葡萄牙語以及
    的頭像 發表于 10-24 13:58 ?872次閱讀

    科大訊飛發布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過GPT-4 Turbo,數學能力和代碼能力更是超過了Open AI最新一代GPT模型GPT-4o。此外,其效率相對提升50%。
    的頭像 發表于 10-24 11:39 ?1030次閱讀

    端到端InfiniBand網絡解決LLM訓練瓶頸

    ChatGPT對技術的影響引發了對人工智能未來的預測,尤其是多模態技術的關注。OpenAI推出了具有突破性的多模態模型GPT-4,使各個領域取得了顯著的發展。 這些AI進步是通過大規模模型訓練實現
    的頭像 發表于 10-23 11:26 ?1449次閱讀
    端到端InfiniBand網絡解決<b class='flag-5'>LLM</b>訓練瓶頸

    Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

    Mistral AI 和 NVIDIA 于近日共同發布了一款全新的領先語言模型Mistral NeMo 12B。開發者可以輕松定制和部署該模型,令其適用于支持聊天機器人、多語言任務、編碼和摘要的企業應用。
    的頭像 發表于 07-27 11:04 ?1122次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該模型在MMLU上得分為82%, 在LMSYS排行榜上的聊天偏好測試中表現優于
    的頭像 發表于 07-21 10:20 ?1653次閱讀
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 <b class='flag-5'>性能</b>超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是一些常見的
    的頭像 發表于 07-09 09:59 ?1363次閱讀

    llm模型和chatGPT的區別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer)模型的聊天機器人。
    的頭像 發表于 07-09 09:55 ?1958次閱讀
    主站蜘蛛池模板: 色先锋av资源中文字幕 | 中文字幕精品一区二区2021年 | www.九色.com| 222aaa免费| 日本黄色视 | 午夜剧场官网 | 四虎精品影院4hutv四虎 | 亚洲青草视频 | 一区二区精品 | 亚洲成年人影院 | 国产h在线播放 | 天天干影院 | 欧美综合国产精品日韩一 | 天天干夜夜做 | 在线观看深夜观看网站免费 | 直接黄91麻豆网站 | 久久精品人人爽人人爽 | 亚洲黄色小说网站 | 色视频网| 四虎4444hu4影视最新地址 | 中文天堂在线视频 | 奇米7777影视 | 久久影视免费观看网址 | 欧美黑人性xxx猛交 欧美黑人性受xxxx精品 | 欧美成人一区亚洲一区 | 四虎影院最新网址 | 国产永久视频夜色资源网 | 日韩亚射吧 | 日本成人一级片 | 欧美国产一区二区二区 | 亚洲 欧美 另类 综合 日韩 | 婷婷午夜影院 | 日韩精品免费一区二区三区 | 国产免费一区二区三区 | 国产秦先生大战白丝97在线 | 亚洲一二三区在线观看 | 欲香欲色天天综合和网 | 国内视频一区二区三区 | 天天做天天爽 | 美国一级大黄香蕉片 | 亚洲卡一卡2卡三卡4卡国色 |