在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

WebCPM:首個聯(lián)網(wǎng)支持中文問答開源模型

深度學(xué)習(xí)自然語言處理 ? 來源:PaperWeekly ? 2023-05-18 14:37 ? 次閱讀

2021年12月 WebGPT 的橫空出世標志了基于網(wǎng)頁搜索的問答新范式的誕生,在此之后,New Bing 首先將網(wǎng)頁搜索功能整合發(fā)布,隨后 OpenAI 也發(fā)布了支持聯(lián)網(wǎng)的插件 ChatGPT Plugins。大模型在聯(lián)網(wǎng)功能的加持下,回答問題的實時性和準確性都得到了飛躍式增強。

近期,面壁智能聯(lián)合來自清華、人大、騰訊的研究人員共同發(fā)布了中文領(lǐng)域首個基于交互式網(wǎng)頁搜索的問答開源模型框架 WebCPM,相關(guān)工作錄用于自然語言處理頂級會議 ACL 2023。

WebCPM 是面壁智能自研大模型工具學(xué)習(xí)引擎 BMTools的首個成功實踐,其特點在于其信息檢索基于交互式網(wǎng)頁搜索,能夠像人類一樣與搜索引擎交互從而收集回答問題所需要的事實性知識并生成答案。WebCPM 背后的基礎(chǔ)模型 CPM 是由面壁智能與 OpenBMB 開源社區(qū)開發(fā)的百億參數(shù)中文語言模型,占據(jù)多個中文領(lǐng)域語言模型排行榜前列。

2be549b2-f545-11ed-90ce-dac502259ad0.jpg

WebCPM 論文鏈接:https://arxiv.org/abs/2305.06849

WebCPM 數(shù)據(jù)與代碼鏈接:

https://github.com/thunlp/WebCPM

WebCPM研究背景

在當今信息化時代,人們在日常生活和工作中,需要不斷地獲取各種知識和信息,而這些信息往往分散在互聯(lián)網(wǎng)上的海量數(shù)據(jù)中。如何快速、準確地獲取這些信息,并且對這些信息進行合理的整合,從而回答復(fù)雜、開放式問題,是一個極具挑戰(zhàn)性的問題。長文本開放問答(Long-form Question Answering, LFQA)模型就是為了回答這種復(fù)雜的問題而設(shè)計的。

目前的 LFQA 解決方案通常采用檢索-綜合范式,包括信息檢索和信息綜合兩個核心環(huán)節(jié)。信息檢索環(huán)節(jié)從外部知識源(如搜索引擎)中搜索多樣化的相關(guān)支持事實,信息綜合環(huán)節(jié)則將搜集到的事實整合成一個連貫的答案。

然而,傳統(tǒng)的 LFQA 范式存在一個缺陷:它通常依賴于非交互式的檢索方法,即僅使用原始問題作為查詢語句來檢索信息。相反,人類能夠通過與搜索引擎實時交互來進行網(wǎng)頁搜索而篩選高質(zhì)量信息。

對于復(fù)雜問題,人類往往將其分解成多個子問題并依次提問。通過識別和瀏覽相關(guān)信息,人類逐漸完善對原問題的理解,并不斷查詢新問題來搜索更多樣的信息。這種迭代的搜索過程有助于擴大搜索范圍,提高搜索結(jié)果質(zhì)量??傮w而言,交互式網(wǎng)頁搜索不僅為我們提供了獲取多樣化信息來源的途徑,同時也反映了人類解決問題的認知過程,從而提高了可解釋性。

2021年12月 OpenAI 發(fā)布 WebGPT,這是支持 LFQA 的交互式網(wǎng)頁搜索的一項先驅(qū)性工作。作者首先構(gòu)建了一個由微軟必應(yīng)搜索(Bing)支持的網(wǎng)頁搜索界面,然后招募標注員使用該界面收集信息來回答問題。之后,他們微調(diào) GPT-3 模型,讓其模仿人類的搜索行為,并將收集到的信息整理成答案。實驗結(jié)果顯示,WebGPT 在 LFQA 任務(wù)具備出色的能力,甚至超過了人類專家。而 WebGPT 也正是微軟近期推出的 New Bing 背后的新一代搜索技術(shù)。

盡管效果十分驚人,但 WebGPT 、New Bing 對學(xué)術(shù)圈和工業(yè)界來說仍然充滿神秘感。這是因為 WebGPT 的相關(guān)細節(jié)并未完全公開,其核心設(shè)計元素的工作原理也不透明。鑒于當前交互式網(wǎng)頁搜索的重要價值,我們迫切需要一個標準數(shù)據(jù)集與相關(guān)的開源模型以支持后續(xù)研究。

WebCPM搜索交互界面和數(shù)據(jù)集

2cac8d60-f545-11ed-90ce-dac502259ad0.png

▲ WebCPM搜索交互界面

為推動相關(guān)領(lǐng)域發(fā)展,這篇 ACL 論文的研究團隊首先構(gòu)建了一個開源的交互式網(wǎng)頁搜索界面,用于記錄人類為開放式問題收集相關(guān)信息時的網(wǎng)頁搜索行為。該界面底層調(diào)用必應(yīng)搜索 API 支持網(wǎng)頁搜索功能,囊括 10種主流網(wǎng)頁搜索操作(如點擊頁面、返回等等)。

在這個界面中,用戶可以執(zhí)行預(yù)定義的操作來進行多輪搜索和瀏覽。在找到網(wǎng)頁上的相關(guān)信息時,他們可以將其作為支持事實記錄下來。當收集到足夠的信息后,用戶可以完成網(wǎng)頁搜索,并根據(jù)收集到的事實來回答問題。同時,界面會自動記錄用戶的網(wǎng)頁瀏覽行為,用于構(gòu)建 WebCPM 數(shù)據(jù)集。

2cdf5010-f545-11ed-90ce-dac502259ad0.png

▲ WebCPM數(shù)據(jù)集與相關(guān)問答數(shù)據(jù)集的比較

基于這個界面,作者構(gòu)建了中文領(lǐng)域首個基于交互式網(wǎng)頁搜索的 LFQA 數(shù)據(jù)集。它包含 5,500對高質(zhì)量的問題-答案對以及十萬多條真實用戶網(wǎng)頁搜索行為。與現(xiàn)有的中文問答數(shù)據(jù)集相比,WebCPM 的問題、支持事實和答案都更長,體現(xiàn)了其問題的復(fù)雜性和答案內(nèi)容的豐富性。

WebCPM模型框架

作者提出了的 WebCPM 框架包括:(1)搜索模型與(2)答案綜合模型。

30789ed4-f545-11ed-90ce-dac502259ad0.png

▲ WebCPM模型框架

搜索模型:

該模型模仿人類網(wǎng)頁搜索行為、與搜索引擎交互并進行信息檢索。作者將網(wǎng)頁搜索任務(wù)劃分為 3 個子任務(wù):搜索行為預(yù)測(action prediction)、查詢語句生成(search query generation)和支持事實摘要(supporting fact extraction)。搜索行為預(yù)測模塊在每一步?jīng)Q定執(zhí)行哪個具體的搜索行為。該模塊可以調(diào)用其它兩個模塊來生成下一步查詢語句或摘錄重要信息。每個子任務(wù)都基于生成式中文大模型來訓(xùn)練。

通過組合 3 個訓(xùn)練得到的模塊,該模型能夠在搜索引擎界面上執(zhí)行一系列操作以收集與問題相關(guān)的信息。每個模塊在當前界面狀態(tài) 的條件下執(zhí)行推理。 包括原始問題 、當前搜索的查詢語句 、歷史操作序列,上一個窗口和當前窗口中顯示的內(nèi)容 和 、當前已經(jīng)摘錄的支持事實。

答案綜合模型

該模型根據(jù)原問題與收集到的事實生成連貫的答案。然而與人類不同,經(jīng)過訓(xùn)練的搜索模型偶爾會收集到不相關(guān)的噪聲,這將影響生成答案的質(zhì)量。為了解決這一問題,作者在答案綜合模型的訓(xùn)練數(shù)據(jù)中引入噪聲,使其具備一定的去噪的能力,從而忽略不相關(guān)的事實,只關(guān)注重要的事實以生成答案。

WebCPM實驗評測

作者首先對每個子模塊分別評估,然后,將所有模塊組合起來形成整體的 pipeline,并測試其效果。最后,作者對每個模塊的性能進行深入分析。

30b84016-f545-11ed-90ce-dac502259ad0.png

單個子任務(wù)的性能評估結(jié)果,作者測試了包括 CPM 模型在內(nèi)的多個有代表性的中文大模型。

3.1 單個子任務(wù)評估

作者測試了多個有代表性的中文大模型,并得出以下結(jié)論(結(jié)果如上圖所示):不同模型在四個子任務(wù)上的性能各有優(yōu)劣。例如在搜索行為預(yù)測、查詢語句生成和支持事實摘要中,mT0 的表現(xiàn)優(yōu)于 mT5,但在綜合信息方面表現(xiàn)較差。此外,CPM 系列模型的性能隨著模型參數(shù)量的增加也不斷提高。得益于 scaling law ,更大的模型通常擁有更強的理解和生成能力,能表現(xiàn)出更好的下游任務(wù)性能。

3.2 整體pipeline評測

對于每個測試問題,作者比較了模型(CPM 10B 模型)和人類用戶使用搜索引擎回答問題和做相同任務(wù)的表現(xiàn),并進行人工評測。具體而言,給定一個問題和模型與人類分別給出的答案,標注員將根據(jù)多個因素(包括答案整體實用性、連貫性和與問題的相關(guān)性)決定哪個答案更好。

從下圖(a)的結(jié)果可以得出以下結(jié)論:模型生成的答案在30%+的情況下與人寫的答案相當或更優(yōu)。這個結(jié)果表明整個問答系統(tǒng)的性能在未來仍有巨大的提升空間(例如訓(xùn)練性能更加強大的基底模型);當將人工收集的事實應(yīng)用于信息綜合模型時,性能提高到了45%,這可以歸因于收集的事實質(zhì)量的提高。

30de9464-f545-11ed-90ce-dac502259ad0.png

▲ 整體pipeline評測效果,作者測試了WebCPM數(shù)據(jù)集和DuReader數(shù)據(jù)集

此外,作者也將整體 pipeline 應(yīng)用于 DuReader 中文 QA 數(shù)據(jù)集(包含 Zhidao 和 Search 兩個子數(shù)據(jù)集),并比較了模型生成的答案和人工標注的答案,從上圖(b)可以觀察到模型生成的答案比 DuReader 標注答案更好的情況接近50%,這反映了該模型強大的泛化能力,體現(xiàn)了WebCPM 數(shù)據(jù)標注的高質(zhì)量。

WebCPM案例分析

為了探究查詢模塊所學(xué)習(xí)到的人類行為,作者抽樣不同測試問題生成的查詢語句來進行案例分析。下圖展示了部分結(jié)果,以研究查詢模塊的性能??梢钥闯觯撃K已經(jīng)學(xué)會了復(fù)制原始問題,將問題分解為多個子問題,用相關(guān)術(shù)語改寫問題等多種人類搜索策略。這些策略使查詢語句更加多樣化,有助于從更多的來源收集更豐富的信息。

31354bf6-f545-11ed-90ce-dac502259ad0.png

WebCPM成功實踐BMTools

318388e8-f545-11ed-90ce-dac502259ad0.png

近年來,大模型在諸多領(lǐng)域展現(xiàn)出驚人的應(yīng)用價值,持續(xù)刷新各類下游任務(wù)的效果上限。盡管大模型在很多方面取得了顯著的成果,但在特定領(lǐng)域的任務(wù)上,仍然存在一定的局限性。這些任務(wù)往往需要專業(yè)化的工具或領(lǐng)域知識才能有效解決。因此,大模型需要具備調(diào)用各種專業(yè)化工具的能力,這樣才能為現(xiàn)實世界任務(wù)提供更為全面的支持。

最近,新的范式大模型工具學(xué)習(xí)(Tool Learning)應(yīng)運而生。這一范式的核心在于將專業(yè)工具與基礎(chǔ)模型的優(yōu)勢相融合,以在問題解決方面達到更高的準確性、效率和自主性,工具學(xué)習(xí)極大地釋放了大模型的潛力。

31da29a0-f545-11ed-90ce-dac502259ad0.png

在應(yīng)用方面,ChatGPT Plugins 的出現(xiàn)補充了 ChatGPT 最后的短板,使其可以支持連網(wǎng)、解決數(shù)學(xué)計算,被稱為 OpenAI 的 “App Store” 時刻。然而直到現(xiàn)在,它僅支持部分 OpenAI Plus 用戶,大多數(shù)開發(fā)者仍然無法使用。為此,面壁智能前段時間也推出了工具學(xué)習(xí)引擎 BMTools,一個基于語言模型的開源可擴展工具學(xué)習(xí)平臺,它將是面壁智能在大模型體系布局中的又一重要模塊。

研發(fā)團隊將各種各樣的工具(例如文生圖模型、搜索引擎、股票查詢等)調(diào)用流程都統(tǒng)一到一個框架上,使整個工具調(diào)用流程標準化、自動化。開發(fā)者可以通過 BMTools,使用給定的模型(ChatGPT、GPT-4)調(diào)用多種多樣的工具接口,實現(xiàn)特定功能。此外,BMTools 工具包也已集成最近爆火的 Auto-GPT 與 BabyAGI。

BMTools 工具包:https://github.com/OpenBMB/BMTools

工具學(xué)習(xí)綜述鏈接:

https://arxiv.org/abs/2304.08354

工具學(xué)習(xí)論文列表:

https://github.com/thunlp/ToolLearningPapers

WebCPM 是 BMTools 的一次成功實踐,相信在不斷發(fā)展和完善大模型工具學(xué)習(xí)技術(shù)的過程中,面壁智能將讓大模型落地賦能更多產(chǎn)業(yè)。期待大模型在更多領(lǐng)域展現(xiàn)出令人驚喜的應(yīng)用價值。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6673

    瀏覽量

    105372
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3487

    瀏覽量

    49997
  • 信息檢索
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7635

原文標題:清華ACL2023 | WebCPM:首個聯(lián)網(wǎng)支持中文問答開源模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    聯(lián)網(wǎng)工程師為什么要學(xué)Linux?

    ,而Linux作為開源、高度可定制的操作系統(tǒng),能適配從低功耗傳感器到高性能網(wǎng)關(guān)的各類硬件平臺。 例如,智能家居設(shè)備、工業(yè)控制器等均依賴Linux的模塊化設(shè)計實現(xiàn)功能擴展。 2)通信協(xié)議與開源支持
    發(fā)表于 05-26 10:32

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    開源新一代通義千問模型Qwen3。據(jù)悉,Qwen3模型參數(shù)量僅為DeepSeek - R1的1/3,能夠大幅降低成本,而且性能全面超越R1、OpenAI - o1等全球頂尖模型,登頂全
    的頭像 發(fā)表于 04-30 16:08 ?663次閱讀

    NVIDIA發(fā)布全球首個開源人形機器人基礎(chǔ)模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技術(shù),助力人形機器人開發(fā)。其中包括全球首個開源且完全可定制的基礎(chǔ)模型NVIDIA Isaac GR00T N1,該模型可賦能通用人形機器人實現(xiàn)推理及各項
    的頭像 發(fā)表于 03-20 14:34 ?592次閱讀

    英偉達GROOT N1 全球首個開源人形機器人基礎(chǔ)模型

    英偉達GROOT N1 全球首個開源人形機器人基礎(chǔ)大模型
    的頭像 發(fā)表于 03-20 11:05 ?996次閱讀

    NVIDIA 發(fā)布全球首個開源人形機器人基礎(chǔ)模型 Isaac GR00T N1——并推出加速機器人開發(fā)的仿真框架

    18 日 ——NVIDIA 今日宣布推出一系列全新技術(shù),助力人形機器人開發(fā)。其中包括全球首個開源且完全可定制的基礎(chǔ)模型 NVIDIA Isaac GR00T N1,該模型可賦能通用人
    發(fā)表于 03-19 09:30 ?380次閱讀
    NVIDIA 發(fā)布全球<b class='flag-5'>首個</b><b class='flag-5'>開源</b>人形機器人基礎(chǔ)<b class='flag-5'>模型</b> Isaac GR00T N1——并推出加速機器人開發(fā)的仿真框架

    摩爾線程支持阿里云通義千問QwQ-32B開源模型

    近日,阿里云團隊正式開源全新推理模型——通義千問QwQ-32B。摩爾線程在該模型發(fā)布后2小時內(nèi),迅速且高效完成了對千問QwQ-32B的支持
    的頭像 發(fā)表于 03-07 17:48 ?591次閱讀
    摩爾線程<b class='flag-5'>支持</b>阿里云通義千問QwQ-32B<b class='flag-5'>開源</b><b class='flag-5'>模型</b>

    AI開源模型庫有什么用

    AI開源模型庫作為推動AI技術(shù)發(fā)展的重要力量,正深刻改變著我們的生產(chǎn)生活方式。接下來,AI部落小編帶您了解AI開源模型庫有什么用。
    的頭像 發(fā)表于 02-24 11:50 ?319次閱讀

    開源模型DeepSeek的開放內(nèi)容詳析

    當大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關(guān)鍵詞之一,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型開源
    的頭像 發(fā)表于 02-19 09:48 ?1238次閱讀
    <b class='flag-5'>開源</b>大<b class='flag-5'>模型</b>DeepSeek的開放內(nèi)容詳析

    基于華為云 Flexus 云服務(wù)器 X 搭建部署——AI 知識庫問答系統(tǒng)(使用 1panel 面板安裝)

    Flexus 云服務(wù)器 X 攜手開源力量,為您打造全方位、高性能的知識庫問答系統(tǒng)!無論您是構(gòu)建企業(yè)內(nèi)部的知識寶庫,還是優(yōu)化客戶服務(wù)體驗,亦或深耕學(xué)術(shù)研究與教育領(lǐng)域,這一創(chuàng)新解決方案都是您不可多得的智慧伙伴! ???基于大語言模型
    的頭像 發(fā)表于 01-17 09:45 ?1590次閱讀
    基于華為云 Flexus 云服務(wù)器 X 搭建部署——AI 知識庫<b class='flag-5'>問答</b>系統(tǒng)(使用 1panel 面板安裝)

    開源AI模型庫是干嘛的

    開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經(jīng)過訓(xùn)練,能夠執(zhí)行特定的任務(wù)。以下,是對
    的頭像 發(fā)表于 12-14 10:33 ?701次閱讀

    阿里云開源推理大模型QwQ

    推理能力,尤其在數(shù)學(xué)和編程方面表現(xiàn)突出。其整體推理水平已經(jīng)可以與OpenAI的o1模型相媲美,這充分展示了QwQ的強大實力和潛力。 QwQ(Qwen with Questions)是通義千問Qwen大模型系列中的最新實驗性研究模型
    的頭像 發(fā)表于 11-29 11:30 ?1024次閱讀

    科技云報到:假開源真噱頭?開源模型和你想的不一樣!

    查看、修改、分發(fā)。開源自此深刻影響了互聯(lián)網(wǎng)行業(yè)的每一個角落。 在大模型和GenAI崛起的當下,開源再次成為業(yè)界關(guān)注焦點,對于開源和閉源的爭論
    的頭像 發(fā)表于 11-03 10:46 ?524次閱讀

    全球首個開源AI標準正式發(fā)布

    近日,在備受矚目的2024年ALL THINGS OPEN大會上,開源組織Open Source Initiative(OSI)宣布了一項重大突破——正式發(fā)布了開源人工智能定義(OSAID)1.0版本。這一里程碑式的成就標志著全球首個
    的頭像 發(fā)表于 10-31 10:59 ?569次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大語言模型涉及以下幾個過程: 數(shù)據(jù)收集:大語言模型通過從互
    發(fā)表于 08-02 11:03

    全球首個芯片設(shè)計開源模型SemiKong正式發(fā)布

    在科技日新月異的今天,全球首個芯片設(shè)計開源模型SemiKong的正式發(fā)布,無疑為半導(dǎo)體行業(yè)投下了一枚震撼彈,預(yù)示著一場深刻的行業(yè)變革即將拉開序幕。這款由Aitomatic與FPT Software
    的頭像 發(fā)表于 07-14 10:01 ?1286次閱讀
    主站蜘蛛池模板: 四虎黄色| 人人插人人费 | 亚洲香蕉电影 | 国产亚洲精品久久久久久午夜 | 老湿司午夜爽爽影院榴莲视频 | 成成人看片在线 | 妖精视频永久在线入口 | 欧美二区三区 | 色婷婷激婷婷深爱五月老司机 | 天天射天天色天天干 | 202z欧美成人| 欧美xxxxxbbbb| 国产女人水多白浆 | 日本在线黄色网址 | 天天干天天射天天 | 免费看的黄网站 | 国产美女视频一区二区二三区 | 天天爽天天爽天天片a久久网 | 国产或人精品日本亚洲77美色 | 色老头影院 | 国产激情在线观看 | 思思99re66在线精品免费观看 | 夜夜艹天天干 | 午夜色视频在线观看 | 日本a级三级三级三级久久 日本a级影院 | 久视频在线观看久视频 | 免费人成在线观看视频色 | 日本三级成人中文字幕乱码 | 在线亚洲免费 | 亚洲高清毛片 | 国产色婷婷免费视频 | 日本黄视频在线观看 | 夜干夜夜 | 黄色理伦 | 伊人涩| 国产高清免费在线 | 免费的色网站 | 欧美一区二区三区在线观看免费 | 嗯好舒服好爽好快好大 | 四虎永久在线精品影院 | 成人精品一区二区三区电影 |