在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基準數據集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-06-20 15:39 ? 次閱讀

因果推理是人類智力的標志之一。因果關系NLP領域近年來引起了人們的極大興趣,但其主要依賴于從常識知識中發現因果關系。本研究提出了一個基準數據集(CORR2CAUSE)來測試大語言模型(LLM)的純因果推理能力。其中CORR2CAUSE對LLM來說是一項具有挑戰性的任務,有助于指導未來關于提高LLM純粹推理能力和可推廣性的研究。

簡介

因果推理

因果推理是推理的一個基本方面,其涉及到在變量或事件之間建立正確的因果關系。大致可分為兩種不同的方式的因果關系:一種是通過經驗知識,例如,從常識中知道,為朋友準備生日派對會讓他們快樂;另一種是通過純粹的因果推理,因果關系可以通過使用因果推理中已知的程序和規則進行形式化的論證和推理得到。例如,已知A和B彼此獨立,但在給定C的情況下變得相關,那么可以推斷,在一個封閉系統中,C是A和B共同影響的結果,如下圖所示。

185ff27a-0c1f-11ee-962d-dac502259ad0.png

想象上圖中的場景,在訓練語料庫中有大量的相關性,比如疫苗這個詞與疾病病例數量的增加有關。如果認為LLM的成功在于捕捉術語之間的大量統計相關性,那么關鍵但缺失的一步是如何處理這些相關性并推斷因果關系,其中一個基本的構建塊是CORR2CAUSE推斷技能。

本文將這項任務表述為NLP的一項新任務,即因果關系推理,并認為這是大語言模型的必備技能。

貢獻

基于CORR2COUSE數據集,本文探討了兩個主要的研究問題:

(1)現有的LLM在這項任務中的表現如何?

(2)現有的LLM能否在這項任務中重新訓練或重新設定目標,并獲得強大的因果推理技能?

本文的主要貢獻如下:

(1)提出了一項新任務,探討LLMs推理能力的一個方面,即純因果推理;

(2)使用因果發現的見解組成了超過400K個樣本的數據集;

(3)在數據集上評估了17個LLM的性能,發現它們的性能都很差,接近隨機基線;

(4)進一步探討了LLM是否可以通過微調來學習這項技能,發現LLM無法在分布外擾動的情況下穩健地掌握這項技能,本文建議未來的工作探索更多方法來增強LLM中的純因果推理技能。

因果推理預備知識

因果模型有向圖(DGCM)

有向圖形因果模型是一種常用的表示方法,用于表示一組變量之間的因果關系。給定一組N個變量X={X1,...,XN},可以使用有向圖G=(X,E)對它們之間的因果關系進行編碼,其中E是有向邊的集合。每條邊ei,j∈E代表一個因果聯系Xi→Xj,意味著Xi是Xj的直接原因。

D-分離與馬爾可夫性質

D-Separation(D-分離)

D分離是圖模型中的一個基本概念,用于確定在給定第三組節點Z的情況下,DAG中的兩組節點X和Y是否條件獨立,其中這三組節點是不相交的。

Markov Property(馬爾可夫性質)

DAG中的馬爾可夫性質表明每個節點Xi在給定父節點的情況下有條件地獨立于其非后代,。使用馬爾可夫屬性,可以將圖中所有節點的聯合分布分解為1881a5aa-0c1f-11ee-962d-dac502259ad0.png為了從概率分布中推斷因果圖,一個常見的假設是置信度,即從概率分布中的獨立關系中推斷圖中所有D-分離集的有效性。在本文的工作中,也采用了這個廣泛的假設,它適用于大多數現實世界的場景。

Markov Equivalence of Graphs(圖的馬爾可夫等價)

如果兩個DAG有相同的聯合分布P(X),則將兩個DAG表示為馬爾可夫等價。相互等價的馬爾可夫 DAG集稱為馬爾可夫等價類(MEC)。同一MEC中的因果圖可以很容易地識別,因為它們具有相同的骨架(即無向邊)和V結構(即A→B←C形式的結構,其中A和C不連接)。

因果發現

因果發現旨在通過分析觀測數據中的統計屬性來學習因果關系。它可以通過基于約束的方法、基于分數的方法或其他利用功能因果模型的方法來實現。

為了從相關性(用自然語言表示)推斷因果關系,本研究的數據集設計基于廣泛使用的Peter Clark(PC)算法。其使基于條件獨立原則和因果馬爾可夫假設,這使它能夠有效地識別給定數據集中變量之間的因果關系。該算法首先從所有變量之間的完全連通無向圖開始。然后,如果兩個變量之間存在無條件或有條件的獨立關系,它就消除了它們之間的邊。然后,只要存在V形結構,它就會定向定向邊。最后,它迭代地檢查其他邊的方向,直到整個因果圖與所有統計相關性一致。

數據集構建

任務定義

給定一組N個變量X={X1,...,XN},一個關于變量之間所有相關性的聲明s,以及一個描述變量Xi和Xj對之間的因果關系r的假設h。該任務是學習一個函數f(s,h)→v,它將相關語句和因果關系假設h映射到它們的有效性v∈{0,1},如果該推理無效,則取值0,否則為1。

數據生成過程

數據生成過程如下圖所示,首先選擇變量的數量N,并生成所有具有N個節點的唯一DGCM。然后,從這些圖中收集所有D分離集。對于MEC到因果圖的每個對應關系,根據MEC中的統計關系組合相關語句,并假設兩個變量之間的因果關系,如果假設是MEC中所有因果圖的共享屬性,則有效性v=1,如果對于所有MEC圖的假設不一定為真,則v=0。

1898bf56-0c1f-11ee-962d-dac502259ad0.png

用同構檢驗構造圖

數據生成的第一步是組成因果圖,如上圖的步驟1和2所示。對于一組N個變量X={X1,...,XN},存在N(N-1)個可能的有向邊,因為每個節點可以鏈接到除自身之外的任何節點。為了刪除圖中的循環,將節點按拓撲順序排列,這只允許邊Xi→ Xj,其中i<j。通過將圖的鄰接矩陣限制為僅在對角線上具有非零值來實現這一點,從而產生DAG的N(N?1)/2個可能的有向邊。

集合中可能存在同構圖。為了避免這種情況,進行了圖同構檢查,并減少了集合,以便只保留唯一的DAG,在下表中展示了它們的統計數據。盡管其可以處理大型圖,但主要關注較小的圖,這些圖仍然可以產生合理大小的數據集。

18bbd41e-0c1f-11ee-962d-dac502259ad0.png

程序生成D-分離集

基于一組唯一的DAG,通過圖論條件以編程方式生成D-分離集,如數據生成過程圖的步驟3所示。對于每對節點,給定D-分離集中的變量,它們是條件獨立的。如果D-分離集是空的,那么這兩個節點是無條件獨立的。如果不能為這兩個節點找到D-分離集,那么它們是直接相關的。

組成假設和標簽

在基于D-分離集生成相關性集合之后生成因果假設。對于因果關系r,重點關注兩個節點之間的六種常見因果關系:是父節點、是子節點、是祖先節點(不包括父節點)、是后裔節點(不包含子節點)、混淆節點和碰撞節點。這樣,假設集包含每對變量之間的所有六個有意義的因果關系,從而導致具有N個變量的圖的總大小為6*N(N?1)/2=3N(N–1)個假設。

為了生成真實有效性標簽,從數據生成過程圖的步驟3中的相關集合開始,查找與給定相關性集合對應的相同MEC中的所有因果圖,并檢查假設因果關系的必要性。如果假設中提出的因果關系對MEC中的所有因果圖都是有效的,那么我們生成有效性v=1;否則,v=0。

自然語言化

如數據生成過程圖的最后一步所示,將上述所有信息轉換為文本數據,用于CORR2CAUSE任務。對于相關語句, 將數據生成過程圖步驟3中的相關性集合表示為自然語言語句s。當兩個變量不能進行D-分離時,將其描述為A與B相關,因為它們直接相關并且不能獨立于任何條件。如果兩個變量具有有效的D-分離集C,那么將它們描述為A與給定C的B無關。在D-分離集為空的特殊情況中,A與B無關。

此外,通過將相關語句與給定變量的封閉系統的設置開始來消除歧義。最后,為了表達假設,將因果關系三元組 (Xi, r, Xj) 輸入到下表中的假設模板中。

18cef04e-0c1f-11ee-962d-dac502259ad0.png

結果數據統計

CORR2COUSE數據集的統計數據,以及按子集的統計數據如下表所示。其報告了樣本總數;測試、開發和訓練集的拆分;每個前提和假設的token數量;隱含標簽的百分比和詞匯大小。

191f2398-0c1f-11ee-962d-dac502259ad0.png

實驗

實驗設置

為了測試現有的LLM,首先在下載次數最多的transformers庫中包括六個常用的基于BERT的NLI模型:BERT、RoBERTa、BART、DeBERTa、DistilBERT和DistilBART。除了這些基于BERT的NLI模型外,還評估了基于GPT的通用自回歸LLM:GPT-3Ada、Babbage、Curie、Davinci;其指令調整版本,text-davinci-001、text-davici-002和text-davici-003;和GPT-3.5(即ChatGPT),以及最新的GPT-4,使用temperature為0的OpenAI API2,還評估了最近更有效的模型LLaMa和Alpaca,如下表所示。

1945550e-0c1f-11ee-962d-dac502259ad0.png

現有LLM中的因果推理技能

在上表中展示了LLM的因果推理性能。可以看到,純因果推理是所有現有LLM中一項非常具有挑戰性的任務。在所有LLM中,BART MNLI的最佳性能為33.38%F1,甚至高于最新的基于GPT的模型GPT-4。值得注意的是,許多模型比隨機猜測更差差,這意味著它們在純因果推理任務中完全失敗。

微調性能

在CORR2CAUSE上微調的12個模型的展示在下表中的實驗結果乍一看似乎非常強大。大多數模型性能顯著增加,其中微調的基于BERT的NLI模型表現出最強的性能。性能最好的是oBERTa-Large MNLI,在這項任務中獲得了 94.74%的F1值,以及較高的精度、召回率和準確度分數。

197fab78-0c1f-11ee-962d-dac502259ad0.png

基于因果關系的細粒度性能

本文還進行了細粒度分析,通過六種因果關系類型來檢驗最強模型RoBERTa Large MNLI的性能。如下表所示,該模型在判斷Is-Parent、Is-Descendant和Has-Confounder等關系方面非常好,所有 F1 分數都超過96%,而在HasCollider關系上則較弱。這可能是因為collider關系是最特殊的類型,需要僅基于兩個變量的無條件獨立性和以共同后代為條件的相關性來識別V結構。

19b6b2d0-0c1f-11ee-962d-dac502259ad0.png

魯棒性分析

微調后的模型展現出了高性能,但是這些模型真的健壯地學習了因果推理技能嗎?基于此本研究展開了魯棒性分析。

兩個魯棒性測試

設計了兩個簡單的穩健性測試:(1)釋義,(2)變量重構。對于釋義,通過將每個因果關系的文本模板更改為一些語義等效的替代方案來簡單地釋義假設。對于(2)變量重構,顛倒變量名稱的字母表,即將A, B, C翻轉為Z, Y, X等。具體來說,采用了常見的文本對抗性攻擊設置保留訓練集并保留相同的保存模型,但在擾動測試集中運行推理。通過這種方式,將模型只過度擬合訓練數據的可能性與掌握推理技能的可能性分開。

數據擾動后的結果

從下表右側兩列F1值可以看出,當解釋測試集時,所有模型急劇下降多達39.29,當重新分解變量名稱時,它們大幅下降高達58.38。性能最好的模型RoBERTa-Large MNLI對釋義特別敏感,表明所有模型的下降幅度最大;然而,它對變量再分解最穩健,保持了67.87的高F1分數。

19d55078-0c1f-11ee-962d-dac502259ad0.png

總結

在這項工作中,介紹了一項新任務CORR2CAUSE,用于從相關性推斷因果關系,并收集了超過400K個樣本的大規模數據集。在新任務上評估了大量的LLM,發現現成的LLM在此任務中表現不佳。實驗表明,可以通過微調在這項任務上重新使用LLM,但未來的工作需要知道分布外的泛化問題。鑒于當前LLM的推理能力有限,以及將實際推理與訓練語料庫衍生知識分離的困難,必須專注于旨在準確解開和衡量兩種能力的工作。
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    962

    瀏覽量

    55271
  • 語言模型
    +關注

    關注

    0

    文章

    556

    瀏覽量

    10554
  • 數據集
    +關注

    關注

    4

    文章

    1218

    瀏覽量

    25158
  • LLM
    LLM
    +關注

    關注

    1

    文章

    316

    瀏覽量

    617

原文標題:解密大型語言模型:從相關性中發現因果關系?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs在語言理解上表現出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估
    的頭像 發表于 11-23 15:05 ?1278次閱讀
    大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的邏輯<b class='flag-5'>推理</b><b class='flag-5'>能力</b>探究

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的評測

    在知識獲取、邏輯推理、代碼生成等方面的能力。這些評測基準包括語言建模能力、綜合知識能力、數學計算
    發表于 05-07 17:12

    基于e-CARE的因果推理相關任務

    因果推理是人類的一項核心認知能力。借助因果推理能力,人類得以理解已觀測到的各種現象,并預測將來可
    的頭像 發表于 05-16 16:21 ?1486次閱讀

    如何對推理加速器進行基準測試

      客戶對基準推理學習曲線的最后階段是開發自己的模型,使用通常來自 Nvidia 或數據中心的訓練硬件/軟件,然后在可能的目標推理加速器上對
    的頭像 發表于 06-06 16:02 ?1465次閱讀

    基于Transformer的大型語言模型LLM)的內部機制

    工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進模型和減輕其故障(如幻覺或推理錯誤)至關重要。 眾所周知,最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和
    的頭像 發表于 06-25 15:08 ?1724次閱讀
    基于Transformer的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的內部機制

    語言模型LLM)預訓練數據調研分析

    model 訓練完成后,使用 instruction 以及其他高質量的私域數據來提升 LLM 在特定領域的性能;而 rlhf 是 openAI 用來讓model 對齊人類價值觀的一種強大技術;pre-training dat
    的頭像 發表于 09-19 10:00 ?1421次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)預訓練<b class='flag-5'>數據</b><b class='flag-5'>集</b>調研分析

    從原理到代碼理解語言模型訓練和推理,通俗易懂,快速修煉LLM

    要理解大語言模型LLM),首先要理解它的本質,無論預訓練、微調還是在推理階段,核心都是next token prediction,也就是以自回歸的方式從左到右逐步生成文本。
    的頭像 發表于 09-19 16:25 ?2006次閱讀
    從原理到代碼理解<b class='flag-5'>語言</b><b class='flag-5'>模型</b>訓練和<b class='flag-5'>推理</b>,通俗易懂,快速修煉<b class='flag-5'>LLM</b>

    現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優化最新的大語言模型(Large Language Models)的
    的頭像 發表于 10-27 20:05 ?1257次閱讀
    現已公開發布!歡迎使用 NVIDIA TensorRT-<b class='flag-5'>LLM</b> 優化大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

    ?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs,比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行
    的頭像 發表于 11-01 17:48 ?1122次閱讀
    Hugging Face <b class='flag-5'>LLM</b>部署大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>到亞馬遜云科技Amazon SageMaker<b class='flag-5'>推理</b>示例

    ChatGPT是一個好的因果推理器嗎?

    因果推理能力對于許多自然語言處理(NLP)應用至關重要。最近的因果推理系統主要基于經過微調的預訓
    的頭像 發表于 01-03 09:55 ?1037次閱讀
    ChatGPT是一個好的<b class='flag-5'>因果</b><b class='flag-5'>推理</b>器嗎?

    LLM模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務
    的頭像 發表于 07-24 11:38 ?1435次閱讀

    新品| LLM630 Compute Kit,AI 大語言模型推理開發平臺

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強大的AI推理能力,能夠高效執行復雜的視覺(CV)及大語言模型(LLM)任務,
    的頭像 發表于 01-17 18:48 ?458次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>開發平臺

    新品 | Module LLM Kit,離線大語言模型推理模塊套裝

    推理數據交互需求。ModuleLLM是一款集成化的離線大語言模型(LLM)推理模塊,專為需要高
    的頭像 發表于 03-28 18:49 ?112次閱讀
    新品 | Module <b class='flag-5'>LLM</b> Kit,離線大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>模塊套裝

    詳解 LLM 推理模型的現狀

    2025年,如何提升大型語言模型LLM)的推理能力成了最熱門的話題之一,大量優化推理
    的頭像 發表于 04-03 12:09 ?136次閱讀
    詳解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理模型</b>的現狀
    主站蜘蛛池模板: 天堂成人精品视频在线观 | 日本欧美一区二区免费视 | 色v在线| 亚久久| 日本不卡免费高清视频 | 国产亚洲午夜精品a一区二区 | 国产美女在线精品免费观看 | 视频一区二区在线播放 | 免费看欧美一级特黄a大片一 | 最近国语剧情视频在线观看 | 成人a大片高清在线观看 | 四虎永久免费观看 | 黄色字幕网 | 手机看日韩毛片福利盒子 | 日日噜噜夜夜狠狠tv视频免费 | 毛片网站免费在线观看 | 国产高清免费午夜在线视频 | 伊人久久大香线焦在观看 | 亚偷熟乱区视频在线观看 | 日韩美女影院 | 四虎最新网址在线观看 | 欧美一级黄视频 | 激情伦成人综合小说 | 五月天婷婷亚洲 | 三级黄色在线观看 | 九九热免费在线观看 | 久热草在线 | 亚洲91色| 久久精品亚洲青青草原 | 在线免费成人网 | 亚洲邪恶天堂影院在线观看 | 在线观看视频h | 女人午夜啪啪性刺激免费看 | 日本三级带日本三级带黄首页 | 美女扒开尿口给男人看大全 | l欧美18一19sex性 | 激情五月婷婷网 | 福利片在线观看免费高清 | 久久夜色撩人精品国产 | 国产在线精彩视频二区 | 日韩美女影院 |