91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI最新突破性進展:語言模型可以解釋語言模型中的神經元

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-12 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家好,我是zenRRan。

OpenAI在昨天發布了一篇論文:《Language models can explain neurons in language models》,可謂是深度學習可解釋性又向前邁了一大步!誰又能想到,使用GPT-4來解釋模型的可解釋性,用魔法打敗魔法,666。

e77cb674-ef0f-11ed-90ce-dac502259ad0.png

大致內容

使用 GPT-4 自動編寫大型語言模型中神經元行為的解釋,并對這些解釋進行打分,并為 GPT-2 中的每個神經元發布了這些(不完美的)解釋和分數的數據集。

介紹一下

語言模型變得更強大,部署更廣泛,但我們對它們內部工作原理的理解仍然非常有限。例如,可能很難從它們的輸出中檢測到它們是使用有偏見的啟發式方法還是進行胡編亂造。可解釋性研究旨在通過查看模型內部來發現更多信息。

可解釋性研究的一種簡單方法是首先了解各個組件(神經元和注意力頭)在做什么。傳統上,這需要人類手動檢查神經元,以確定它們代表數據的哪些特征。這個過程不能很好地擴展:很難將它應用于具有數百或數千億個參數的神經網絡。OpenAI提出了一個自動化過程,該過程使用 GPT-4 來生成神經元行為的自然語言解釋并對其進行評分,并將其應用于另一種語言模型中的神經元。

這項工作是對齊研究方法的第三個支柱的一部分:希望使對齊研究工作本身自動化。這種方法的一個有前途的方面是它可以隨著人工智能發展的步伐而擴展。隨著未來的模型作為助手變得越來越智能和有用,我們會找到更好的解釋。

具體如何工作的呢

他們的方法包括在每個神經元上運行 3 個步驟。

第 1 步:使用 GPT-4 生成解釋

給定一個 GPT-2 神經元,通過向 GPT-4 顯示相關文本序列和激活來生成對其行為的解釋。

OpenAI一共舉了12個例子,這里我就隨便拿出幾個代表性的吧。

e793c9ae-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

模型生成的解釋:參考自電影、角色和娛樂。

e7bea372-ef0f-11ed-90ce-dac502259ad0.png

similes,相似

模型生成的解釋:比較和類比,常用“喜歡(like)”這個詞。

e7d9db4c-ef0f-11ed-90ce-dac502259ad0.png

shared last names,姓氏

模型生成的解釋:姓氏,它們一般跟在名字后面。

第 2 步:使用 GPT-4 進行模擬

再次使用 GPT-4 模擬為解釋而激活的神經元會做什么。

e7f7708a-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

第 3 步:比較

根據模擬激活與真實激活的匹配程度對解釋進行評分

e8209794-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

e849ba66-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

最終得出比較的分數為:0.34

發現了什么

使用OpenAI自己的評分方法,可以開始衡量技術對網絡不同部分的工作情況,并嘗試改進目前解釋不力的部分的技術。例如,我們的技術對于較大的模型效果不佳,可能是因為后面的層更難解釋。

e86d1420-ef0f-11ed-90ce-dac502259ad0.png

正在解釋的模型中的參數量

盡管我們的絕大多數解釋得分很低,但我們相信我們現在可以使用 ML 技術來進一步提高我們產生解釋的能力。例如,我們發現我們可以通過以下方式提高分數:

迭代解釋。我們可以通過要求 GPT-4 提出可能的反例,然后根據它們的激活修改解釋來提高分數。

使用更大的模型來給出解釋。隨著解釋器模型能力的提高,平均分數也會上升。然而,即使是 GPT-4 也給出了比人類更差的解釋,這表明還有改進的余地。

更改已解釋模型的架構。具有不同激活函數的訓練模型提高了解釋分數。

我們正在開源我們的數據集和可視化工具,用于 GPT-4 對 GPT-2 中所有 307,200 個神經元的書面解釋,以及使用 OpenAI API 上公開可用的模型[1]進行解釋和評分的代碼。我們希望研究界能夠開發新技術來生成更高分的解釋,并開發更好的工具來使用解釋來探索 GPT-2。

我們發現超過 1,000 個神經元的解釋得分至少為 0.8,這意味著根據 GPT-4,它們解釋了神經元的大部分頂級激活行為。大多數這些很好解釋的神經元都不是很有趣。然而,也發現了許多 GPT-4 不理解的有趣神經元。希望隨著解釋的改進,能夠快速發現對模型計算的有趣的定性理解。

神經元跨層激活,更高的層更抽象:

e87e391c-ef0f-11ed-90ce-dac502259ad0.png

以Kat舉例

展望

我們的方法目前有很多局限性[2],我們希望在未來的工作中能夠解決這些問題。

我們專注于簡短的自然語言解釋,但神經元可能具有非常復雜的行為,無法簡潔地描述。例如,神經元可以是高度多義的(代表許多不同的概念),或者可以代表人類不理解或無法用語言表達的單一概念。

我們希望最終自動找到并解釋實現復雜行為的整個神經回路,神經元和注意力頭一起工作。我們當前的方法僅將神經元行為解釋為原始文本輸入的函數,而沒有說明其下游影響。例如,一個在句號上激活的神經元可以指示下一個單詞應該以大寫字母開頭,或者遞增一個句子計數器。

我們解釋了神經元的行為,但沒有試圖解釋產生這種行為的機制。這意味著即使是高分解釋也可能在分布外的文本上表現很差,因為它們只是描述了相關性。

我們的整個過程是計算密集型的。

我們對我們方法的擴展和推廣感到興奮。最終,我們希望使用模型來形成、測試和迭代完全通用的假設,就像可解釋性研究人員所做的那樣。

最終,OpenAI希望將最大的模型解釋為一種在部署前后檢測對齊和安全問題的方法。然而,在這些技術能夠使不誠實等行為浮出水面之前,我們還有很長的路要走。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經元
    +關注

    關注

    1

    文章

    368

    瀏覽量

    18832
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10787
  • OpenAI
    +關注

    關注

    9

    文章

    1207

    瀏覽量

    8897

原文標題:OpenAI最新突破性進展:語言模型可以解釋語言模型中的神經元

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    無刷直流電機單神經元自適應智能控制系統

    常規PID,大大提高了系統的跟隨,能滿足BLDCM系統對實時的要求。 純分享帖,點擊下方附件免費獲取完整資料~~~ *附件:無刷直流電機單神經元自適應智能控制系統.pdf 【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所
    發表于 06-26 13:36

    模型領域常用名詞解釋(近100個)

    本文總結了大模型領域常用的近100個名詞解釋,并按照模型架構與基礎概念,訓練方法與技術,模型優化與壓縮,推理與應用,計算與性能優化,數據與標簽,模型
    的頭像 發表于 02-19 11:49 ?779次閱讀
    大<b class='flag-5'>模型</b>領域常用名詞<b class='flag-5'>解釋</b>(近100個)

    語言模型的解碼策略與關鍵優化總結

    本文系統性地闡述了大型語言模型(LargeLanguageModels,LLMs)的解碼策略技術原理及其實踐應用。通過深入分析各類解碼算法的工作機制、性能特征和優化方法,為研究者和工程師提供了全面
    的頭像 發表于 02-18 12:00 ?576次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的解碼策略與關鍵優化總結

    語言模型管理的作用

    要充分發揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發表于 01-02 11:06 ?384次閱讀

    語言模型開發框架是什么

    語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發表于 12-06 10:28 ?523次閱讀

    語言模型開發語言是什么

    在人工智能領域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發表于 12-04 11:44 ?689次閱讀

    Orange與OpenAI、Meta合作開發非洲語言AI大模型

    OpenAI和Meta將攜手法國電信運營商Orange SA,共同開發針對非洲語言的人工智能大模型。該項目旨在解決非洲大陸數千種方言模型短缺的問題,計劃于明年上半年正式啟動。
    的頭像 發表于 12-02 11:00 ?623次閱讀

    云端語言模型開發方法

    云端語言模型的開發是一個復雜而系統的過程,涉及數據準備、模型選擇、訓練優化、部署應用等多個環節。下面,AI部落小編為您分享云端語言模型的開發
    的頭像 發表于 12-02 10:48 ?688次閱讀

    全新NVIDIA NIM微服務實現突破性進展

    全新 NVIDIA NIM 微服務實現突破性進展,可助力氣象技術公司開發和部署 AI 模型,實現對降雪、結冰和冰雹的預測。
    的頭像 發表于 11-21 10:07 ?663次閱讀

    循環神經網絡在自然語言處理的應用

    自然語言處理(NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展,循環神經網絡(RNN)因其在處理序列數據方面的優勢而在NLP
    的頭像 發表于 11-15 09:41 ?811次閱讀

    語言模型如何開發

    語言模型的開發是一個復雜且細致的過程,涵蓋了數據準備、模型架構設計、訓練、微調和部署等多個階段。以下是對大語言模型開發步驟的介紹,由AI部
    的頭像 發表于 11-04 10:14 ?602次閱讀

    通義千問發布第二代視覺語言模型Qwen2-VL

    。Qwen2-VL系列模型在多模態處理領域取得了突破性進展,于多個權威測評嶄露頭角,刷新了多項最佳成績記錄,展現出強大的視覺理解與語言交互
    的頭像 發表于 09-03 16:31 ?857次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實現語言的編碼和解碼。 注意力機制:Transformer的注意力機制使得
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    。首先結合ChatGPT的4次迭代升級介紹了什么是大語言模型,大語言模型的特點:參數多、通用強;之后用較大的篇幅詳細講解了自然
    發表于 07-25 14:33

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    ,了解此書的主要內容: 書分四篇,基礎、入門、進階和展望。 基礎篇從人工智能起源開始、之后又介紹了機器學習、神經網絡和大語言模型的基礎知識,如果讀者學習過機器學習相關課程,那這個基礎篇的閱讀就會很輕
    發表于 07-21 13:35
    主站蜘蛛池模板: 亚洲成年人免费网站 | 国产伦精品一区二区免费 | 国产免费爽爽视频免费可以看 | 性做久久久久久 | 全部在线播放免费毛片 | 国产精品欧美一区二区三区不卡 | 美女写真mm爽爽爽 | 在线免费视频国产 | 免费毛片网站在线观看 | 国产乱通伦 | 狠狠色综合久久久久尤物 | 中文字幕在线天堂 | 免费美剧在线观看 | 天堂在线www在线资源 | 欧美呜巴又大粗又长 | 我被黑人巨大开嫩苞在线观看 | 在线观看成人网 | 看片在线观看免费 | 久久中出 | 免费看吻胸亲嘴激烈网站 | 免费任我爽橹视频在线观看 | 视频免费观看视频 | 一级做a爰片久久毛片毛片 一级做a爰片久久毛片美女图片 | 国产高清在线 | 亚洲伊人成综合成人网 | 禁网站在线观看免费视频 | 色婷婷中文字幕 | 最近2018中文字幕免费看手机 | 在线观看h视频 | 色中文字幕 | 午夜一级毛片看看 | 日本污全彩肉肉无遮挡彩色 | 免费免费啪视频在线 | 婷婷六月激情在线综合激情 | 日日操狠狠操 | 毛片高清一区二区三区 | 一丝不遮视频免费观看 | 久操资源在线 | 国产1区二区 | 久久久免费网站 | 速度与激情在线 |