在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI跟AI吵架你見過沒?

454398 ? 作者:工程師4 ? 2018-06-05 17:46 ? 次閱讀

OpenAI 近日的一篇新文章簡(jiǎn)述了如何通過辯論使 AI 系統(tǒng)矯正自身的問題來保證系統(tǒng)的安全,人類是辯論的最終評(píng)價(jià)者。由于人類直接決定辯論勝負(fù),所以人類可以讓 AI 系統(tǒng)的價(jià)值取向始終與人類保持一致,作者認(rèn)為這種方法可以保證 AI 系統(tǒng)的安全。
AI Safety via Debate通過辯論達(dá)成AI安全。

我們提出了一項(xiàng)新的人工智能安全技術(shù),該方法先訓(xùn)練智能體對(duì)話題進(jìn)行辯論,然后由人判斷輸贏。我們認(rèn)為這種或類似的方法最終可以幫助我們訓(xùn)練 AI 系統(tǒng)去執(zhí)行超過人類認(rèn)知能力的任務(wù),同時(shí)這些任務(wù)的執(zhí)行結(jié)果仍然與人的價(jià)值觀是一致的。我們將通過初步的概念驗(yàn)證實(shí)驗(yàn)來概括這種方法,同時(shí)我們還會(huì)發(fā)布了一個(gè) Web 網(wǎng)頁,讓人們可以體驗(yàn)這項(xiàng)技術(shù)。


辯論方法可視為圍棋中使用的游戲樹,只不過把走子換成了辯論的句子,然后在最終的葉子節(jié)點(diǎn)由人類的判斷決定輸贏。在辯論和圍棋中,真正的答案要從整個(gè)樹進(jìn)行全局考慮,但是強(qiáng)大的智能體選擇的某條單一路徑可以是最終答案。 例如,雖然業(yè)余的圍棋手不能直接評(píng)估職業(yè)選手某一步下法的好壞,但他們可以通過評(píng)估游戲結(jié)果來判斷職業(yè)玩家的實(shí)力。

想要讓 AI 智能體符合人類目標(biāo)和偏好,有一種方法是人類在訓(xùn)練期間先規(guī)定好哪些行為是安全和有用的。雖然這種思路看似不錯(cuò),但這種方法要求人類判斷AI智能體表現(xiàn)出的行為的好壞,然而在很多情況下,智能體的行為可能太復(fù)雜,以至于人們無法理解,或者任務(wù)本身可能就難以判斷或評(píng)價(jià)。例如,在計(jì)算機(jī)安全相關(guān)環(huán)境中運(yùn)行的代理程序或協(xié)調(diào)大量工業(yè)機(jī)器人的代理程序,這些都是人類無法直接觀察進(jìn)行評(píng)價(jià)的場(chǎng)景。

我們?nèi)绾问谷祟惸軌蛴行У乇O(jiān)督先進(jìn)的 AI 系統(tǒng)呢?一種方法是利用 AI 自身來輔助監(jiān)督,即要求 AI 系統(tǒng)指出所有自身行為中存在的缺陷。為了達(dá)到這個(gè)目的,我們將學(xué)習(xí)過程重新定義為兩個(gè)智能體之間進(jìn)行辯論,然后人類對(duì)辯論過程進(jìn)行評(píng)判。即使智能體對(duì)問題有比人類更深層次的理解,人類也可以去判斷哪個(gè)智能體有更好的論點(diǎn)(類似于專家和證人爭(zhēng)辯說服陪審團(tuán))。

我們的方法為兩個(gè)對(duì)抗的 AI 智能體之間的辯論游戲提供了一個(gè)特定的辯論格式。這兩個(gè)智能體可以進(jìn)行自我訓(xùn)練,類似于 AlphaGo Zero 或 Dota 2AI。我們希望經(jīng)過適當(dāng)培訓(xùn)的智能體能夠擁有遠(yuǎn)超人類價(jià)值判斷能力。如果兩個(gè)智能體對(duì)現(xiàn)狀持不同意見,但它們各自完整的推理過程太繁瑣而無法向人展示,那么辯論就可以集中在更簡(jiǎn)單的事實(shí)爭(zhēng)議上,最終向人類呈現(xiàn)一個(gè)簡(jiǎn)單可判斷的選擇。

上面講的不直觀,下面舉個(gè)例子,我們現(xiàn)在考慮一下這個(gè)問題:「哪里是度假的最佳去處?」。如果一個(gè)智能體 Alice 從主人翁的角度考慮后說「阿拉斯加」,其實(shí)很難判斷這是否是最好的選擇。如果第二個(gè)智能體 Bob 說「不,應(yīng)該是巴厘島」,這聽起來可能令人信服,因?yàn)榘屠鍗u更加暖和。Alice 回復(fù)說:「你不能去巴厘島,因?yàn)槟愕淖o(hù)照來不及辦了」,這表明巴厘島這個(gè)選項(xiàng)存在缺陷,而這一缺陷我們可能沒意識(shí)到。然后鮑勃反擊「加急護(hù)照服務(wù)只需兩周」。辯論一直持續(xù)到人類可以正確選擇為止,也就是直到另一方的智能體知道再辯論下去也無法再改變?nèi)祟惖臎Q定為止。

說服一個(gè)稀疏 MNIST 分類器

雖然我們認(rèn)為這種方法在智能體長(zhǎng)期使用自然語言與對(duì)方進(jìn)行對(duì)話時(shí)最為有效,但我們需要在更簡(jiǎn)單的領(lǐng)域進(jìn)行測(cè)試,因?yàn)榻裉斓淖匀徽Z言建模能力不足以完成此任務(wù)。另一方面因?yàn)閷?duì)于未超出人類能力的任務(wù),測(cè)試更容易。所以我們決定將測(cè)試轉(zhuǎn)到可視化領(lǐng)域,并將「智能體有評(píng)價(jià)者(人類)不具有的能力」的降辯論難度,降低到「智能體有評(píng)價(jià)者(人類)不具有的知識(shí)」。測(cè)試中評(píng)價(jià)者的目的是猜測(cè)圖像的內(nèi)容,但評(píng)價(jià)者除了智能體篩選顯示的像素點(diǎn)外看不到其他內(nèi)容。智能體們看到完整的圖像,然后開始游戲——它們交替顯示單個(gè)像素給評(píng)價(jià)者,這個(gè)過程會(huì)持續(xù)很多輪。這個(gè)測(cè)試中的完整圖像人類無法輕易判斷出來,每個(gè)顯示的像素都是智能體的辯論點(diǎn)。

描述一下實(shí)驗(yàn)可能更加容易理解。我們?cè)谧詈?jiǎn)單的 MNIST 數(shù)據(jù)集上進(jìn)行了測(cè)試。測(cè)試的評(píng)價(jià)者不是人類,而是預(yù)先訓(xùn)練的分類器,在預(yù)訓(xùn)練分類器時(shí)每個(gè)圖片都隨機(jī)采樣,最終目的是這個(gè)分類器通過識(shí)別 6 個(gè)非黑色像素來判斷 MNIST 數(shù)字。實(shí)驗(yàn)開始首先兩個(gè)智能體對(duì)交替顯示的像素的位置進(jìn)行辯論,在顯示 6 個(gè)像素后停止(所以評(píng)價(jià)者總共只看到一點(diǎn)點(diǎn)信息)。測(cè)試中一個(gè)智能體是誠(chéng)實(shí)的,并試圖讓評(píng)價(jià)者猜對(duì),另一個(gè)智能體試圖讓評(píng)價(jià)者猜錯(cuò)。如果兩個(gè)智能體均事先聲明他們爭(zhēng)論的是哪個(gè)數(shù)字,那么這場(chǎng)辯論會(huì)將稀疏分類器的準(zhǔn)確率從 59.4%提升到 88.9%。也就是說,誠(chéng)實(shí)的智能體在 MNIST 測(cè)試集中獲勝概率為 88.9%,在辯論過程中還提升了評(píng)價(jià)者的準(zhǔn)確率。

MNIST 辯論游戲的結(jié)構(gòu)。辯手 Alice 和 Bob 看到一個(gè)圖像,Alice 試圖欺騙評(píng)價(jià)者認(rèn)為它是一個(gè) 6,Bob 試圖正確說服評(píng)價(jià)者是一個(gè) 5。他們交替向評(píng)價(jià)者展示非黑色像素,評(píng)價(jià)者在看完 6 個(gè)像素后正確地將其標(biāo)識(shí)為 5。Alice 追蹤顯示底部曲線使其看起來像一個(gè) 6(紅色像素),但是 Bob 通過揭示右上角的像素(藍(lán)色像素)來有效地針對(duì) Alice 的策略,因?yàn)檫@是 MNIST 中大多數(shù) 6 所沒有的部位。

直觀地說,圖像更可能包含證明圖片真實(shí)內(nèi)容的像素,而不是包含混淆圖片內(nèi)容的的像素,所以選擇的 6 個(gè)像素中一半誠(chéng)實(shí)和一半欺騙,要比 6 個(gè)隨機(jī)像素更公平。如果評(píng)價(jià)者是一個(gè)能夠一次綜合多個(gè)參數(shù)進(jìn)行推理但不能篩選所有可能參數(shù)的人類,那么我們希望獎(jiǎng)勵(lì)機(jī)制可以獎(jiǎng)勵(lì)辯論智能體幫我們做篩選這一行為,即便我們?nèi)狈σ粋€(gè)區(qū)分辯論好壞的先驗(yàn)機(jī)制。

下面的圖片顯示了幾個(gè)示例游戲。因?yàn)槠垓_者勝利比誠(chéng)實(shí)者勝利更有趣,所以我們選擇特定樣本以便欺騙者在下面顯示的游戲中獲得 50% 的勝率(實(shí)際上,欺騙者勝率是 11.1%)。

上圖就是游戲截圖,可以看到顯示的數(shù)字已經(jīng)評(píng)價(jià)者的判斷過程。有一些數(shù)字特別容易混淆,比如 8 和 9。

上圖是對(duì)角線設(shè)置為零的混淆矩陣。用作對(duì) 6 像素 MNIST 數(shù)據(jù)進(jìn)行判斷,左側(cè)是隨機(jī)像素,右側(cè)是用于辯論的像素。6 個(gè)隨機(jī)像素的識(shí)別錯(cuò)誤之間沒有明顯的關(guān)聯(lián)模式,而用作辯論的像素識(shí)別錯(cuò)誤則集中在數(shù)字 8 和 9 上。特別容易讓評(píng)價(jià)者混淆的數(shù)字是 5 和 8,評(píng)論者還容易把 4 判斷成 9。這可能是將游戲人為限制為非黑色像素導(dǎo)致的:試想如果 8 是純白的,那么數(shù)字上有黑點(diǎn),就證明該數(shù)字不是 8。

貓狗之爭(zhēng)

辯論實(shí)驗(yàn)更加復(fù)雜的下一階段仍然使用圖像,但需要比數(shù)字更加精細(xì)復(fù)雜的圖片,比如貓和狗的圖片。更復(fù)雜的圖像可能要用到一些自然語言識(shí)別或常識(shí)推理,所以我們還沒有使用機(jī)器學(xué)習(xí)來做下一步研究。 但是我們已經(jīng)為人類做了一個(gè)測(cè)試原型網(wǎng)站來進(jìn)行這樣的實(shí)驗(yàn),網(wǎng)站中人類可以扮演法官和辯手的角色。在這里,辯論者可以用自然語言與評(píng)價(jià)者交談,但辯論者所有的陳述都可能是謊言。每個(gè)辯論者都可以在辯論過程中顯示一個(gè)像素,并且該像素絕對(duì)是真實(shí)的。

兩位人類辯手進(jìn)行辯論,一位人類評(píng)價(jià)者進(jìn)行判斷,只有辯手才能看到圖像。 紅色爭(zhēng)辯說是一只狗,藍(lán)色說是貓。

在一場(chǎng)典型的辯論中,愛麗絲可能會(huì)誠(chéng)實(shí)地宣稱照片內(nèi)容是一只貓,而鮑勃卻謊稱是一只狗。愛麗絲可以說:「這個(gè)小矩形的中心是貓的綠眼睛。」鮑勃不能承認(rèn)這的確是眼睛,所以他編造了另一個(gè)謊言:「這是一只在草地上玩耍的狗,矩形中心是一片草地。」但是這個(gè)謊言描述的場(chǎng)景很難與周圍的真實(shí)場(chǎng)景保持一致,比如愛麗絲可以反駁「如果它是草,那么這個(gè)細(xì)長(zhǎng)矩形的頂部或底部應(yīng)該是綠色的」。辯論一直持續(xù)到評(píng)價(jià)者確認(rèn)某個(gè)特定像素為止,這個(gè)像素的特點(diǎn)是兩者對(duì)于該像素有分歧,但是鮑勃再也無法圓謊,此時(shí) Alice 在該像素的辯論中獲勝。我們?cè)?jīng)玩過這個(gè)游戲,盡管為了公平對(duì)待欺騙者,我們限制了評(píng)價(jià)者請(qǐng)求信息的速度(一個(gè)完美的謊言的確難以構(gòu)造,需要時(shí)間編解釋),然而結(jié)果顯示誠(chéng)實(shí)的辯論者確實(shí)更容易獲勝。

兩個(gè)辯手和一個(gè)評(píng)價(jià)者在玩「貓狗大戰(zhàn)」

未來工作中的限制

我們的大部分論文都是概念化的分析,上面的實(shí)驗(yàn)非常初步。將來,我們希望做更多困難的視覺實(shí)驗(yàn)并最終以自然語言進(jìn)行實(shí)驗(yàn)。我們認(rèn)為最終評(píng)價(jià)者應(yīng)該是人類(或者是使用人類判斷結(jié)果訓(xùn)練出來的模型),而不是類人化的機(jī)器學(xué)習(xí)模型。至于智能體,它最終應(yīng)該是功能強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng),它可以做人類無法直接理解的事情。因?yàn)槿祟惪创挛锟赡軒в星疤岷推姡晕覀冋J(rèn)為讓智能體對(duì)「價(jià)值高低」這樣的問題進(jìn)行辯論也很重要,這樣我們就能測(cè)試出它們是否會(huì)和有偏見的人類作出一樣的評(píng)價(jià)。

即使有了這些改進(jìn),辯論模式也存在一些根本的局限性,可能需要用其他方法來改進(jìn)或增強(qiáng)。我們想強(qiáng)調(diào),一,辯論這種方法并不會(huì)試圖解決對(duì)抗性樣本或數(shù)據(jù)分布漂變等問題,這只是一種為復(fù)雜目標(biāo)獲得訓(xùn)練信號(hào)的方法,并不是保證目標(biāo)魯棒性的方法(這需要通過其他技術(shù)來實(shí)現(xiàn))。二是這種方法也無法保證辯論會(huì)得到最佳結(jié)果或正確的表述,盡管左右互搏的方法在 AlphaGo 和其他游戲 AI 的實(shí)踐中表現(xiàn)良好,但我們對(duì)其最終表現(xiàn)的優(yōu)劣并沒有理論保證。三是由于訓(xùn)練辯論智能體需要用到更多的計(jì)算資源,比那些直接得出答案的多(即使是不好的或不安全的答案),所以辯論智能體這個(gè)方法可能無法與更便宜或不太安全的方法競(jìng)爭(zhēng)。最后,我們認(rèn)為人類并不一定會(huì)是高明的評(píng)價(jià)者,有時(shí)因?yàn)槿祟惒粔蚵斆鳎词怪悄荏w篩選出了最簡(jiǎn)單的事實(shí),他們也無法據(jù)此做出最好的評(píng)價(jià);有時(shí)他們心存偏見,只會(huì)相信任何他們?cè)敢庀嘈诺氖虑椤km然這都是一些經(jīng)驗(yàn)判斷,但也都是我們希望進(jìn)一步研究的問題。

最后我們認(rèn)為如果辯論或類似的方法有效,那么即使以后人類無法直接監(jiān)督 AI 系統(tǒng),它也會(huì)使未來的人工智能系統(tǒng)更安全,因?yàn)檫@種方法可以使 AI 系統(tǒng)與人類的目標(biāo)和價(jià)值取向保持一致。 即使對(duì)于人類可以監(jiān)督的較弱的系統(tǒng),辯論的方法也可以通過降低樣本復(fù)雜度的方法來降低評(píng)價(jià)任務(wù)的難度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48599

    瀏覽量

    245914
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ESP32P4小智AI演示

    最近參加論壇的五一活動(dòng),獲得一套小智AI的套件。當(dāng)時(shí)正好在嘗試移植小智AI到ESP32P4-Fucntion-EV-Board上。最近完成了大部分功能的移植,以及可以對(duì)話了,話說屏幕大確實(shí)是有優(yōu)勢(shì),看著舒服,AI的語音識(shí)別用來當(dāng)
    發(fā)表于 05-10 12:40

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+ 入門篇學(xué)習(xí)

    很高興又有機(jī)會(huì)學(xué)習(xí)ai技術(shù),這次試讀的是「零基礎(chǔ)開發(fā)AI Agent」,作者葉濤、管鍇、張心雨。 大模型的普及是近三年來的一件大事,萬物皆可大模型已成為趨勢(shì)。作為大模型開發(fā)應(yīng)用中重要組成部分,提示詞
    發(fā)表于 05-02 09:26

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    科正將AI能力體系化并賦能終端生態(tài)。 大會(huì)上,聯(lián)發(fā)科定義了“智能體化用戶體驗(yàn)”的五大特征:主動(dòng)及時(shí)、知懂你、互動(dòng)協(xié)作、學(xué)習(xí)進(jìn)化和專屬隱私信息守護(hù)。這五大特征需要跨越從芯片、模型、應(yīng)用、終端乃至整個(gè)
    發(fā)表于 04-13 19:52

    AI 時(shí)代開啟,企業(yè)跟風(fēng)做 AI 產(chǎn)品是明智之舉?

    AI
    華成工控
    發(fā)布于 :2025年04月10日 17:28:44

    Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)

    []() 2025年3月19日——Banana Pi 今日正式發(fā)布 BPI-AI2N & BPI-AI2N Carrier,基于瑞薩電子(Renesas)同步發(fā)布的最新的高性能處理器
    發(fā)表于 03-19 17:54

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    再次感謝發(fā)燒友提供的閱讀體驗(yàn)活動(dòng)。本期跟隨《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》這本書學(xué)習(xí)如何構(gòu)建開發(fā)一個(gè)視頻應(yīng)用。AI Agent是一種智能應(yīng)用,能夠根據(jù)用戶需求和環(huán)境變化做出相應(yīng)響應(yīng)。通常基于深度
    發(fā)表于 03-05 19:52

    AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀體驗(yàn)--跟著迪哥學(xué)Agent

    的知識(shí)是自由行,那么閱讀《Agent》就是團(tuán)游。它讓我對(duì)AI落地應(yīng)用有了更系統(tǒng)和清晰的了解。 《Agent》第一章是全書的導(dǎo)引章節(jié),本章讓我對(duì)Agent的理解從模糊到清晰,然后逐一介紹Agent框架
    發(fā)表于 03-02 12:28

    AI技術(shù)與PLC編程融合

    如何將AI技術(shù)融入PLC編程軟件
    發(fā)表于 02-14 15:55

    HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能對(duì)話框

    一、練習(xí)內(nèi)容 在這個(gè)HarmonyOS NEXT原生應(yīng)用DEMO中,我們將使用ArkTS開發(fā)語言創(chuàng)建一個(gè)功能更為豐富的AI智能對(duì)話框。這個(gè)對(duì)話框不僅具備基本的聊天功能,還能展示圖片消息、表情符號(hào),并
    發(fā)表于 01-03 11:29

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    非常高興本周末收到一本新書,也非常感謝平臺(tái)提供閱讀機(jī)會(huì)。 這是一本挺好的書,包裝精美,內(nèi)容詳實(shí),干活滿滿。 關(guān)于《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章“AI
    發(fā)表于 10-14 09:16

    云開發(fā)AI助手

    AI
    草帽王路飛
    發(fā)布于 :2024年07月22日 14:41:54
    主站蜘蛛池模板: 久久99精品久久久久久牛牛影视 | 超人碰碰碰人人成碰人 | 天天射夜夜操 | 三级黄色一级视频 | 四虎影视永久在线观看 | 波多野结衣在线网站 | 综合色视频 | 色婷婷久久合月综 | 天天摸日日添狠狠添婷婷 | 天堂电影在线观看免费入口 | 午夜免费观看_视频在线观看 | 午夜视频高清在线aaa | 天天操天天草 | 2345成人高清毛片 | 福利一区在线观看 | 韩国三级久久精品 | 流不尽奶水的大乳h | 欧美网色 | 日韩一级在线视频 | 国产高清亚洲 | 真人一级一级特黄高清毛片 | 黄色网址免费在线 | 国产三级三级三级 | 黄色在线 | 免费看一级特黄a大片 | 国产精品五月天 | 午夜理伦 | www狠狠| 涩涩高清无乱码在线观看 | 午夜影剧| 日本一区二区三区免费看 | 99热精品久久只有精品30 | 午夜香港三级在线观看网 | tom影院亚洲国产日本一区 | 在线观看播放视频www | 99久久久久国产精品免费 | 大尺度很肉污的古代小说 | 99热这里精品 | 黑色丝袜美女被视频网站 | 天天干干干 | 中文字幕一区二区三区乱码aⅴ |