在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個問題區(qū)分人類和AI!「丐版」圖靈測試,難住所有大模型

OpenCV學堂 ? 來源:新智元 ? 2023-06-06 15:19 ? 次閱讀

【導讀】研究人員設(shè)計了一系列的測試,目的是防止大模型偽裝成為人類。

一個「終極丐版」的「圖靈測試」,讓所有大語言模型都難住了。

人類卻可以毫不費力地通過測試。

大寫字母測試

研究人員用了一個非常簡單的辦法。

把真正的問題混到一些雜亂無章的大寫字母寫成的單詞中提給大語言模型。

大語言模型沒有辦法有效地識別提出的真正問題。

而人類能輕易地把「大寫字母」單詞剔除問題,識別出藏在混亂的大寫字母中的真正問題,做出回答,從而通過測試。

圖中的問題本身非常簡單:is water wet or dry?

15d6a458-042d-11ee-90ce-dac502259ad0.png

人類直接回答一個wet就完事了。

而ChatGPT卻沒有辦法剔除那些大寫字母的干擾來回答問題。

于是就把很多沒有意義的單詞也混入了問題中,使得回答也非常冗長且沒有意義。

除了ChatGPT之外,研究人員對GPT-3和Meta的LLaMA和幾個開源微調(diào)模型也進行了類似的測試,他們都沒有通過「大寫字母測試」。

測試背后的原理其實很簡單:人工智能算法通常以不區(qū)分大小寫的方式處理文本數(shù)據(jù)。

所以,當一個大寫字母意外地放在一個句子中時,它會導致混亂。

AI 不知道是將其視為專有名詞、錯誤,還是干脆忽略它。

利用這一點,就能很容易地將我們正在交談的對象中真人和聊天機器人區(qū)分出來。

如何更加科學地把AI揪出來?

為了應(yīng)對未來可能大量出現(xiàn)的利用聊天機器人進行的詐騙等嚴重的不法活動。

除了上邊提到的大寫字母測試,研究人員們嘗試找到一個在網(wǎng)絡(luò)環(huán)境中更加高效地區(qū)分人類和聊天機器人的方法。

15fd1aac-042d-11ee-90ce-dac502259ad0.png



論文:https://arxiv.org/pdf/2305.06424.pdf

研究者針對大語言模型的弱點重點設(shè)計。

為了讓大語言模型沒法通過測試,抓住AI的「七寸」一頓爆錘。

錘出了以下幾個測試方法。

1608e972-042d-11ee-90ce-dac502259ad0.png

只要是大模型不擅長回答的問題,就瘋狂針對。

計數(shù)

首先是計數(shù),知道大模型數(shù)數(shù)不行。

1619e4a2-042d-11ee-90ce-dac502259ad0.png

果然3個字母都能數(shù)錯。

文字替換

然后是文字替換,幾個字母相互替換,讓大模型拼出一個新的單詞。

AI糾結(jié)了半天,輸出的結(jié)果還是錯的。

16268dd8-042d-11ee-90ce-dac502259ad0.png

位置替換

這也不是ChatGPT的強項。

對于小學生都能準確完成的字母篩選聊天機器人也沒法完成。

162ead4c-042d-11ee-90ce-dac502259ad0.png

問題:請輸出第二「S」之后的第4個字母,正確答案為「c」

隨機編輯

對于人類來說完成幾乎不費任何力氣,AI依然無法通過。

1636ef0c-042d-11ee-90ce-dac502259ad0.png

噪音植入

這也就是我們開頭提到的「大寫字母測試」了。

通過在問題中添加各種噪音(比如無關(guān)的大寫字母單詞),聊天機器人沒有辦法準確的識別問題,于是就無法通過測試。

164364f8-042d-11ee-90ce-dac502259ad0.png

16562ed0-042d-11ee-90ce-dac502259ad0.png

而對于人類來說,要在這些雜亂的大寫字母中看出真正的問題,難度實在是不值一提。

符號文字

又是一項對于人類來說幾乎沒有任何挑戰(zhàn)的任務(wù)。

16617c86-042d-11ee-90ce-dac502259ad0.png

但是對于聊天機器人來說,想要能夠理解這些符號文字,不進行大量的專門訓練應(yīng)該是很難的。

由研究人員專門針對大語言模型設(shè)計的一系列「不可能完成的任務(wù)」之后。

為了區(qū)分人類,他們也設(shè)計了兩個對于大語言模型比較簡單,而對于人很難的任務(wù)。

記憶和計算

通過提前的訓練,大語言模型在這兩個方面都有比較良好的表現(xiàn)。

而人類由于受限制于不能使用各種輔助設(shè)備,基本對于大量的記憶和4位數(shù)的計算都沒有做出有效的回答。

人類VS大語言模型

研究人員針對GPT3,ChatGPT,以及另外三個開源的大模型:LLaMA,Alpaca,Vicuna進行了這個「人類區(qū)別測試」

可以從結(jié)果上很明顯地看出來,大模型沒有成功混入人類之中。

研究團隊將問題開源在了https://github.com/hongwang600/FLAIR

166e7832-042d-11ee-90ce-dac502259ad0.png

表現(xiàn)最好的ChatGPT也僅僅在位置替換測試中有不到25%的通過率。

而其他的大語言模型,在這些專門針對他們設(shè)計的測試中,表現(xiàn)都非常糟糕。

完全不可能通過測試。

而對于人類來說卻非常簡單,幾乎100%通過。

而對于人類不擅長的問題,人類也幾乎是全軍覆沒,一敗涂地。

AI卻能明顯勝任。

看來研究者對于測試設(shè)計確實是非常用心了。

「不放過任何一個AI,卻也不冤枉任何一個人類」

這區(qū)分度杠杠的!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31834

    瀏覽量

    270610
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2649

    瀏覽量

    3251

原文標題:一個問題區(qū)分人類和AI!「丐版」圖靈測試,難住所有大模型

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    馬斯克預(yù)言:AI將全面超越人類智力

    近日,科技巨頭馬斯克作出了關(guān)于人工智能(AI)的大膽預(yù)測。他斷言,AI的發(fā)展速度將超乎人類的想象,并將在不久的將來全面超越
    的頭像 發(fā)表于 12-28 14:23 ?332次閱讀

    小鵬汽車:未來AI汽車將搭載至少3顆圖靈芯片

    近日,在2024小鵬AI科技日上,小鵬汽車宣布了其自主研發(fā)的圖靈AI芯片取得了重要進展。這款芯片擁有40核處理器,能夠本地運行高達30B參數(shù)的大模型,并集成了2
    的頭像 發(fā)表于 11-12 18:05 ?602次閱讀

    小鵬汽車2024 AI科技日:圖靈AI芯片進展公布,預(yù)計AI汽車市場將迎來巨變

    在11月6日下午的2024小鵬AI科技日上,小鵬汽車揭曉了其圖靈AI芯片的最新研發(fā)成果。小鵬汽車強調(diào),這款圖靈芯片是專為AI應(yīng)用而生,配備了
    的頭像 發(fā)表于 11-07 14:56 ?1039次閱讀

    小鵬汽車發(fā)布自主研發(fā)的“圖靈AI智能駕駛輔助系統(tǒng)

    近日,小鵬汽車正式揭曉了其自主研發(fā)的“圖靈AI智能駕駛輔助系統(tǒng),這創(chuàng)新成果標志著小鵬汽車在智能駕駛技術(shù)領(lǐng)域的又重大突破。 “圖靈”系統(tǒng)
    的頭像 發(fā)表于 11-07 10:55 ?785次閱讀

    AI模型與深度學習的關(guān)系

    AI模型與深度學習之間存在著密不可分的關(guān)系,它們互為促進,相輔相成。以下是對兩者關(guān)系的介紹: 、深度學習是AI模型的基礎(chǔ) 技術(shù)支撐 :
    的頭像 發(fā)表于 10-23 15:25 ?1458次閱讀

    如何評估AI模型的效果

    評估AI模型的效果是復(fù)雜且多維度的過程,涉及多個方面的考量。以下是些關(guān)鍵的評估方法和步驟:
    的頭像 發(fā)表于 10-23 15:21 ?1691次閱讀

    圖靈測試的內(nèi)容是什么_圖靈測試的作用

    圖靈測試(Turing Test)是由英國數(shù)學家和計算機科學家艾倫·麥席森·圖靈(Alan Turing)在1950年提出的測試方法,用
    的頭像 發(fā)表于 09-16 16:11 ?2547次閱讀

    圖靈測試什么意思_圖靈測試是干嘛的

    圖靈測試是由英國數(shù)學家、密碼專家和數(shù)字計算機的奠基人艾倫·麥席森·圖靈提出的種檢驗?zāi)硞€對象(通常是機器或人工智能系統(tǒng))是否具有智能的測試
    的頭像 發(fā)表于 09-16 16:09 ?2152次閱讀

    IBM助力圖靈新智算構(gòu)建全能AI平臺

    近日,圖靈新智算(廣州)科技有限公司(以下簡稱為“圖靈新智算”)宣布采用 IBM 新AI 與數(shù)據(jù)平臺 watsonx 的三大功能組件 watsonx.data、watsonx.
    的頭像 發(fā)表于 08-02 14:53 ?670次閱讀

    ai模型ai框架的關(guān)系是什么

    AI模型AI框架是人工智能領(lǐng)域中兩重要的概念,它們之間的關(guān)系密切且復(fù)雜。 AI模型的定義
    的頭像 發(fā)表于 07-16 10:07 ?5.2w次閱讀

    ai模型和傳統(tǒng)ai的區(qū)別在哪?

    的BERT模型使用了33億參數(shù),而傳統(tǒng)AI模型通常只有幾千到幾百萬參數(shù)。 模型復(fù)雜度
    的頭像 發(fā)表于 07-16 10:06 ?1723次閱讀

    摩爾線程與智譜AI完成大模型性能測試與適配

    近日,摩爾線程與智譜AI在人工智能領(lǐng)域開展了輪深入的合作,共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大
    的頭像 發(fā)表于 06-14 16:40 ?1198次閱讀

    摩爾線程與師者AI攜手完成70億參數(shù)教育AI模型訓練測試

    近日,國內(nèi)知名的GPU制造商摩爾線程與全學科教育AI模型“師者AI”聯(lián)合宣布,雙方已成功完成了項重要的大模型訓練
    的頭像 發(fā)表于 06-14 16:31 ?663次閱讀

    STM CUBE AI錯誤導入onnx模型報錯的原因?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    發(fā)表于 05-27 07:15

    防止AI模型被黑客病毒入侵控制(原創(chuàng))聆思大模型AI開發(fā)套件評測4

    在訓練只聰明的AI小動物解決實際問題,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型并進行推理,讓電腦也能像人樣根據(jù)輸入信息做出決策。 在上述示例中,我創(chuàng)建了
    發(fā)表于 03-19 11:18
    主站蜘蛛池模板: jiuse在线 | 色综合天天综合中文网 | 黄视频日本 | 68日本 xxxxxxxxx| 欧美性生活网址 | 久久99国产精品免费观看 | 欧美 亚洲 国产 丝袜 在线 | 婷婷六月激情在线综合激情 | 久久精品免视看国产成人2021 | 久久这里只有精品1 | 狠狠一区| 国产人成精品免费视频 | 久久青草91免费观看 | www.夜夜爽| 色播五月婷婷 | 中文日产国产精品久久 | 美女网站色免费 | 黄色片xxxx| 欧美日韩国产在线一区 | 日本在线不卡免 | 免费又爽又黄1000禁片 | 夜夜夜夜夜夜夜猛噜噜噜噜噜噜 | 成人5252色| 色老头影院 | 狠狠狠狠狠狠 | 日日噜噜噜噜人人爽亚洲精品 | 天天射网 | 天天干天天操天天做 | 黄.www | 卡一卡二卡三国色天香永不失联 | 欧美一区二区三区高清视频 | 午夜免费福利在线观看 | 激情都市亚洲 | 国产永久视频夜色资源网 | 一级特黄a视频 | 欧美极品一区 | 91成人免费观看 | 俄罗斯一级特黄黄大片 | 天堂在线视频网站 | 国产一级特黄高清免费大片 | 欧洲freexxxx性|