在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

IQ測試是否能測量AI的推理能力?

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-07-17 14:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿基米德基于對物體體積的抽象理解,悟到了物體的體積與物體浮力之間的關系。這就是抽象推理的魔力。基于神經網絡機器學習模型取得了驚人的成績,但是測量其推理抽象概念的能力卻是非常困難的。雖然人工智能已經可以在策略游戲的對戰中戰勝人類,但是卻在一些簡單任務方面“無能為力”,特別是需要在新環境中發現并重新構建抽象概念。

舉個例子,如果你只訓練AI計算三角形的屬性,那么,你訓練的AI系統永遠無法計算正方形或者其他沒有訓練過的形狀的屬性。

又比如下邊這道簡單的IQ測試題。

IQ測試給了DeepMind靈感,是不是也能用其測量AI的推理能力呢?

在以往解決通用學習系統努力的基礎上,DeepMind最新論文提出了一種如何測量機器模型認知能力的方法,并表達了關于泛化的一些重要見解。

要構建更好、更智能的系統,使得神經網絡能夠處理抽象概念,需要對其進行改進。

此方法的靈感來源于IQ測試。

創建抽象推理數據集

標準的人類智商測試中,通常要求測試者通過應用他們日常經驗學習的原則來解釋感知上簡單的視覺場景。

例如,人類測試者可能已經通過觀察植物或建筑物的增長,通過在數學課上學習加法,或通過跟蹤銀行余額獲取利息增長的情況來了解“漸進”(一些屬性能夠增加的概念)。

然后把這些感性認識上升到理性認識,從而對測試題進行推斷預測,例如圖形的數量、大小,甚至沿著序列增加顏色強度。

現在機器學習仍然無法理解一些看似簡單的“日常體驗”,這意味著,人類無法輕易地衡量AI將知識從現實世界轉移到視覺推理測試的能力。

基于此認知,DeepMind設計一個實驗,希望使人類視覺推理測試得到很好的利用。這一研究不是從日常生活到視覺推理問題(如人類測試)的知識轉移,而是研究知識從一組受控的視覺推理問題轉移到另一組問題。

為實現這一目標,DeepMind構建了一個用于創建矩陣問題的生成器,涉及一組抽象因子,包括“漸進”之類的關系以及“顏色”和“大小”等屬性。 雖然問題生成器使用了一小組潛在因子,但它仍然會產生大量獨特的問題。

接下來,DeepMind約束生成器可用的因子或組合,以便創建用于訓練和測試模型的不同問題集,以度量模型可以推廣到留存的測試集的程度。

例如,創建了一組謎題訓練集,其中只有在應用于線條顏色時才會遇到漸進關系,而在應用于形狀大小時會遇到測試集。如果模型在該測試集上表現良好,它將提供推斷和應用抽象概念的能力的證據,即使在之前從未見過進展的情況下也是如此。

有希望的抽象推理證據

在機器學習評估中應用的典型的泛化機制中,訓練和測試數據來自于相同的基礎分布,測試的所有網絡都表現出良好的泛化誤差,其中一些在略高于75%的情況下實現了令人印象深刻的絕對性能。性能最佳的網絡明確地計算了不同圖像面板之間的關系,并且并行地評估了每個潛在答案的適用性。DeepMind將此架構稱為Wild RelationNetwork(WReN)。

當需要在先前看到的屬性值之間使用屬性值“插值”來推理,以及在不熟悉的組合中應用已知的抽象關系時,模型的泛化效果顯著。然而,在“外推”機制中,同樣的網絡表現得糟糕得多,在這種情況下,測試集中的屬性值并不與訓練中看到的值處于相同的范圍內。

這種事情發生在當訓練集中有深顏色的物體而測試集中是淺顏色的物體的謎題中。當模型被訓練來應用以前所見的關系(比如形狀的數量)到一個新的屬性(如大小)時,泛化性能也會更糟。

最后,當訓練模型不僅預測正確的答案,而且還預測答案的“原因”(即應該考慮解決這個難題的特定關系和屬性)時,DeepMind稱觀察到了改進的泛化性能。

有趣的是,在中性分割中(the neutral split),模型的準確性與它推斷矩陣下正確關系的能力密切相關:當解釋正確時,模型會選擇當時正確的答案的概率為87%,但當它的解釋錯誤時,性能下降到只有32%。這表明,當模型正確地推斷出任務背后的抽象概念時,能夠獲得更好的性能。

更微妙的泛化方法

目前的文獻關注于基于神經網絡的機器學習方法的優缺點,通常是基于它們的能力或泛化的失敗。DeepMind的結果表明,得出關于泛化的普遍結論可能是沒有幫助的:測試的神經網絡在某些泛化狀態下表現得很好,而在其他狀態下表現得很差。

它們的成功是由一系列因素決定的,包括所使用的模型的架構,以及模型是否被訓練為其選擇的答案提供可解釋的“原因”。在幾乎所有的情況下,當需要推斷出超出其經驗的輸入或處理完全陌生的屬性時,系統表現很差;在這個至關重要的研究領域為未來的工作創造一個清晰的重點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4813

    瀏覽量

    103404
  • AI
    AI
    +關注

    關注

    88

    文章

    34963

    瀏覽量

    278439
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    11531

原文標題:學界 | DeepMind想用IQ題測試AI的抽象思維能力,進展還不錯

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI推理的存儲,看好SRAM?

    電子發燒友網報道(文/黃晶晶)近幾年,生成式AI引領行業變革,AI訓練率先崛起,帶動高帶寬內存HBM一飛沖天。但我們知道AI推理的廣泛應用才能推動A
    的頭像 發表于 03-03 08:51 ?1647次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲,看好SRAM?

    當我問DeepSeek AI爆發時代的FPGA是否重要?答案是......

    ,以減少數據傳輸到云端的需求,降低延遲和帶寬消耗。FPGA在邊緣計算中表現優異,能夠為嵌入式設備提供高效的AI推理能力。 ? 實時應用:在自動駕駛、工業自動化等需要實時數據處理的場景中,FPGA的低
    發表于 02-19 13:55

    AI大模型在汽車應用中的推理、降本與可解釋性研究

    佐思汽研發布《2024-2025年AI大模型及其在汽車領域的應用研究報告》。 推理能力成為大模型性能提升的驅動引擎 2024下半年以來,國內外大模型公司紛紛推出推理模型,通過以CoT為
    的頭像 發表于 02-18 15:02 ?1199次閱讀
    <b class='flag-5'>AI</b>大模型在汽車應用中的<b class='flag-5'>推理</b>、降本與可解釋性研究

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?687次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技術、市場與未來

    (reasoning)能力,這一轉變將極大推動上層應用的發展。 紅杉資本近期指出,在可預見的未來,邏輯推理推理時計算將是一個重要主題,并開啟生成式AI的下一階段。新一輪競賽已然開始。
    的頭像 發表于 01-20 11:16 ?819次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術、市場與未來

    ads1282是否能采集單端信號?

    ads1282是否能采集單端信號,有沒有相關資料。
    發表于 12-24 07:47

    請問ADS1292R是否能通過兩電極同時獲取ECG和呼吸波?

    最近有個心電胸貼項目打算使用ADS1292R作為數據采集芯片,有個困惑是ADS1292R是否能通過兩電極同時采集心電數據和呼吸波數據,如果,電路設計上需要什么特別的處理,謝謝!
    發表于 12-13 07:10

    DAC8551是否能實現低參考電壓下依舊保持較好的比例輸出?

    正在設計一款產品,原本采用DAC8551,在參考電壓很低的時候,輸出無法達到較好的比例輸出,現擬采用DAC8501,是否能實現低參考電壓下依舊保持較好的比例輸出?
    發表于 12-12 07:42

    74ALVC164245是否能支持速率為100Mbps的信號轉換呢?

    請幫忙確認74ALVC164245是否能支持速率為100Mbps的信號轉換呢,Datasheet上并沒有找到明確的描述,謝謝!
    發表于 12-11 06:51

    ADS1299怎么測試是否能正常工作,直接給他上電看電流值是否可以?

    對于ADS1299的裸芯片而言,怎么測試是否能正常工作,直接給他上電看電流值是否可以。 目前我將ADS1299的所有引腳引出,并連上AVDD(5V),AVSS(0V),AGND(0V),DVDD
    發表于 11-27 06:17

    ADS1282是否能沿用ADS1256的引腳連接方式?

    地震勘探中,計劃將把原來的設計ADS1256與STM32連接,現在換用ADS1282,請問是否能沿用ADS1256的引腳連接方式
    發表于 11-21 06:51

    DAC8568A和DAC8568C的代碼是否能通用?

    如題,DAC8568A和DAC8568C的代碼是否能通用?如果不通用,哪些地方需要做修改?謝謝
    發表于 11-14 06:06

    數字壓力表的準確度如何?是否適用于精密測量

    在工業和科研領域,壓力的測量工作至關重要,而數字壓力表因其直觀的數字顯示和高精度的特性,成為了這些領域不可或缺的測量工具。那么,數字壓力表的準確度到底如何,它是否能滿足精細測量的需求呢
    的頭像 發表于 11-07 13:58 ?666次閱讀
    數字壓力表的準確度如何?<b class='flag-5'>是否</b>適用于精密<b class='flag-5'>測量</b>?

    請問TLV320AIC3256 mini DSP是否能實現降噪算法?

    我想做一款設備實現雙MIC 降噪,請問TLV320AIC3256 mini DSP是否能實現降噪算法?如果不行,是否還有相近的芯片推薦
    發表于 10-24 08:01

    SDK里面是否能添加HPM5300系列芯片支持包?

    SDK里面是否能添加HPM5300系列芯片支持包?只發現板級支持包。
    發表于 09-27 10:01
    主站蜘蛛池模板: 国产在线精品观看一区 | 国产精品亚洲玖玖玖在线靠爱 | 国产h在线| 性配久久久| 亚洲男人的天堂久久无 | 四虎最新紧急更新地址 | 日韩二级| 午夜免费视频观看在线播放 | 手机在线视频观看 | 1000部啪啪未满十八勿入中国 | 五月天婷婷综合 | 福利姬 magnet | 天天干天天操天天爱 | a天堂中文在线 | 男人操女人在线观看 | 亚洲欧洲国产精品你懂的 | 午夜影院普通 | 色姑娘天天干 | 一级毛片免费不卡直观看 | 五月天婷婷色综合 | 婷婷四房播客五月天 | 77788色淫网站女女免费视频 | 看视频免费网址 | 国产精品欧美精品国产主播 | 上课被同桌强行摸下面小黄文 | 亚洲综合黄色 | 9久久99久久久精品齐齐综合色圆 | 99久久婷婷国产综合精品电影 | 全亚洲最大的777io影院 | 天天涩综合 | 色天使在线观看 | 天天综合色天天综合色sb | 亚洲婷婷综合色高清在线 | a站在线观看 | 国产亚洲精品久久久极品美女 | 午夜影院免费观看视频 | 国产美女被艹 | 99成人 | 五月天婷五月天综合网在线 | 情趣店上班h系列小说 | 国产福利影视 |