在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

初探AI測(cè)試分析

Testin云測(cè) ? 來(lái)源:Testin云測(cè) ? 2024-11-12 10:25 ? 次閱讀

人工智能中,算法不只是用代碼敲出來(lái)這么簡(jiǎn)單的,而是由訓(xùn)練數(shù)據(jù)、標(biāo)簽神經(jīng)網(wǎng)絡(luò)的結(jié)合產(chǎn)生的,這是機(jī)器學(xué)習(xí)的本質(zhì)。算法本身沒(méi)有直接洞察力,也不能直接像缺陷一樣被修復(fù):它屬于“黑盒開(kāi)發(fā)”。

人工智能系統(tǒng)需要具備應(yīng)用于不同數(shù)據(jù)和不同應(yīng)用場(chǎng)景的能力。訓(xùn)練數(shù)據(jù)和標(biāo)簽的選擇會(huì)引起偏差和透明度的風(fēng)險(xiǎn),可能對(duì)真實(shí)情況產(chǎn)生重大影響。測(cè)試人工智能的重點(diǎn)在于這些風(fēng)險(xiǎn)。人工智能測(cè)試需要道德、社會(huì)和意識(shí),以突出用戶、預(yù)期,并將這些預(yù)期轉(zhuǎn)化為可重復(fù)運(yùn)行和自動(dòng)化的測(cè)試用例。人工智能測(cè)試包括設(shè)置指標(biāo),將測(cè)試結(jié)果轉(zhuǎn)化為對(duì)系統(tǒng)的有意義和可量化的評(píng)估,以便開(kāi)發(fā)人員優(yōu)化系統(tǒng)。

1. 介紹

毫無(wú)疑問(wèn),未來(lái)屬于人工智能。它已經(jīng)進(jìn)入了我們的日常生活,并被世界各地的大公司所使用。人工智能的適用性似乎無(wú)窮無(wú)盡。然而,仍然存在許多疑慮和擔(dān)憂。例如,在自動(dòng)駕駛汽車的情況下:事故責(zé)任、不穩(wěn)定的物體識(shí)別以及與不可預(yù)測(cè)的人類交通參與者的復(fù)雜互動(dòng)阻礙了它的廣泛推廣。人工智能的一些可能令人恐懼的影響已經(jīng)顯現(xiàn)出來(lái)。人工智能算法可以制造和擴(kuò)大偏差。例如,在緬甸的種族清洗中,數(shù)以萬(wàn)計(jì)的羅興亞人被殺害,100萬(wàn)人流離失所。Facebook算法支持了已經(jīng)存在的種族緊張局勢(shì),這偏差觀點(diǎn)得到強(qiáng)化,因?yàn)樗粌?yōu)化為點(diǎn)擊成功則被獎(jiǎng)勵(lì)。負(fù)面信息在搜索結(jié)果中越來(lái)越多地出現(xiàn)。每個(gè)AI軟件開(kāi)發(fā)人員都在與這些疑慮和風(fēng)險(xiǎn)作斗爭(zhēng)。AI測(cè)試,什么是缺陷,如何修復(fù)它?如何確保系統(tǒng)在各種輸入做正確的事情?如何獲得正確率的信心?結(jié)果對(duì)所有相關(guān)方公平嗎?當(dāng)前的發(fā)展、觀點(diǎn)和價(jià)值觀是否反映在算法中?從測(cè)試的角度來(lái)看,AI的最大風(fēng)險(xiǎn)是什么,如何處理這些風(fēng)險(xiǎn)?

2. 介紹

2.1. AI 屬于黑盒開(kāi)發(fā)

在人工智能中,算法、系統(tǒng)在標(biāo)準(zhǔn)、決策和行動(dòng)方面的行為,并沒(méi)有明確地體現(xiàn)在代碼中。在非人工智能開(kāi)發(fā)中,代碼直接表達(dá)了算法。在人工智能中,算法是訓(xùn)練數(shù)據(jù)、參數(shù)化、標(biāo)簽和神經(jīng)網(wǎng)絡(luò)選擇的產(chǎn)物,而且無(wú)法在代碼中體現(xiàn)。代碼、神經(jīng)網(wǎng)絡(luò)只是通過(guò)訓(xùn)練產(chǎn)生算法的系統(tǒng)的一個(gè)組成部分,這是機(jī)器學(xué)習(xí)的本質(zhì)。

2.2. 機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)和人類學(xué)習(xí)之間有很強(qiáng)的相似性。以一個(gè)孩子第一次學(xué)習(xí)使用一個(gè)概念為例。這個(gè)孩子被告知,它抱著的毛茸茸的生物是一只“貓”。現(xiàn)在,這個(gè)孩子開(kāi)始用自己的神經(jīng)網(wǎng)絡(luò)工作。貓的概念與不是貓的物體(如“爸爸”)進(jìn)行比較。神經(jīng)網(wǎng)絡(luò)的工作方式是找到一種配置自己的方法,如果它看到貓,它會(huì)將其歸類為貓,而不是爸爸。它通過(guò)找到差異、標(biāo)準(zhǔn)(如皮毛、胡須、四條腿等)來(lái)做到這一點(diǎn)。但我們不知道這些標(biāo)準(zhǔn)到底是什么。它們也可能是“捉老鼠”、“呼嚕聲”或“白色”。我們無(wú)法在大腦中找到貓的概念及其標(biāo)準(zhǔn),也無(wú)法直接在大腦中糾正它。

神經(jīng)網(wǎng)絡(luò)由許多代碼塊(“節(jié)點(diǎn)”)組成,這些代碼塊按層排列,每個(gè)節(jié)點(diǎn)層都連接到其上下層。節(jié)點(diǎn)沒(méi)有被預(yù)先編程以執(zhí)行特定任務(wù)。節(jié)點(diǎn)只是小型的計(jì)算器,處理頂層呈現(xiàn)給它們的部分并返回計(jì)算結(jié)果。給定兩張圖片,一張是貓,一張是爸爸,它將嘗試不同的配置,以找到一種配置,將一個(gè)樣本識(shí)別為貓,另一個(gè)樣本識(shí)別為爸爸。它將找出差異,以便其配置將在下一次給出正確的分類。

2.3. 算法=數(shù)據(jù)+編碼+標(biāo)簽

因此,該系統(tǒng)產(chǎn)生的算法由從樣本中衍生出的模型組成,因此它可以對(duì)輸入進(jìn)行分類和識(shí)別,并給它們打標(biāo)簽。該算法是神經(jīng)網(wǎng)絡(luò)的產(chǎn)物,但主要基于訓(xùn)練數(shù)據(jù)和標(biāo)簽。因此,算法不是代碼,而是代碼+訓(xùn)練數(shù)據(jù)+標(biāo)簽。

2.4. 模糊邏輯和數(shù)學(xué)

雖然整個(gè)系統(tǒng)所做的只是計(jì)算,產(chǎn)生數(shù)字,但這些數(shù)字不會(huì)產(chǎn)生布爾結(jié)果:例如:“這是爸爸”或“這是一只貓”。結(jié)果將是從節(jié)點(diǎn)和層中計(jì)算的所有數(shù)字的總和,每個(gè)數(shù)字都表示根據(jù)每個(gè)給定的標(biāo)簽滿足標(biāo)準(zhǔn)的程度。這幾乎不可能(在0-1區(qū)間)達(dá)到1。其次,它還會(huì)給樣本給出評(píng)分。因此,呈現(xiàn)給系統(tǒng)的新圖片可能會(huì)將“貓性”評(píng)為0.87,將“爸爸性”評(píng)為0.13。結(jié)論是,樣本是一只貓,但它不是100%的貓,也不是0%的爸爸。因此,人工智能的最終產(chǎn)品是計(jì)算、概率,而不是100%的確定性。

2.5. 開(kāi)發(fā)與糾錯(cuò)

神經(jīng)網(wǎng)絡(luò)的開(kāi)發(fā)包括開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)本身,但大多數(shù)開(kāi)發(fā)人員使用現(xiàn)成的神經(jīng)網(wǎng)絡(luò)。接下來(lái),他們需要配置神經(jīng)網(wǎng)絡(luò),使其能夠接收手工的輸入并配置標(biāo)簽。最后,神經(jīng)網(wǎng)絡(luò)的層可以參數(shù)化:計(jì)算結(jié)果可以加權(quán),以便某些結(jié)果對(duì)最終結(jié)果的影響比其他結(jié)果更大。這些是開(kāi)發(fā)人員擁有的主要調(diào)整工具。如果系統(tǒng)表現(xiàn)不令人滿意,則可以調(diào)整參數(shù)。這不是一個(gè)重點(diǎn)的缺陷修復(fù),而是糾正一個(gè)缺陷決策的例子。參數(shù)化將影響結(jié)果,但每次調(diào)整都會(huì)對(duì)整體性能產(chǎn)生影響。在人工智能中,存在大量的“回歸”:對(duì)不打算改變的系統(tǒng)部分產(chǎn)生不必要和意想不到的影響。訓(xùn)練數(shù)據(jù)和標(biāo)簽也可能成為影響系統(tǒng)的候選因素。在人工智能的某些問(wèn)題上,例如欠擬合,擴(kuò)大訓(xùn)練數(shù)據(jù)很可能會(huì)改善系統(tǒng)。欠擬合指的是模型無(wú)法很好地?cái)M合訓(xùn)練數(shù)據(jù),無(wú)法捕捉到數(shù)據(jù)中的真實(shí)模式和關(guān)系。欠擬合可以比喻為一個(gè)學(xué)生連基本的知識(shí)都沒(méi)有掌握好,無(wú)論是老題還是新題都無(wú)法解答。這種情況下,模型過(guò)于簡(jiǎn)單或者復(fù)雜度不足,無(wú)法充分學(xué)習(xí)數(shù)據(jù)中的特征和模式。

2.6. 整體評(píng)估和指標(biāo)

當(dāng)缺陷修正無(wú)法聚焦,每次微調(diào)都會(huì)導(dǎo)致大規(guī)模回歸時(shí),大規(guī)模回歸測(cè)試是必要的。問(wèn)題“我們是否修復(fù)了這個(gè)缺陷?”成為一個(gè)次要問(wèn)題。我們想知道每次更改后的整體行為。我們想知道與其他版本相比,系統(tǒng)的整體性能如何。在整體評(píng)估中,我們需要考慮AI的輸出:計(jì)算結(jié)果既不是真也不是假。每個(gè)結(jié)果都是一個(gè)等級(jí)。因此,最終結(jié)果應(yīng)該進(jìn)行全面比較、權(quán)衡和合并,以便我們可以決定一個(gè)版本是否優(yōu)于另一個(gè)版本,是否應(yīng)該使用它。結(jié)果將是基于預(yù)期和它們相對(duì)重要性的輸出價(jià)值的度量。

3. AI風(fēng)險(xiǎn)

我們將在這里討論最重要的風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)是人工智能的典型風(fēng)險(xiǎn),可能會(huì)對(duì)人工智能的質(zhì)量、客戶、用戶、人們甚至世界產(chǎn)生嚴(yán)重影響。在開(kāi)始測(cè)試之前,應(yīng)該考慮這些風(fēng)險(xiǎn),為測(cè)試人員提供重點(diǎn)提示。在分析測(cè)試結(jié)果時(shí),應(yīng)該考慮這些風(fēng)險(xiǎn)。

作為對(duì)意外結(jié)果的因果分析,這可以為優(yōu)化系統(tǒng)提供線索。例如:欠擬合的系統(tǒng)最需要更多樣化的訓(xùn)練數(shù)據(jù),過(guò)擬合的系統(tǒng)需要簡(jiǎn)化標(biāo)簽。

3.1. 偏差

人工智能的主要風(fēng)險(xiǎn)是“偏差”的類型。在人類智能中,我們稱之為偏差。由于訓(xùn)練數(shù)據(jù)和概念的限制,我們看待事物過(guò)于簡(jiǎn)單(簡(jiǎn)化)或存在(偏差)。概念的高粒度可能意味著系統(tǒng)無(wú)法充分概括,導(dǎo)致結(jié)果毫無(wú)用處。

3.1.1. 選擇偏差

如果訓(xùn)練數(shù)據(jù)選擇遺漏了現(xiàn)實(shí)世界中的重要元素,這可能會(huì)導(dǎo)致選擇偏差。與實(shí)際結(jié)果相比,上次歐洲選舉的民意調(diào)查預(yù)測(cè),荷蘭的歐洲懷疑黨將獲得比實(shí)際選舉高得多的勝利。民意調(diào)查沒(méi)有過(guò)濾人們是否真的會(huì)投票。歐洲懷疑論者被證明比其他選民更有可能不投票。

3.1.2. 固定偏差

急于驗(yàn)證一個(gè)高度相信或投入的假設(shè)可能會(huì)導(dǎo)致選擇或過(guò)度重視證實(shí)該論點(diǎn)的數(shù)據(jù),而忽視可能存在的缺陷。科學(xué)家、政客和產(chǎn)品開(kāi)發(fā)者可能容易受到這種偏差的影響,即使他們有最好的意圖。一個(gè)醫(yī)療援助組織為了籌集更多資金,夸大了可能的糧食危機(jī),顯示死亡人數(shù)上升,但沒(méi)有顯示與饑荒和總?cè)丝跀?shù)無(wú)關(guān)的死亡人數(shù)。

3.1.3. 欠擬合

缺乏多樣性的訓(xùn)練數(shù)據(jù)會(huì)導(dǎo)致欠擬合。學(xué)習(xí)過(guò)程將無(wú)法確定關(guān)鍵的判別標(biāo)準(zhǔn)。訓(xùn)練軟件識(shí)別狼和狗,將哈士奇識(shí)別為狼,因?yàn)樗鼪](méi)有學(xué)到狗也可以在雪中看到。如果我們只在荷蘭獲得與毒品相關(guān)的新聞信息,會(huì)發(fā)生什么?

3.1.4. 過(guò)擬合

當(dāng)標(biāo)簽對(duì)于人工智能系統(tǒng)的目的來(lái)說(shuō)過(guò)于多樣化和多樣化時(shí),就會(huì)出現(xiàn)過(guò)度擬合。過(guò)擬合(Overfitting)指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得過(guò)于優(yōu)秀,但在未見(jiàn)數(shù)據(jù)上表現(xiàn)較差。過(guò)擬合可以比喻為一個(gè)學(xué)生死記硬背了一本題庫(kù)的所有答案,但當(dāng)遇到新的題目時(shí)無(wú)法正確回答。這種情況下,模型對(duì)于訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)過(guò)于敏感,導(dǎo)致了過(guò)度擬合的現(xiàn)象。

3.1.5. 異常值

異常值是極端的例子,對(duì)算法有太大的影響。如果你的1歲大的孩子看到的第一只貓是無(wú)毛貓,這將對(duì)他對(duì)貓的概念產(chǎn)生重大影響,需要用多個(gè)正常貓的例子來(lái)糾正。

3.1.6. 混淆變量

模式識(shí)別和分析通常需要結(jié)合數(shù)據(jù),特別是當(dāng)尋找因果關(guān)系時(shí)。當(dāng)不同數(shù)據(jù)模式因數(shù)據(jù)分析目的而相關(guān)聯(lián)而沒(méi)有實(shí)際因果關(guān)系時(shí),混淆變量就會(huì)出現(xiàn)。人們通常認(rèn)為,喝紅葡萄酒會(huì)引起偏頭痛發(fā)作,因?yàn)閾?jù)報(bào)道,喝紅葡萄酒和偏頭痛是相繼發(fā)生的。新研究表明,偏頭痛發(fā)作是由食欲變化引起的,如對(duì)紅葡萄酒的渴望。喝紅葡萄酒是一種副作用,而不是偏頭痛的原因!

3.2. 可追溯性

對(duì)于非人工智能系統(tǒng),算法就是代碼。對(duì)于人工智能系統(tǒng),情況并非如此,因此我們不知道人工智能系統(tǒng)做出決策的確切標(biāo)準(zhǔn)。此外,很難監(jiān)督訓(xùn)練數(shù)據(jù)的總體情況,因此很難很好地了解人工智能系統(tǒng)將如何表現(xiàn)。因此,當(dāng)結(jié)果明顯不正確時(shí),很難確定原因并糾正。是訓(xùn)練數(shù)據(jù)、參數(shù)、神經(jīng)網(wǎng)絡(luò)還是標(biāo)簽?可追溯性的缺乏導(dǎo)致過(guò)度自信和信心不足,并導(dǎo)致責(zé)任的不確定性(是軟件、數(shù)據(jù)、標(biāo)簽還是上下文造成的?)以及缺乏可維護(hù)性。

4. 測(cè)試AI

減輕人工智能風(fēng)險(xiǎn)的關(guān)鍵是透明度。在偏差方面,我們需要了解訓(xùn)練數(shù)據(jù)和標(biāo)簽的代表性,但最重要的是,我們需要了解期望和結(jié)果對(duì)所有相關(guān)方的重要性如何反映在結(jié)果中。建立適當(dāng)程度的信心和可追溯性也需要透明度。通過(guò)照亮代碼,將無(wú)法實(shí)現(xiàn)透明度。即使這是可能的,通過(guò)顯示代碼的熱圖,表明當(dāng)分析對(duì)象的特定部分或產(chǎn)生層中的計(jì)算時(shí),神經(jīng)網(wǎng)絡(luò)的哪個(gè)部分是活躍的,這意味著幾乎什么都沒(méi)有。觀察大腦內(nèi)部將永遠(yuǎn)不會(huì)顯示思想或決定。它可以顯示哪個(gè)部分被激活,但所有的心理過(guò)程都涉及多個(gè)大腦部分,最重要的是過(guò)去的經(jīng)驗(yàn)。人工智能系統(tǒng)是黑盒子,因此我們應(yīng)該像在黑盒測(cè)試中一樣測(cè)試它們:從外部,開(kāi)發(fā)基于現(xiàn)實(shí)輸入的測(cè)試用例。從那里確定對(duì)輸出的期望。聽(tīng)起來(lái)很傳統(tǒng),很熟悉,不是嗎?測(cè)試人工智能的基本邏輯可能很熟悉,具體的任務(wù)和元素卻大不相同。

傳統(tǒng)上,需求和規(guī)格是預(yù)先確定的,測(cè)試人員在開(kāi)始時(shí)就可以使用它們。在人工智能中,需求和規(guī)格是如此多樣化和動(dòng)態(tài),以至于不能期望它們?cè)陂_(kāi)始時(shí)完全和一次就確定。產(chǎn)品所有者和業(yè)務(wù)顧問(wèn)應(yīng)該交付需求,但測(cè)試人員需要采取主動(dòng),以他們需要的形式、粒度和現(xiàn)實(shí)性獲得需求。

4.1. 神經(jīng)網(wǎng)絡(luò)、訓(xùn)練數(shù)據(jù)和標(biāo)簽

靜態(tài)測(cè)試可以及早發(fā)現(xiàn)缺陷。可以選擇神經(jīng)網(wǎng)絡(luò):有哪些替代方案?對(duì)于這項(xiàng)審查,需要對(duì)所有可能的神經(jīng)網(wǎng)絡(luò)及其特定質(zhì)量和缺點(diǎn)有廣泛的了解。訓(xùn)練數(shù)據(jù)和標(biāo)簽可以審查和評(píng)估風(fēng)險(xiǎn)敏感性:

1. 數(shù)據(jù)是否很好地反映了現(xiàn)實(shí)生活中的數(shù)據(jù)來(lái)源、用戶、視角和價(jià)值觀?是否有被忽視的相關(guān)數(shù)據(jù)來(lái)源?研究結(jié)果可能表明選擇偏差、確認(rèn)偏差或不足。

2. 數(shù)據(jù)來(lái)源和數(shù)據(jù)類型是否平均分配?不同類型、不同組別的代表性如何?研究結(jié)果可能表明不足、選擇偏差、確認(rèn)偏差或異常值。

3. 標(biāo)簽是否公平地反映了現(xiàn)實(shí)生活中的群體或數(shù)據(jù)類型?標(biāo)簽是否與系統(tǒng)應(yīng)分析的現(xiàn)實(shí)情況或模式相匹配?研究結(jié)果可能表明過(guò)度擬合、不足或混淆變量。

4. 數(shù)據(jù)是否足夠?期望的刷新速率是多少?是否匹配?現(xiàn)實(shí)世界中是否有事件在數(shù)據(jù)中沒(méi)有得到充分反映?

4.2. 識(shí)別用戶

該系統(tǒng)的所有者并不是唯一有價(jià)值的視角!像搜索系統(tǒng)這樣的AI系統(tǒng)是其用戶世界的重要組成部分,也是那些被其“貼標(biāo)簽”的人的重要組成部分。AI系統(tǒng)的質(zhì)量可能具有道德、社會(huì)和政治方面的意義和影響,因此需要加以考慮。AI的用戶往往是多樣化的,很難知道。他們不是一組固定的訓(xùn)練有素的用戶,他們不會(huì)聚集在一個(gè)房間里,他們的行為和期望是可以管理的。他們可能是整個(gè)世界,就像搜索引擎的情況一樣:一個(gè)訪問(wèn)阿姆斯特丹的美國(guó)游客或一個(gè)經(jīng)驗(yàn)豐富的藝術(shù)愛(ài)好者在搜索“珍珠女孩”時(shí),他們的需求和期望非常不同。

一個(gè)博物館的搜索引擎。游客想知道一張?zhí)囟ǖ膱D片是否用于展示,藝術(shù)愛(ài)好者也想了解背景信息和草圖。接下來(lái):隨著世界的變化,用戶和他們的期望可能會(huì)在一夜之間發(fā)生變化。想想巴黎圣母院的大火對(duì)那些搜索“巴黎圣母院”或“巴黎大火”的用戶可能有什么影響。AI在DNA序列中識(shí)別病毒應(yīng)該考慮到不斷發(fā)生的可能突變。因此,測(cè)試AI首先要確定用戶或系統(tǒng)輸出將被使用的視角。這意味著研究系統(tǒng)使用的數(shù)據(jù)分析,采訪流程所有者或采訪真實(shí)用戶。

4.3. 分析用戶

識(shí)別用戶或數(shù)據(jù)組是一回事,確定他們想要什么、期望什么、需要什么、害怕什么或會(huì)如何表現(xiàn)是另一回事。測(cè)試人員需要的是用戶和視角的簡(jiǎn)介:他們的背景是什么,他們想要什么,什么會(huì)讓他們反感或不安,他們有什么期望?一種創(chuàng)建簡(jiǎn)介的技術(shù)是“Persona”。這種技術(shù)的關(guān)鍵是不要考慮整個(gè)用戶組,而是從該組中選擇一個(gè)人,并盡可能使其具體化。Persona的好處是,它讓用戶變得栩栩如生。這是一種從內(nèi)到外考慮用戶視角的技術(shù)。例如:美國(guó)游客的Persona可以是喬,一個(gè)水管工,住在芝加哥,白人,45歲,已婚,有兩個(gè)孩子。他讀書(shū)不多,但喜歡色彩鮮艷、制作精良的繪畫(huà)。他的愛(ài)好是釣魚(yú)和翻新舊音響設(shè)備。

4.4. 創(chuàng)建測(cè)試用例

對(duì)于測(cè)試人員來(lái)說(shuō),這部分可能是大部分工作。根據(jù)每個(gè)用戶的個(gè)人資料,輸入和預(yù)期輸出被確定下來(lái)。良好的個(gè)人資料將提供一個(gè)良好的基礎(chǔ),但可能需要來(lái)自研究和訪談的額外信息。識(shí)別測(cè)試用例永遠(yuǎn)不會(huì)是完整的,也不會(huì)是決定性的:你不能測(cè)試一切,在人工智能領(lǐng)域也是如此。世界和用戶都在變化,因此需要在需求中反映出這一點(diǎn)。它從最重要的案例開(kāi)始;它將不斷增長(zhǎng),需要永久維護(hù)。

4.5. 測(cè)試數(shù)據(jù)

使用哪些測(cè)試數(shù)據(jù)以及是否可以創(chuàng)建、發(fā)現(xiàn)或操作這些數(shù)據(jù)取決于上下文和生產(chǎn)數(shù)據(jù)的可用性。數(shù)據(jù)創(chuàng)建或操作(如圖像識(shí)別)是很難做到的,有時(shí)是無(wú)用的,甚至是適得其反的。使用工具來(lái)操作或創(chuàng)建圖像會(huì)帶來(lái)額外的變量,這可能會(huì)產(chǎn)生偏差!測(cè)試數(shù)據(jù)對(duì)現(xiàn)實(shí)世界圖片的代表性如何?如果算法在創(chuàng)建的數(shù)據(jù)中識(shí)別出只能在測(cè)試數(shù)據(jù)中找到的方面,測(cè)試的價(jià)值就會(huì)受到影響。AI測(cè)試人員從真實(shí)數(shù)據(jù)中創(chuàng)建測(cè)試數(shù)據(jù)集,并嚴(yán)格地將這些數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分開(kāi)。由于AI系統(tǒng)是動(dòng)態(tài)的,它所使用的世界是動(dòng)態(tài)的,測(cè)試數(shù)據(jù)必須定期更新。

4.6. 度量

人工智能的輸出不是布爾值:它們是所有可能結(jié)果(標(biāo)簽)的計(jì)算結(jié)果。要確定系統(tǒng)的性能,僅僅確定哪個(gè)標(biāo)簽的得分最高是不夠的。指標(biāo)是必要的。以圖像識(shí)別為例:我們想知道一張貓的圖片是否會(huì)被識(shí)別為貓。在實(shí)踐中,這意味著標(biāo)簽“貓”的得分將高于“狗”。如果貓的得分是0.43,狗的得分是0.41,那么貓就贏了。但得分之間的微小差異可能表明故障概率。在搜索引擎中,我們想知道頂部的結(jié)果是否是用戶期望的前1名,但如果前1名的結(jié)果是列表中的第2名,聽(tīng)起來(lái)就不對(duì),但仍然比第3名要好。我們想知道所有相關(guān)結(jié)果是否都在前10名(這被稱為精確度),或者前10名中沒(méi)有冒犯性的結(jié)果。根據(jù)上下文,我們需要用指標(biāo)來(lái)處理AI系統(tǒng)的輸出,對(duì)其性能進(jìn)行評(píng)估。測(cè)試人員需要具備確定相關(guān)指標(biāo)并將其納入測(cè)試的能力。

4.7. 權(quán)重和契約

對(duì)人工智能系統(tǒng)的總體評(píng)估還必須納入相對(duì)重要性。與任何測(cè)試一樣,一些結(jié)果比其他結(jié)果更重要。想想具有高度道德影響的結(jié)果,比如種族偏差。作為設(shè)計(jì)測(cè)試用例的一部分,它們對(duì)總體評(píng)估的權(quán)重應(yīng)根據(jù)風(fēng)險(xiǎn)和對(duì)用戶的重要性來(lái)確定。測(cè)試人員需要對(duì)這些風(fēng)險(xiǎn)敏感,能夠識(shí)別它們,將其轉(zhuǎn)化為測(cè)試用例和指標(biāo)。他們需要了解系統(tǒng)使用情況和用戶心理的背景。人工智能測(cè)試人員需要同理心和世界意識(shí)。

在電影《機(jī)械戰(zhàn)警》中,墨菲警官的系統(tǒng)中有一個(gè)“首要指令”程序:如果他試圖逮捕他所在公司的董事總經(jīng)理,他的系統(tǒng)就會(huì)關(guān)閉。人工智能系統(tǒng)也可以有“首要指令”,或者出現(xiàn)無(wú)法接受的結(jié)果,比如冒犯性語(yǔ)言、色情網(wǎng)站或撞倒行人。我們稱之為“契約”:在測(cè)試結(jié)果中,這些可能不需要的結(jié)果應(yīng)該被標(biāo)簽為阻止問(wèn)題,或者至少應(yīng)該被給予很高的權(quán)重。

4.8. 測(cè)試自動(dòng)化

人工智能測(cè)試需要大量的自動(dòng)化。測(cè)試用例的數(shù)量要求它這樣做,并且需要對(duì)新版本進(jìn)行重復(fù)測(cè)試。當(dāng)人工智能系統(tǒng)不斷訓(xùn)練時(shí),測(cè)試是必要的,就像搜索引擎的情況一樣,其中存在來(lái)自實(shí)際數(shù)據(jù)的反饋回路。但是,即使當(dāng)人工智能系統(tǒng)沒(méi)有不斷訓(xùn)練并且系統(tǒng)版本穩(wěn)定時(shí),不斷變化的環(huán)境也需要不斷訓(xùn)練。即使系統(tǒng)沒(méi)有改變,世界也會(huì)改變。測(cè)試自動(dòng)化包括一個(gè)測(cè)試框架,測(cè)試用例將在人工智能系統(tǒng)上運(yùn)行,并且人工智能系統(tǒng)的輸出將被處理。以下是一個(gè)測(cè)試框架的基本設(shè)置。

4.9. 整體評(píng)估和優(yōu)化輸入

測(cè)試的結(jié)果不僅僅是一份需要修復(fù)的缺陷清單。如上文所述,如果沒(méi)有嚴(yán)重的回歸,缺陷是無(wú)法直接修復(fù)的。人工智能系統(tǒng)必須作為一個(gè)整體進(jìn)行評(píng)估,因?yàn)殡S著許多測(cè)試用例和回歸,沒(méi)有哪個(gè)版本是完美的。如果一個(gè)新版本比舊版本更好,程序員希望知道該采用哪個(gè)版本。因此,測(cè)試結(jié)果應(yīng)該綜合成一個(gè)總結(jié)果:一個(gè)量化分?jǐn)?shù)。為了給程序員提供如何調(diào)整(訓(xùn)練數(shù)據(jù)、標(biāo)簽、參數(shù)化)的指導(dǎo),他們需要知道需要改進(jìn)的領(lǐng)域。這是我們可以接近缺陷修復(fù)的地方。我們需要度量、權(quán)衡和契約來(lái)實(shí)現(xiàn)有意義的總體評(píng)分和優(yōu)化線索。應(yīng)該分析低分測(cè)試用例的原因:是過(guò)擬合、欠擬合還是其他風(fēng)險(xiǎn)領(lǐng)域?

4.10. AI測(cè)試示例

167e5be8-905a-11ef-a511-92fbcf53809c.png

從左上到右下,然后從右上到左下:

1. 識(shí)別用戶群體

2. 為每個(gè)用戶群體創(chuàng)建角色

3. 寫測(cè)試用例:根據(jù)每個(gè)用戶組輸入的預(yù)期頂級(jí)結(jié)果、非預(yù)期結(jié)果、度量和權(quán)重,在AI系統(tǒng)中運(yùn)行測(cè)試用例

4. 處理結(jié)果

5. 根據(jù)每個(gè)測(cè)試用例的總權(quán)重創(chuàng)建測(cè)試結(jié)果

6. 將結(jié)果與以前版本的結(jié)果進(jìn)行比較

5. 總結(jié)

人工智能的世界非常動(dòng)態(tài):算法不等同于代碼,而是訓(xùn)練數(shù)據(jù)和標(biāo)簽的結(jié)果。隨著世界的變化,訓(xùn)練數(shù)據(jù)將不斷更新。人工智能的輸出不是布爾值,而是所有標(biāo)簽的計(jì)算結(jié)果,這些結(jié)果可能都是相關(guān)的。盡管存在低透明度和偏差風(fēng)險(xiǎn),但人工智能正被用于決策,是人們世界的重要組成部分。測(cè)試人員必須通過(guò)確定用戶群體及其特定期望和需求,并展示系統(tǒng)如何反映這些期望和需求,在創(chuàng)建透明度方面發(fā)揮作用。為此,需要一個(gè)自動(dòng)測(cè)試框架來(lái)比較人工智能系統(tǒng)的許多版本,不斷監(jiān)測(cè)生產(chǎn)質(zhì)量,并為優(yōu)化提供指導(dǎo)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 測(cè)試
    +關(guān)注

    關(guān)注

    8

    文章

    5633

    瀏覽量

    128320
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34256

    瀏覽量

    275411

原文標(biāo)題:淺析AI測(cè)試

文章出處:【微信號(hào):TestinChina,微信公眾號(hào):Testin云測(cè)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI智能眼鏡產(chǎn)業(yè)鏈分析

    電子發(fā)燒友網(wǎng)站提供《AI智能眼鏡產(chǎn)業(yè)鏈分析.pdf》資料免費(fèi)下載
    發(fā)表于 05-19 17:25 ?382次下載

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    基石。 Neuron Studio打造全流程一站式開(kāi)發(fā)體驗(yàn),為AI應(yīng)用開(kāi)發(fā)按下加速鍵 AI 應(yīng)用的開(kāi)發(fā)瓶頸,從來(lái)都不是“點(diǎn)的問(wèn)題”,而是“鏈的問(wèn)題”:開(kāi)發(fā)工具碎片化,調(diào)優(yōu)過(guò)程靠手動(dòng),單模型分析效率低
    發(fā)表于 04-13 19:52

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用

    學(xué)習(xí)、自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)等先進(jìn)技術(shù)提供的強(qiáng)大的數(shù)據(jù)處理和分析能力。 在視頻應(yīng)用開(kāi)發(fā)中,AI Agent可以用于視頻內(nèi)容分析、推薦、編輯等。 下面跟隨作者的指導(dǎo),使用語(yǔ)聚
    發(fā)表于 03-05 19:52

    霍爾電流傳感器的原邊端如何接入AI大模型?

    霍爾電流傳感器的原邊端如何接入AI大模型,以便AI分析問(wèn)題解決問(wèn)題?話題會(huì)不會(huì)太超前?現(xiàn)在正式AI風(fēng)口啊,豬都要起飛了
    發(fā)表于 03-03 15:18

    AI賦能邊緣網(wǎng)關(guān):開(kāi)啟智能時(shí)代的新藍(lán)海

    的引入徹底改變了這一局面。通過(guò)在邊緣網(wǎng)關(guān)集成AI芯片和算法模型,使其具備了實(shí)時(shí)數(shù)據(jù)分析、智能決策和自主控制能力。在工業(yè)質(zhì)檢場(chǎng)景中,搭載AI算法的邊緣網(wǎng)關(guān)能夠?qū)崟r(shí)識(shí)別產(chǎn)品缺陷,將檢測(cè)效率提升300%以上
    發(fā)表于 02-15 11:41

    玩美移動(dòng)AI解決方案再拓展:全新AI卷發(fā)分析,將AI發(fā)質(zhì)檢測(cè)技術(shù)推向新高度

    作為玩美移動(dòng)AI發(fā)質(zhì)分析解決方案的新成員,AI卷發(fā)分析方案助力品牌為消費(fèi)者提供個(gè)性化的產(chǎn)品推薦。此外,該技術(shù)還結(jié)合了諸如發(fā)質(zhì)分析、發(fā)長(zhǎng)
    的頭像 發(fā)表于 02-13 16:42 ?264次閱讀

    MLCommons推出AI基準(zhǔn)測(cè)試0.5版

    開(kāi)放式機(jī)器學(xué)習(xí)工程聯(lián)盟 MLCommons 在美國(guó)加州當(dāng)?shù)貢r(shí)間公布推出適用于消費(fèi)類 PC 的 AI 性能的 MLPerf Client 基準(zhǔn)測(cè)試的 0.5 版,這是該測(cè)試的第一個(gè)公開(kāi)版本
    的頭像 發(fā)表于 12-12 16:47 ?756次閱讀

    智慧交通AI監(jiān)控視頻分析應(yīng)用方案

    隨著社會(huì)的進(jìn)步和科技的不斷發(fā)展,互聯(lián)網(wǎng)技術(shù)和AI視覺(jué)分析技術(shù)日益成熟,為傳統(tǒng)交通監(jiān)控領(lǐng)域帶來(lái)了新的發(fā)展機(jī)遇。AI視覺(jué)分析技術(shù)的引入,不僅提升了交通監(jiān)控的智能化和自動(dòng)化水平,還顯著減輕了
    的頭像 發(fā)表于 11-29 14:12 ?561次閱讀
    智慧交通<b class='flag-5'>AI</b>監(jiān)控視頻<b class='flag-5'>分析</b>應(yīng)用方案

    云端AI開(kāi)發(fā)環(huán)境分析

    當(dāng)今,云端AI開(kāi)發(fā)環(huán)境作為支撐AI技術(shù)快速迭代與應(yīng)用部署的關(guān)鍵基礎(chǔ)設(shè)施,扮演著至關(guān)重要的角色。下面,AI部落小編為您分析云端AI開(kāi)發(fā)環(huán)境。
    的頭像 發(fā)表于 11-25 10:27 ?441次閱讀

    AI模型托管原理分析

    AI模型托管是指將訓(xùn)練好的AI模型部署在云端或邊緣服務(wù)器上,由第三方平臺(tái)提供模型運(yùn)行、管理和優(yōu)化等服務(wù)。以下,AI部落小編將對(duì)AI模型托管的原理進(jìn)行詳細(xì)
    的頭像 發(fā)表于 11-07 09:33 ?736次閱讀

    AI模型市場(chǎng)分析

    隨著人工智能技術(shù)的快速發(fā)展,AI模型已成為全球科技競(jìng)爭(zhēng)的新高地、未來(lái)產(chǎn)業(yè)的新賽道以及經(jīng)濟(jì)發(fā)展的新引擎。下面,AI部落小編分析了當(dāng)前AI模型市場(chǎng)。
    的頭像 發(fā)表于 11-01 09:51 ?507次閱讀

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧涉及多個(gè)方面,以下是一些關(guān)鍵的步驟和注意事項(xiàng): 一、明確任務(wù)目標(biāo)和需求 在使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務(wù)目標(biāo),這將直接影響模型的選擇、數(shù)據(jù)
    的頭像 發(fā)表于 10-23 15:14 ?2472次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    人工智能在科學(xué)研究中的核心技術(shù),包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)構(gòu)成了AI for Science的基石,使得AI能夠處理和分析復(fù)雜的數(shù)據(jù)集,從而發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和規(guī)律。 2. 高性能
    發(fā)表于 10-14 09:16

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問(wèn)下哪些比較容易學(xué) 不過(guò)好像都是要學(xué)的
    發(fā)表于 09-26 15:24

    摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測(cè)試

    近日,國(guó)內(nèi)知名的GPU制造商摩爾線程與全學(xué)科教育AI大模型“師者AI”聯(lián)合宣布,雙方已成功完成了一項(xiàng)重要的大模型訓(xùn)練測(cè)試。此次測(cè)試依托摩爾線程夸娥(KUAE)千卡智算集群,充分展現(xiàn)了其
    的頭像 發(fā)表于 06-14 16:31 ?855次閱讀
    主站蜘蛛池模板: 最新免费jlzzjlzz在线播放 | 免费一看一级毛片全播放 | 天天做人人爱夜夜爽2020 | 日本黄色影片在线观看 | 天天做天天做天天综合网 | 亚洲国产欧美在线成人aaaa | 美国色天使| 九九热精品在线 | 成人性色生活影片 | 久久综合九色综合98一99久久99久 | 四虎影视网址 | 国产香蕉精品视频在 | 国产美女视频黄a视频免费全过程 | 在线观看黄a | 日本毛片大全 | 综合7799亚洲伊人爱爱网 | 久久综合色88 | 亚洲影视自拍揄拍愉拍 | 国产三级在线观看视频 | 黄在线观看在线播放720p | 日本免费一区视频 | 国模掰开 | 亚洲另类电击调教在线观看 | 亚洲精品国产美女在线观看 | 日韩电影天堂网 | 久久国产精品免费专区 | 高清视频 一区二区三区四区 | 激情综合在线观看 | 黄频网站免费大全在线观看 | 美国三级网 | 国产重口老太和小伙乱视频 | 深点再深一点好爽好多水 | 天天操天天插 | 久久69| 欧美性黑人十极品hd | 国产精品理论片在线观看 | 5x性区m免费毛片视频看看 | 国产在线精品香蕉综合网一区 | 一级毛片在线免费视频 | 色偷偷网 | 色婷婷激情五月综合 |