欢乐颂小说,完美世界辰东小说 ,我欲封天

在人工智能中，算法不只是用代碼敲出來(lái)這么簡(jiǎn)單的，而是由訓(xùn)練數(shù)據(jù)、標(biāo)簽和神經(jīng)網(wǎng)絡(luò)的結(jié)合產(chǎn)生的，這是機(jī)器學(xué)習(xí)的本質(zhì)。算法本身沒(méi)有直接洞察力，也不能直接像缺陷一樣被修復(fù)：它屬于“黑盒開(kāi)發(fā)”。

人工智能系統(tǒng)需要具備應(yīng)用于不同數(shù)據(jù)和不同應(yīng)用場(chǎng)景的能力。訓(xùn)練數(shù)據(jù)和標(biāo)簽的選擇會(huì)引起偏差和透明度的風(fēng)險(xiǎn)，可能對(duì)真實(shí)情況產(chǎn)生重大影響。測(cè)試人工智能的重點(diǎn)在于這些風(fēng)險(xiǎn)。人工智能測(cè)試需要道德、社會(huì)和意識(shí)，以突出用戶、預(yù)期，并將這些預(yù)期轉(zhuǎn)化為可重復(fù)運(yùn)行和自動(dòng)化的測(cè)試用例。人工智能測(cè)試包括設(shè)置指標(biāo)，將測(cè)試結(jié)果轉(zhuǎn)化為對(duì)系統(tǒng)的有意義和可量化的評(píng)估，以便開(kāi)發(fā)人員優(yōu)化系統(tǒng)。

1. 介紹

毫無(wú)疑問(wèn)，未來(lái)屬于人工智能。它已經(jīng)進(jìn)入了我們的日常生活，并被世界各地的大公司所使用。人工智能的適用性似乎無(wú)窮無(wú)盡。然而，仍然存在許多疑慮和擔(dān)憂。例如，在自動(dòng)駕駛汽車的情況下：事故責(zé)任、不穩(wěn)定的物體識(shí)別以及與不可預(yù)測(cè)的人類交通參與者的復(fù)雜互動(dòng)阻礙了它的廣泛推廣。人工智能的一些可能令人恐懼的影響已經(jīng)顯現(xiàn)出來(lái)。人工智能算法可以制造和擴(kuò)大偏差。例如，在緬甸的種族清洗中，數(shù)以萬(wàn)計(jì)的羅興亞人被殺害，100萬(wàn)人流離失所。Facebook算法支持了已經(jīng)存在的種族緊張局勢(shì)，這偏差觀點(diǎn)得到強(qiáng)化，因?yàn)樗粌?yōu)化為點(diǎn)擊成功則被獎(jiǎng)勵(lì)。負(fù)面信息在搜索結(jié)果中越來(lái)越多地出現(xiàn)。每個(gè)AI軟件開(kāi)發(fā)人員都在與這些疑慮和風(fēng)險(xiǎn)作斗爭(zhēng)。AI測(cè)試，什么是缺陷，如何修復(fù)它？如何確保系統(tǒng)在各種輸入做正確的事情？如何獲得正確率的信心？結(jié)果對(duì)所有相關(guān)方公平嗎？當(dāng)前的發(fā)展、觀點(diǎn)和價(jià)值觀是否反映在算法中？從測(cè)試的角度來(lái)看，AI的最大風(fēng)險(xiǎn)是什么，如何處理這些風(fēng)險(xiǎn)？

2. 介紹

2.1. AI 屬于黑盒開(kāi)發(fā)

在人工智能中，算法、系統(tǒng)在標(biāo)準(zhǔn)、決策和行動(dòng)方面的行為，并沒(méi)有明確地體現(xiàn)在代碼中。在非人工智能開(kāi)發(fā)中，代碼直接表達(dá)了算法。在人工智能中，算法是訓(xùn)練數(shù)據(jù)、參數(shù)化、標(biāo)簽和神經(jīng)網(wǎng)絡(luò)選擇的產(chǎn)物，而且無(wú)法在代碼中體現(xiàn)。代碼、神經(jīng)網(wǎng)絡(luò)只是通過(guò)訓(xùn)練產(chǎn)生算法的系統(tǒng)的一個(gè)組成部分，這是機(jī)器學(xué)習(xí)的本質(zhì)。

2.2. 機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)和人類學(xué)習(xí)之間有很強(qiáng)的相似性。以一個(gè)孩子第一次學(xué)習(xí)使用一個(gè)概念為例。這個(gè)孩子被告知，它抱著的毛茸茸的生物是一只“貓”。現(xiàn)在，這個(gè)孩子開(kāi)始用自己的神經(jīng)網(wǎng)絡(luò)工作。貓的概念與不是貓的物體（如“爸爸”）進(jìn)行比較。神經(jīng)網(wǎng)絡(luò)的工作方式是找到一種配置自己的方法，如果它看到貓，它會(huì)將其歸類為貓，而不是爸爸。它通過(guò)找到差異、標(biāo)準(zhǔn)（如皮毛、胡須、四條腿等）來(lái)做到這一點(diǎn)。但我們不知道這些標(biāo)準(zhǔn)到底是什么。它們也可能是“捉老鼠”、“呼嚕聲”或“白色”。我們無(wú)法在大腦中找到貓的概念及其標(biāo)準(zhǔn)，也無(wú)法直接在大腦中糾正它。

神經(jīng)網(wǎng)絡(luò)由許多代碼塊（“節(jié)點(diǎn)”）組成，這些代碼塊按層排列，每個(gè)節(jié)點(diǎn)層都連接到其上下層。節(jié)點(diǎn)沒(méi)有被預(yù)先編程以執(zhí)行特定任務(wù)。節(jié)點(diǎn)只是小型的計(jì)算器，處理頂層呈現(xiàn)給它們的部分并返回計(jì)算結(jié)果。給定兩張圖片，一張是貓，一張是爸爸，它將嘗試不同的配置，以找到一種配置，將一個(gè)樣本識(shí)別為貓，另一個(gè)樣本識(shí)別為爸爸。它將找出差異，以便其配置將在下一次給出正確的分類。

2.3. 算法=數(shù)據(jù)+編碼+標(biāo)簽

因此，該系統(tǒng)產(chǎn)生的算法由從樣本中衍生出的模型組成，因此它可以對(duì)輸入進(jìn)行分類和識(shí)別，并給它們打標(biāo)簽。該算法是神經(jīng)網(wǎng)絡(luò)的產(chǎn)物，但主要基于訓(xùn)練數(shù)據(jù)和標(biāo)簽。因此，算法不是代碼，而是代碼+訓(xùn)練數(shù)據(jù)+標(biāo)簽。

2.4. 模糊邏輯和數(shù)學(xué)

雖然整個(gè)系統(tǒng)所做的只是計(jì)算，產(chǎn)生數(shù)字，但這些數(shù)字不會(huì)產(chǎn)生布爾結(jié)果：例如：“這是爸爸”或“這是一只貓”。結(jié)果將是從節(jié)點(diǎn)和層中計(jì)算的所有數(shù)字的總和，每個(gè)數(shù)字都表示根據(jù)每個(gè)給定的標(biāo)簽滿足標(biāo)準(zhǔn)的程度。這幾乎不可能（在0-1區(qū)間）達(dá)到1。其次，它還會(huì)給樣本給出評(píng)分。因此，呈現(xiàn)給系統(tǒng)的新圖片可能會(huì)將“貓性”評(píng)為0.87，將“爸爸性”評(píng)為0.13。結(jié)論是，樣本是一只貓，但它不是100%的貓，也不是0%的爸爸。因此，人工智能的最終產(chǎn)品是計(jì)算、概率，而不是100%的確定性。

2.5. 開(kāi)發(fā)與糾錯(cuò)

神經(jīng)網(wǎng)絡(luò)的開(kāi)發(fā)包括開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)本身，但大多數(shù)開(kāi)發(fā)人員使用現(xiàn)成的神經(jīng)網(wǎng)絡(luò)。接下來(lái)，他們需要配置神經(jīng)網(wǎng)絡(luò)，使其能夠接收手工的輸入并配置標(biāo)簽。最后，神經(jīng)網(wǎng)絡(luò)的層可以參數(shù)化：計(jì)算結(jié)果可以加權(quán)，以便某些結(jié)果對(duì)最終結(jié)果的影響比其他結(jié)果更大。這些是開(kāi)發(fā)人員擁有的主要調(diào)整工具。如果系統(tǒng)表現(xiàn)不令人滿意，則可以調(diào)整參數(shù)。這不是一個(gè)重點(diǎn)的缺陷修復(fù)，而是糾正一個(gè)缺陷決策的例子。參數(shù)化將影響結(jié)果，但每次調(diào)整都會(huì)對(duì)整體性能產(chǎn)生影響。在人工智能中，存在大量的“回歸”：對(duì)不打算改變的系統(tǒng)部分產(chǎn)生不必要和意想不到的影響。訓(xùn)練數(shù)據(jù)和標(biāo)簽也可能成為影響系統(tǒng)的候選因素。在人工智能的某些問(wèn)題上，例如欠擬合，擴(kuò)大訓(xùn)練數(shù)據(jù)很可能會(huì)改善系統(tǒng)。欠擬合指的是模型無(wú)法很好地?cái)M合訓(xùn)練數(shù)據(jù)，無(wú)法捕捉到數(shù)據(jù)中的真實(shí)模式和關(guān)系。欠擬合可以比喻為一個(gè)學(xué)生連基本的知識(shí)都沒(méi)有掌握好，無(wú)論是老題還是新題都無(wú)法解答。這種情況下，模型過(guò)于簡(jiǎn)單或者復(fù)雜度不足，無(wú)法充分學(xué)習(xí)數(shù)據(jù)中的特征和模式。

2.6. 整體評(píng)估和指標(biāo)

當(dāng)缺陷修正無(wú)法聚焦，每次微調(diào)都會(huì)導(dǎo)致大規(guī)模回歸時(shí)，大規(guī)模回歸測(cè)試是必要的。問(wèn)題“我們是否修復(fù)了這個(gè)缺陷？”成為一個(gè)次要問(wèn)題。我們想知道每次更改后的整體行為。我們想知道與其他版本相比，系統(tǒng)的整體性能如何。在整體評(píng)估中，我們需要考慮AI的輸出：計(jì)算結(jié)果既不是真也不是假。每個(gè)結(jié)果都是一個(gè)等級(jí)。因此，最終結(jié)果應(yīng)該進(jìn)行全面比較、權(quán)衡和合并，以便我們可以決定一個(gè)版本是否優(yōu)于另一個(gè)版本，是否應(yīng)該使用它。結(jié)果將是基于預(yù)期和它們相對(duì)重要性的輸出價(jià)值的度量。

3. AI風(fēng)險(xiǎn)

我們將在這里討論最重要的風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)是人工智能的典型風(fēng)險(xiǎn)，可能會(huì)對(duì)人工智能的質(zhì)量、客戶、用戶、人們甚至世界產(chǎn)生嚴(yán)重影響。在開(kāi)始測(cè)試之前，應(yīng)該考慮這些風(fēng)險(xiǎn)，為測(cè)試人員提供重點(diǎn)提示。在分析測(cè)試結(jié)果時(shí)，應(yīng)該考慮這些風(fēng)險(xiǎn)。

作為對(duì)意外結(jié)果的因果分析，這可以為優(yōu)化系統(tǒng)提供線索。例如：欠擬合的系統(tǒng)最需要更多樣化的訓(xùn)練數(shù)據(jù)，過(guò)擬合的系統(tǒng)需要簡(jiǎn)化標(biāo)簽。

3.1. 偏差

人工智能的主要風(fēng)險(xiǎn)是“偏差”的類型。在人類智能中，我們稱之為偏差。由于訓(xùn)練數(shù)據(jù)和概念的限制，我們看待事物過(guò)于簡(jiǎn)單（簡(jiǎn)化）或存在（偏差）。概念的高粒度可能意味著系統(tǒng)無(wú)法充分概括，導(dǎo)致結(jié)果毫無(wú)用處。

3.1.1. 選擇偏差

如果訓(xùn)練數(shù)據(jù)選擇遺漏了現(xiàn)實(shí)世界中的重要元素，這可能會(huì)導(dǎo)致選擇偏差。與實(shí)際結(jié)果相比，上次歐洲選舉的民意調(diào)查預(yù)測(cè)，荷蘭的歐洲懷疑黨將獲得比實(shí)際選舉高得多的勝利。民意調(diào)查沒(méi)有過(guò)濾人們是否真的會(huì)投票。歐洲懷疑論者被證明比其他選民更有可能不投票。

3.1.2. 固定偏差

急于驗(yàn)證一個(gè)高度相信或投入的假設(shè)可能會(huì)導(dǎo)致選擇或過(guò)度重視證實(shí)該論點(diǎn)的數(shù)據(jù)，而忽視可能存在的缺陷。科學(xué)家、政客和產(chǎn)品開(kāi)發(fā)者可能容易受到這種偏差的影響，即使他們有最好的意圖。一個(gè)醫(yī)療援助組織為了籌集更多資金，夸大了可能的糧食危機(jī)，顯示死亡人數(shù)上升，但沒(méi)有顯示與饑荒和總?cè)丝跀?shù)無(wú)關(guān)的死亡人數(shù)。

3.1.3. 欠擬合

缺乏多樣性的訓(xùn)練數(shù)據(jù)會(huì)導(dǎo)致欠擬合。學(xué)習(xí)過(guò)程將無(wú)法確定關(guān)鍵的判別標(biāo)準(zhǔn)。訓(xùn)練軟件識(shí)別狼和狗，將哈士奇識(shí)別為狼，因?yàn)樗鼪](méi)有學(xué)到狗也可以在雪中看到。如果我們只在荷蘭獲得與毒品相關(guān)的新聞信息，會(huì)發(fā)生什么？

3.1.4. 過(guò)擬合

當(dāng)標(biāo)簽對(duì)于人工智能系統(tǒng)的目的來(lái)說(shuō)過(guò)于多樣化和多樣化時(shí)，就會(huì)出現(xiàn)過(guò)度擬合。過(guò)擬合（Overfitting）指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得過(guò)于優(yōu)秀，但在未見(jiàn)數(shù)據(jù)上表現(xiàn)較差。過(guò)擬合可以比喻為一個(gè)學(xué)生死記硬背了一本題庫(kù)的所有答案，但當(dāng)遇到新的題目時(shí)無(wú)法正確回答。這種情況下，模型對(duì)于訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)過(guò)于敏感，導(dǎo)致了過(guò)度擬合的現(xiàn)象。

3.1.5. 異常值

異常值是極端的例子，對(duì)算法有太大的影響。如果你的1歲大的孩子看到的第一只貓是無(wú)毛貓，這將對(duì)他對(duì)貓的概念產(chǎn)生重大影響，需要用多個(gè)正常貓的例子來(lái)糾正。

3.1.6. 混淆變量

模式識(shí)別和分析通常需要結(jié)合數(shù)據(jù)，特別是當(dāng)尋找因果關(guān)系時(shí)。當(dāng)不同數(shù)據(jù)模式因數(shù)據(jù)分析目的而相關(guān)聯(lián)而沒(méi)有實(shí)際因果關(guān)系時(shí)，混淆變量就會(huì)出現(xiàn)。人們通常認(rèn)為，喝紅葡萄酒會(huì)引起偏頭痛發(fā)作，因?yàn)閾?jù)報(bào)道，喝紅葡萄酒和偏頭痛是相繼發(fā)生的。新研究表明，偏頭痛發(fā)作是由食欲變化引起的，如對(duì)紅葡萄酒的渴望。喝紅葡萄酒是一種副作用，而不是偏頭痛的原因！

3.2. 可追溯性

對(duì)于非人工智能系統(tǒng)，算法就是代碼。對(duì)于人工智能系統(tǒng)，情況并非如此，因此我們不知道人工智能系統(tǒng)做出決策的確切標(biāo)準(zhǔn)。此外，很難監(jiān)督訓(xùn)練數(shù)據(jù)的總體情況，因此很難很好地了解人工智能系統(tǒng)將如何表現(xiàn)。因此，當(dāng)結(jié)果明顯不正確時(shí)，很難確定原因并糾正。是訓(xùn)練數(shù)據(jù)、參數(shù)、神經(jīng)網(wǎng)絡(luò)還是標(biāo)簽？可追溯性的缺乏導(dǎo)致過(guò)度自信和信心不足，并導(dǎo)致責(zé)任的不確定性（是軟件、數(shù)據(jù)、標(biāo)簽還是上下文造成的？）以及缺乏可維護(hù)性。

4. 測(cè)試AI

減輕人工智能風(fēng)險(xiǎn)的關(guān)鍵是透明度。在偏差方面，我們需要了解訓(xùn)練數(shù)據(jù)和標(biāo)簽的代表性，但最重要的是，我們需要了解期望和結(jié)果對(duì)所有相關(guān)方的重要性如何反映在結(jié)果中。建立適當(dāng)程度的信心和可追溯性也需要透明度。通過(guò)照亮代碼，將無(wú)法實(shí)現(xiàn)透明度。即使這是可能的，通過(guò)顯示代碼的熱圖，表明當(dāng)分析對(duì)象的特定部分或產(chǎn)生層中的計(jì)算時(shí)，神經(jīng)網(wǎng)絡(luò)的哪個(gè)部分是活躍的，這意味著幾乎什么都沒(méi)有。觀察大腦內(nèi)部將永遠(yuǎn)不會(huì)顯示思想或決定。它可以顯示哪個(gè)部分被激活，但所有的心理過(guò)程都涉及多個(gè)大腦部分，最重要的是過(guò)去的經(jīng)驗(yàn)。人工智能系統(tǒng)是黑盒子，因此我們應(yīng)該像在黑盒測(cè)試中一樣測(cè)試它們：從外部，開(kāi)發(fā)基于現(xiàn)實(shí)輸入的測(cè)試用例。從那里確定對(duì)輸出的期望。聽(tīng)起來(lái)很傳統(tǒng)，很熟悉，不是嗎？測(cè)試人工智能的基本邏輯可能很熟悉，具體的任務(wù)和元素卻大不相同。

傳統(tǒng)上，需求和規(guī)格是預(yù)先確定的，測(cè)試人員在開(kāi)始時(shí)就可以使用它們。在人工智能中，需求和規(guī)格是如此多樣化和動(dòng)態(tài)，以至于不能期望它們?cè)陂_(kāi)始時(shí)完全和一次就確定。產(chǎn)品所有者和業(yè)務(wù)顧問(wèn)應(yīng)該交付需求，但測(cè)試人員需要采取主動(dòng)，以他們需要的形式、粒度和現(xiàn)實(shí)性獲得需求。

4.1. 神經(jīng)網(wǎng)絡(luò)、訓(xùn)練數(shù)據(jù)和標(biāo)簽

靜態(tài)測(cè)試可以及早發(fā)現(xiàn)缺陷。可以選擇神經(jīng)網(wǎng)絡(luò)：有哪些替代方案？對(duì)于這項(xiàng)審查，需要對(duì)所有可能的神經(jīng)網(wǎng)絡(luò)及其特定質(zhì)量和缺點(diǎn)有廣泛的了解。訓(xùn)練數(shù)據(jù)和標(biāo)簽可以審查和評(píng)估風(fēng)險(xiǎn)敏感性：

1. 數(shù)據(jù)是否很好地反映了現(xiàn)實(shí)生活中的數(shù)據(jù)來(lái)源、用戶、視角和價(jià)值觀？是否有被忽視的相關(guān)數(shù)據(jù)來(lái)源？研究結(jié)果可能表明選擇偏差、確認(rèn)偏差或不足。

2. 數(shù)據(jù)來(lái)源和數(shù)據(jù)類型是否平均分配？不同類型、不同組別的代表性如何？研究結(jié)果可能表明不足、選擇偏差、確認(rèn)偏差或異常值。

3. 標(biāo)簽是否公平地反映了現(xiàn)實(shí)生活中的群體或數(shù)據(jù)類型？標(biāo)簽是否與系統(tǒng)應(yīng)分析的現(xiàn)實(shí)情況或模式相匹配？研究結(jié)果可能表明過(guò)度擬合、不足或混淆變量。

4. 數(shù)據(jù)是否足夠？期望的刷新速率是多少？是否匹配？現(xiàn)實(shí)世界中是否有事件在數(shù)據(jù)中沒(méi)有得到充分反映？

4.2. 識(shí)別用戶

該系統(tǒng)的所有者并不是唯一有價(jià)值的視角！像搜索系統(tǒng)這樣的AI系統(tǒng)是其用戶世界的重要組成部分，也是那些被其“貼標(biāo)簽”的人的重要組成部分。AI系統(tǒng)的質(zhì)量可能具有道德、社會(huì)和政治方面的意義和影響，因此需要加以考慮。AI的用戶往往是多樣化的，很難知道。他們不是一組固定的訓(xùn)練有素的用戶，他們不會(huì)聚集在一個(gè)房間里，他們的行為和期望是可以管理的。他們可能是整個(gè)世界，就像搜索引擎的情況一樣：一個(gè)訪問(wèn)阿姆斯特丹的美國(guó)游客或一個(gè)經(jīng)驗(yàn)豐富的藝術(shù)愛(ài)好者在搜索“珍珠女孩”時(shí)，他們的需求和期望非常不同。

一個(gè)博物館的搜索引擎。游客想知道一張?zhí)囟ǖ膱D片是否用于展示，藝術(shù)愛(ài)好者也想了解背景信息和草圖。接下來(lái)：隨著世界的變化，用戶和他們的期望可能會(huì)在一夜之間發(fā)生變化。想想巴黎圣母院的大火對(duì)那些搜索“巴黎圣母院”或“巴黎大火”的用戶可能有什么影響。AI在DNA序列中識(shí)別病毒應(yīng)該考慮到不斷發(fā)生的可能突變。因此，測(cè)試AI首先要確定用戶或系統(tǒng)輸出將被使用的視角。這意味著研究系統(tǒng)使用的數(shù)據(jù)分析，采訪流程所有者或采訪真實(shí)用戶。

4.3. 分析用戶

識(shí)別用戶或數(shù)據(jù)組是一回事，確定他們想要什么、期望什么、需要什么、害怕什么或會(huì)如何表現(xiàn)是另一回事。測(cè)試人員需要的是用戶和視角的簡(jiǎn)介：他們的背景是什么，他們想要什么，什么會(huì)讓他們反感或不安，他們有什么期望？一種創(chuàng)建簡(jiǎn)介的技術(shù)是“Persona”。這種技術(shù)的關(guān)鍵是不要考慮整個(gè)用戶組，而是從該組中選擇一個(gè)人，并盡可能使其具體化。Persona的好處是，它讓用戶變得栩栩如生。這是一種從內(nèi)到外考慮用戶視角的技術(shù)。例如：美國(guó)游客的Persona可以是喬，一個(gè)水管工，住在芝加哥，白人，45歲，已婚，有兩個(gè)孩子。他讀書(shū)不多，但喜歡色彩鮮艷、制作精良的繪畫(huà)。他的愛(ài)好是釣魚(yú)和翻新舊音響設(shè)備。

4.4. 創(chuàng)建測(cè)試用例

對(duì)于測(cè)試人員來(lái)說(shuō)，這部分可能是大部分工作。根據(jù)每個(gè)用戶的個(gè)人資料，輸入和預(yù)期輸出被確定下來(lái)。良好的個(gè)人資料將提供一個(gè)良好的基礎(chǔ)，但可能需要來(lái)自研究和訪談的額外信息。識(shí)別測(cè)試用例永遠(yuǎn)不會(huì)是完整的，也不會(huì)是決定性的：你不能測(cè)試一切，在人工智能領(lǐng)域也是如此。世界和用戶都在變化，因此需要在需求中反映出這一點(diǎn)。它從最重要的案例開(kāi)始；它將不斷增長(zhǎng)，需要永久維護(hù)。

4.5. 測(cè)試數(shù)據(jù)

使用哪些測(cè)試數(shù)據(jù)以及是否可以創(chuàng)建、發(fā)現(xiàn)或操作這些數(shù)據(jù)取決于上下文和生產(chǎn)數(shù)據(jù)的可用性。數(shù)據(jù)創(chuàng)建或操作（如圖像識(shí)別）是很難做到的，有時(shí)是無(wú)用的，甚至是適得其反的。使用工具來(lái)操作或創(chuàng)建圖像會(huì)帶來(lái)額外的變量，這可能會(huì)產(chǎn)生偏差！測(cè)試數(shù)據(jù)對(duì)現(xiàn)實(shí)世界圖片的代表性如何？如果算法在創(chuàng)建的數(shù)據(jù)中識(shí)別出只能在測(cè)試數(shù)據(jù)中找到的方面，測(cè)試的價(jià)值就會(huì)受到影響。AI測(cè)試人員從真實(shí)數(shù)據(jù)中創(chuàng)建測(cè)試數(shù)據(jù)集，并嚴(yán)格地將這些數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分開(kāi)。由于AI系統(tǒng)是動(dòng)態(tài)的，它所使用的世界是動(dòng)態(tài)的，測(cè)試數(shù)據(jù)必須定期更新。

4.6. 度量

人工智能的輸出不是布爾值：它們是所有可能結(jié)果（標(biāo)簽）的計(jì)算結(jié)果。要確定系統(tǒng)的性能，僅僅確定哪個(gè)標(biāo)簽的得分最高是不夠的。指標(biāo)是必要的。以圖像識(shí)別為例：我們想知道一張貓的圖片是否會(huì)被識(shí)別為貓。在實(shí)踐中，這意味著標(biāo)簽“貓”的得分將高于“狗”。如果貓的得分是0.43，狗的得分是0.41，那么貓就贏了。但得分之間的微小差異可能表明故障概率。在搜索引擎中，我們想知道頂部的結(jié)果是否是用戶期望的前1名，但如果前1名的結(jié)果是列表中的第2名，聽(tīng)起來(lái)就不對(duì)，但仍然比第3名要好。我們想知道所有相關(guān)結(jié)果是否都在前10名（這被稱為精確度），或者前10名中沒(méi)有冒犯性的結(jié)果。根據(jù)上下文，我們需要用指標(biāo)來(lái)處理AI系統(tǒng)的輸出，對(duì)其性能進(jìn)行評(píng)估。測(cè)試人員需要具備確定相關(guān)指標(biāo)并將其納入測(cè)試的能力。

4.7. 權(quán)重和契約

對(duì)人工智能系統(tǒng)的總體評(píng)估還必須納入相對(duì)重要性。與任何測(cè)試一樣，一些結(jié)果比其他結(jié)果更重要。想想具有高度道德影響的結(jié)果，比如種族偏差。作為設(shè)計(jì)測(cè)試用例的一部分，它們對(duì)總體評(píng)估的權(quán)重應(yīng)根據(jù)風(fēng)險(xiǎn)和對(duì)用戶的重要性來(lái)確定。測(cè)試人員需要對(duì)這些風(fēng)險(xiǎn)敏感，能夠識(shí)別它們，將其轉(zhuǎn)化為測(cè)試用例和指標(biāo)。他們需要了解系統(tǒng)使用情況和用戶心理的背景。人工智能測(cè)試人員需要同理心和世界意識(shí)。

在電影《機(jī)械戰(zhàn)警》中，墨菲警官的系統(tǒng)中有一個(gè)“首要指令”程序：如果他試圖逮捕他所在公司的董事總經(jīng)理，他的系統(tǒng)就會(huì)關(guān)閉。人工智能系統(tǒng)也可以有“首要指令”，或者出現(xiàn)無(wú)法接受的結(jié)果，比如冒犯性語(yǔ)言、色情網(wǎng)站或撞倒行人。我們稱之為“契約”：在測(cè)試結(jié)果中，這些可能不需要的結(jié)果應(yīng)該被標(biāo)簽為阻止問(wèn)題，或者至少應(yīng)該被給予很高的權(quán)重。

4.8. 測(cè)試自動(dòng)化

人工智能測(cè)試需要大量的自動(dòng)化。測(cè)試用例的數(shù)量要求它這樣做，并且需要對(duì)新版本進(jìn)行重復(fù)測(cè)試。當(dāng)人工智能系統(tǒng)不斷訓(xùn)練時(shí)，測(cè)試是必要的，就像搜索引擎的情況一樣，其中存在來(lái)自實(shí)際數(shù)據(jù)的反饋回路。但是，即使當(dāng)人工智能系統(tǒng)沒(méi)有不斷訓(xùn)練并且系統(tǒng)版本穩(wěn)定時(shí)，不斷變化的環(huán)境也需要不斷訓(xùn)練。即使系統(tǒng)沒(méi)有改變，世界也會(huì)改變。測(cè)試自動(dòng)化包括一個(gè)測(cè)試框架，測(cè)試用例將在人工智能系統(tǒng)上運(yùn)行，并且人工智能系統(tǒng)的輸出將被處理。以下是一個(gè)測(cè)試框架的基本設(shè)置。

4.9. 整體評(píng)估和優(yōu)化輸入

測(cè)試的結(jié)果不僅僅是一份需要修復(fù)的缺陷清單。如上文所述，如果沒(méi)有嚴(yán)重的回歸，缺陷是無(wú)法直接修復(fù)的。人工智能系統(tǒng)必須作為一個(gè)整體進(jìn)行評(píng)估，因?yàn)殡S著許多測(cè)試用例和回歸，沒(méi)有哪個(gè)版本是完美的。如果一個(gè)新版本比舊版本更好，程序員希望知道該采用哪個(gè)版本。因此，測(cè)試結(jié)果應(yīng)該綜合成一個(gè)總結(jié)果：一個(gè)量化分?jǐn)?shù)。為了給程序員提供如何調(diào)整（訓(xùn)練數(shù)據(jù)、標(biāo)簽、參數(shù)化）的指導(dǎo)，他們需要知道需要改進(jìn)的領(lǐng)域。這是我們可以接近缺陷修復(fù)的地方。我們需要度量、權(quán)衡和契約來(lái)實(shí)現(xiàn)有意義的總體評(píng)分和優(yōu)化線索。應(yīng)該分析低分測(cè)試用例的原因：是過(guò)擬合、欠擬合還是其他風(fēng)險(xiǎn)領(lǐng)域？

4.10. AI測(cè)試示例

從左上到右下，然后從右上到左下：

1. 識(shí)別用戶群體

2. 為每個(gè)用戶群體創(chuàng)建角色

3. 寫測(cè)試用例：根據(jù)每個(gè)用戶組輸入的預(yù)期頂級(jí)結(jié)果、非預(yù)期結(jié)果、度量和權(quán)重，在AI系統(tǒng)中運(yùn)行測(cè)試用例

4. 處理結(jié)果

5. 根據(jù)每個(gè)測(cè)試用例的總權(quán)重創(chuàng)建測(cè)試結(jié)果

6. 將結(jié)果與以前版本的結(jié)果進(jìn)行比較

5. 總結(jié)

人工智能的世界非常動(dòng)態(tài)：算法不等同于代碼，而是訓(xùn)練數(shù)據(jù)和標(biāo)簽的結(jié)果。隨著世界的變化，訓(xùn)練數(shù)據(jù)將不斷更新。人工智能的輸出不是布爾值，而是所有標(biāo)簽的計(jì)算結(jié)果，這些結(jié)果可能都是相關(guān)的。盡管存在低透明度和偏差風(fēng)險(xiǎn)，但人工智能正被用于決策，是人們世界的重要組成部分。測(cè)試人員必須通過(guò)確定用戶群體及其特定期望和需求，并展示系統(tǒng)如何反映這些期望和需求，在創(chuàng)建透明度方面發(fā)揮作用。為此，需要一個(gè)自動(dòng)測(cè)試框架來(lái)比較人工智能系統(tǒng)的許多版本，不斷監(jiān)測(cè)生產(chǎn)質(zhì)量，并為優(yōu)化提供指導(dǎo)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

測(cè)試

測(cè)試

+關(guān)注

關(guān)注
8

文章
5633

瀏覽量
128320
AI

AI

+關(guān)注

關(guān)注
87

文章
34256

瀏覽量
275411

原文標(biāo)題：淺析AI測(cè)試

文章出處：【微信號(hào)：TestinChina，微信公眾號(hào)：Testin云測(cè)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

初探AI測(cè)試分析

評(píng)論