Devops 團隊旨在提高部署頻率,減少生產中發現的缺陷數量,并提高從微服務和面向客戶的應用程序到員工工作流和業務流程自動化的一切的可靠性。
實施CI/CD(持續集成和持續交付)管道可確保構建和部署所有這些應用程序和服務的無縫路徑,自動化測試和實施持續測試實踐有助于團隊保持質量、可靠性和性能。通過持續測試,敏捷開發團隊可以 左移他們的測試,增加測試用例的數量,并提高測試速度。
[也在 InfoWorld 上:在數據科學和機器學習中應用 devops ]
構建測試用例并使其自動化是一回事,擁有足夠數量和種類的測試數據來驗證足夠數量的用例和邊界場景是另一回事。例如,測試網站注冊表單應驗證輸入模式的排列,包括缺失數據、長數據條目、特殊字符、多語言輸入和其他場景。
挑戰在于生成測試數據。一種方法是合成數據生成,它使用不同的技術根據模型和輸入模式集推斷數據集。合成數據生成解決了所需數據的數量和種類。在使用真實數據可能引發法律或其他合規性問題的情況下,您還可以使用合成數據生成來創建數據集。
“當所需數據不存在或原始數據集充滿個人身份信息時,合成數據提供了一個很好的選擇,”Accelario 的首席技術官兼聯合創始人 Roman Golod說。“最好的方法是基于現有模式創建合成數據以進行測試數據管理或構建規則,以確保您的 BI、AI 和其他分析提供可操作的結果。對于這兩者,您需要確保可以根據不斷變化的業務需求對合成數據生成自動化進行微調。”
合成數據生成用例
雖然合成數據生成的最基本需求源于測試應用程序、自動化和集成,但隨著數據科學測試需要機器學習和人工智能算法的測試數據,需求也在增長。數據科學家有時會使用合成數據來訓練神經網絡;在其他時候,他們使用機器生成的數據來驗證模型的結果。
其他合成數據用例更具體:
[在這份免費的 CIO 路線圖報告中了解 IT 如何利用 5G 的力量和前景。現在下載!]
通過確保在兩個基礎架構上運行相同的應用程序生成相同的結果來測試云遷移
為安全測試、欺詐檢測和其他實際數據可能不存在的實際場景創建數據
生成數據以測試大規模 ERP(企業資源規劃)和 CRM(客戶關系管理)升級,測試人員希望在遷移實時數據之前驗證配置
為決策支持系統生成數據以測試邊界條件、驗證特征選擇、提供更廣泛的無偏測試數據樣本,并確保AI 結果可解釋
對人工智能和物聯網系統(例如自動駕駛汽車)進行壓力測試,并驗證它們對不同安全情況的反應
如果您正在開發具有高維數據輸入以及關鍵質量和安全因素的算法或應用程序,那么合成數據生成提供了一種以經濟高效地創建大型數據集的機制。
“合成數據有時是唯一的出路,因為真實數據要么不可用,要么不可用,”KNIME 的數據科學家 Maarit Widman說。
平臺如何生成合成數據
您可能想知道平臺如何生成綜合測試數據以及如何選擇最佳算法和配置來創建所需數據。
Widman 解釋說:“生成合成數據有兩種主要策略:基于統計概率或基于機器學習算法。最近,像循環神經網絡這樣的深度學習技術——比如長短期記憶網絡和生成對抗網絡——因其能夠從無到有地生成新的音樂、文本和圖像的能力而越來越受歡迎。”
當數據點之間存在依賴關系時,例如時間序列數據和文本分析,數據科學家會使用RNN(循環神經網絡) 。LSTM(長期短期記憶)通過一系列重復模塊創建一種形式的長期記憶,每個模塊都有提供類似記憶功能的門。例如,文本分析中的 LSTM可以學習字符和單詞之間的依賴關系以生成新的字符序列。它還用于音樂創作、欺詐檢測和谷歌的 Pixel 6 語法校正。
GAN(生成對抗網絡)已被用于生成多種形式的圖像、破解網絡安全密碼,甚至制作披薩。GANs通過使用一種算法生成數據模式和另一種算法來測試它們來創建數據。然后他們在兩者之間形成對抗性競爭以找到最佳模式。生成合成數據的 GAN 代碼示例包括PyTorch 手寫數字、用于開發一維高斯分布的 TensorFlow 模型和用于模擬衛星圖像的 R 模型。
選擇機器學習和基于統計的模型是一門藝術和科學。Monitaur的聯合創始人兼首席技術官 Andrew Clark解釋了如何嘗試合成數據生成。他說:“這里的經驗法則始終是為工作選擇最簡單的模型,并以可接受的準確度執行任務。如果您正在對客戶結賬行進行建模,那么基于泊松分布的單變量隨機過程將是一個很好的起點。另一方面,如果您有大量貸款承銷數據集并想要創建測試數據,GAN 模型可能更適合捕捉各個特征之間的復雜相關性和關系。”
如果您正在處理數據科學用例,那么您可能希望靈活地開發合成數據生成模型。商業選項包括用于計算機視覺的Chooch 、Datomize和Deep Vision Data。
如果您的目標是應用程序測試,請考慮用于測試數據管理或綜合生成測試數據的平臺,例如 Accelario、Delphix、GenRocket、Informatica、K2View、Tonic,以及一些測試數據工具,例如開源測試數據生成器。Microsoft 的Visual Studio Premium也有一個內置的測試數據生成器,Java 開發人員應該使用Vaadin 的數據生成器查看這個示例。
如今,擁有強大的測試實踐非常重要,因為組織依賴于應用程序的可靠性和機器學習模型的準確性。合成數據生成是另一種縮小差距的方法。因此,您不僅擁有測試、訓練或驗證方法,而且還擁有生成足夠數據來構建模型和驗證應用程序的方法。
-
GaN
+關注
關注
19文章
1968瀏覽量
74384 -
機器學習
+關注
關注
66文章
8449瀏覽量
133136
發布評論請先 登錄
相關推薦
![](https://file1.elecfans.com/web3/M00/06/09/wKgZPGeHKimAQGWRAA4QFIH2k-E206.jpg)
![](https://file1.elecfans.com/web3/M00/05/A5/wKgZO2eB3bKAUGCEAAOT77ZJlwU050.jpg)
多功能推拉力測試機:原理及應用
![多功能推拉力<b class='flag-5'>測試機</b>:原理及應用](https://file1.elecfans.com/web2/M00/E5/54/wKgZomZC3cCABr6NAA8LpkdbzT4449.png)
![](https://file1.elecfans.com/web3/M00/00/54/wKgZO2dIL8WAC1ZoAAMP52BUiNE852.jpg)
![](https://file1.elecfans.com/web2/M00/04/BB/wKgZombRjouAETHGAAI_WXw9Psk331.jpg)
![](https://file1.elecfans.com/web2/M00/03/49/wKgaoma7H1eAAnlWAAHl6SNIRwc374.jpg)
加速科技ST2500EX測試機臺再獲封測廠超千萬訂單
![加速科技ST2500EX<b class='flag-5'>測試機</b>臺再獲封測廠超千萬訂單](https://file1.elecfans.com/web2/M00/FE/A9/wKgaomaeOHmAZbqTAB1NJcgbjh4812.png)
半導體多功能推拉力測試機出貨了
![半導體多功能推拉力<b class='flag-5'>測試機</b>出貨了](https://file1.elecfans.com/web2/M00/FD/21/wKgZomaYc4WAf12EAADD3h7HjUk909.png)
推拉力測試機器測試前的準備有哪些?最全作業指導
![推拉力<b class='flag-5'>測試機器</b><b class='flag-5'>測試</b>前的準備有哪些?最全作業指導](https://file1.elecfans.com/web2/M00/C5/EB/wKgaomX5VYOAUnSHAAB8r1Eu8UE503.png)
廣立微推出全新T4000 Max半導體參數測試機
半導體芯片封裝推拉力測試機合理選擇需要考慮哪些方面?
![半導體芯片封裝推拉力<b class='flag-5'>測試機</b>合理選擇需要考慮哪些方面?](https://file1.elecfans.com/web2/M00/C4/04/wKgZomXwIzCAcobQAABY-FQBjO8638.png)
評論