世界數字技術院發布：生成式AI安全測試標準及大語言模型

4月17日公布，第27屆聯合國科技大會于4月15至19日在瑞士日內瓦舉行，期間，世界數字技術院（WDTA）于4月16日發布了多項重要科研成果，包括《生成式人工智能應用安全測試標準》與《大語言模型安全測試方法》兩款國際標準。

據悉，上述兩款標準主要針對大型模型與生成式AI應用領域的安全檢測設定了新基準。參與制定工作的單位有OpenAI、螞蟻集團、科大訊飛、谷歌、微軟、英偉達、百度、騰訊等多家知名企業，其中，《大語言模型安全測試方法》由螞蟻集團主導完成。

這兩份標準為生成式AI應用（特別是基于大語言模型的應用）的安全性測試提供了明確的框架，涵蓋了基礎模型選取、嵌入和矢量數據庫、RAG或檢索增強生成、AI應用運行時的安全等多個方面。

另一方面，《大語言模型安全測試方法》為大模型自身的安全性評估提供了全面、嚴謹且實用性強的解決方案，提出了大語言模型的安全風險分類、攻擊分類分級方法以及測試方法。據稱，該方法能有效應對大語言模型的復雜性，全面測試其防御敵對攻擊的能力，幫助開發者和組織識別并修復潛在漏洞，從而提升使用大語言模型構建的人工智能系統的安全性與可靠性。

值得注意的是，WDTA是一個總部位于日內瓦的國際非政府組織，遵循聯合國的指導原則，致力于推動全球數字技術發展和國際合作。AI STR（安全、可信、負責任）計劃是WDTA的核心倡議，旨在保障人工智能系統的安全性、可信性和責任感。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴