電子發燒友網報道(文/李彎彎)在深度學習中,經常聽到一個詞“模型訓練”,但是模型是什么?又是怎么訓練的?在人工智能中,面對大量的數據,要在雜亂無章的內容中,準確、容易地識別,輸出需要的圖像/語音,并不容易。因此算法顯得尤為重要。算法也就是模型。
算法的內容,除了核心識別引擎,也包括各種配置參數,如:語音智能識別的比特率、采樣率、音色、音調、音高、音頻、抑揚頓挫、方言、噪音等。成熟的識別引擎,核心內容一般不會經常變化。為實現“識別成功”這一目標,就只能對配置參數做調整。
對不同輸入,我們會配置不同參數值,最后在結果統計取一個各方比較均衡、識別率較高的一組參數值,這組參數值,就是訓練后得到的結果,這就是訓練的過程,也叫模型訓練。
如何訓練一個AI模型?
此前發布一個詳細的案例,訓練的模型是用來對手寫數字圖片進行分類的LeNet5模型。MindSpore是華為推出全場景AI計算框架,2020年3月28日宣布MindSpore正式開源。
首先是安裝MindSpore,MindSpore提供給用戶使用的是Python接口。安裝的時候,選擇合適的版本、硬件平臺、操作系統、編程語言、安裝方式。其次是定義模型,安裝好之后,就可以導入MindSpore提供的算子(卷積、全連接、池化等函數)來構建模型了。構建一個AI模型就像建一個房子,MindSpore提供的算子就像是磚塊、窗戶、地板等基本組件。
接下來是導入訓練數據集,什么是訓練數據集呢,剛剛定義好的模型是不能對圖片進行正確分類的,要通過訓練過程來調整模型的參數矩陣的值。訓練過程就需要用到訓練樣本,也就是打上了正確標簽的圖片。這就好比教小孩兒認識動物,需要拿幾張圖片給他們看,告訴他們這是什么,教了幾遍之后,小孩兒就能認識了。
那么這里訓練LeNet5模型就需要用到MNIST數據集。這個數據集由兩部分組成:訓練集(6萬張圖片)和測試集(1萬張圖片),都是0~9的黑白手寫數字圖片。訓練集是用來訓練AI模型的,測試集是用來測試訓練后的模型分類準確率的。
再接下來就是訓練模型,訓練數據集和模型定義完成后,就可以開始訓練模型了。在訓練之前,還需要從MindSpore導入兩個函數:損失函數,就是衡量預測結果和真實標簽之間的差距的函數;優化器,用來求解損失函數關于模型參數的更新梯度的。準備好之后,開始訓練,把前面定義好的模型、損失函數、優化器封裝成一個Model,使用model.train接口就可以訓練LeNet5模型了。最后就是測試訓練后的模型準確率。
訓練AI模型花費大
當然,模型訓練需要強大的算力支撐,尤其是參數量大的模型,花費極大。
比如OpenAI的語言模型GPT-3,這是一個大型的、數學模擬的神經網絡,從網絡上抓取大量文本進行訓練后,GPT-3可以以驚人的連貫性預測哪些詞應該填在其他詞前后,生成流暢的文本。據估計,訓練GPT-3的成本接近500萬美元。
一些小企業想要訓練一個參數較大的算法,往往比較苦難。健康IT公司Optum的一位領導此前表示,他們團隊使用語言模型來分析通話記錄,識別哪些患者風險較高,哪些應該及早推薦轉診。只是訓練一個GPT-3大小千分之一的語言模型,也會很快耗盡團隊的預算。
Glean提供Gmail、Slack和Salesforce等應用程序進行搜索的工具,用于解析語言的新AI技術,可以幫助公司的客戶更快地發掘正確的文件或對話。
但是訓練這樣一個尖端的人工智能算法需要花費數百萬美元。Glean只好使用更小、能力更弱的AI模型,然而這些模型無法從文本中提取出盡可能多的含義。
小結
過去十幾年,AI取得了一些列舉世矚目的成績,包括在游戲中擊敗人類,讓汽車可以行駛在城市的街道上,AI自己編寫連貫的文字,做出可以媲美畫家的畫作。這都得益于數據量的不斷積累,算法的不斷優化,以及可以支撐算法訓練的算力的不斷強化。
然而,在發展的過程中同樣還存在一些問題。比如對于小企業來說,訓練高級AI算法成本高,這就會使得AI的全面應用受到阻礙等問題。當然AI整體呈現出快速發展的趨勢,業界也在不斷探索有利于AI發展的方式,比如大模型的出現,本身也是為了解決通用性的問題,比如說模型簡化,減少模型訓練所需要算力等。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
87文章
31536瀏覽量
270343 -
訓練模型
+關注
關注
1文章
36瀏覽量
3888 -
算力
+關注
關注
1文章
1016瀏覽量
14959
發布評論請先 登錄
相關推薦
GPU是如何訓練AI大模型的
在AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
大語言模型的預訓練
隨著人工智能技術的飛速發展,自然語言處理(NLP)作為人工智能領域的一個重要分支,取得了顯著的進步。其中,大語言模型(Large Language Model, LLM)憑借其強大的語言理解和生成
【大語言模型:原理與工程實踐】大語言模型的預訓練
訓練數據時,數量、質量和多樣性三者缺一不可。
數據的多樣性對于大語言模型至關重要,這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠提供多樣的語言表達特征,如官方知識型數據、口
發表于 05-07 17:10
評論