“
伴隨著工業企業對數字化應用需求的日益高漲,基于工業大數據建模,已成為行業內的熱議話題。然而在這一過程中,人們常常過度強調數據算法,卻忽視業務相關的知識,這給工業模型的實用性和可靠性帶來了重重挑戰。
”
為什么工業大數據的數據建模如此重要?在建模過程中,企業首要考慮的因素有哪些?又該如何搭建一個符合自身實際需求的模型呢?
請看原寶鋼首席研究員、工業大數據資深專家郭朝輝博士,在2022(第十一屆)全球自動化和制造主題峰會上的演講。
郭朝暉演講內容梗概
工業大數據建模:兩個靈魂拷問
Q1
為什么有了理論模型,還要數據建模?
任何一個理論模型都需要參數,牛頓定律也不例外,更何況對于復雜的工業系統,若干個子系統都需要各自的參數。但這些參數往往是吃不準,或者有很大誤差,或者沒法測量,在這個情況下,機理模型不是沒有,而是沒有用的條件。
工業中有大量知識,這些知識的特點是都可以用物理學原理推導出來。即使算不出來也沒關系,把它記錄下來下次就會有標準和依據。它也不是理論推導不出來,而是不方便推導,在應用過程中,直接用實際的結果來算就完事了。
Q2
很多工業關鍵知識都實現了標準化,
為什么還要建模?
標準往往都是固定的,所以應對不穩定的生產過程,標準是需要修改的。靜態的標準往往不成,我們需要用動態標準來以變應變,這就需要用模型來幫助我們制定標準,所以模型其實也是有用的。
解決完這兩個問題,我們要知道標準從何而來。在工業大數據時代,有一種很好的辦法——歷史上這樣發生過,下次再出現問題,就讓計算機“跟著學”(NN、KNN、CBR)。我們不用把它想的太復雜,比如深度學習、神經元等,在多數情況下都沒那么復雜。
然而,在數據不多的時候,能跟著誰去學呢?過去,對一臺設備的故障進行診斷,數據記住后,故障如果十年發生一次,再過10年設備就報廢了,有了數據也沒機會學。而工業互聯網,可以把成千上萬臺類似的設備放在一起,發生一次故障就可以作為一個知識記下來,這也是工業大數據真正的意義所在。
常見的模型:基準選擇+矯正
至于如何提高模型精度,由于生產過程參數在不斷變化,“一竿進洞”往往很難達到,這就需要我們分步走,即首先跟著成功案例,選擇一個基準來學習,再根據差別進行補缺和調整,以獲得更高的精度。當然,現實中調整是需要數據來提供支持的。
比如說X測不到,但你知道變量Z,就可以根據它的變動來做調整。在工業大數據的背景下,數據條件也會越來越好,跟X接近的變量會越來越多,模型也會越來越好。然而,這個過程中也會產生新的問題。過去是Y=f(X,C),用了Z后真正的數據模型就是Y=H(Z,C),選不同的Z,H就會不一樣。所以工業過程由于缺少數據,由于變量不同,數據模型的結果可能也完全不一樣。
現實數據模型和理論模型不一樣
那么,工業建模在數據不完整的情況下,如何選擇變量?我們需要明確一點,精度并不代表一切,應用價值好才是最終目的。這看似不能接受,但哪怕是微積分在內也是這樣。數據建模和機理模型往往是不一樣的,但是在一定的范圍內有用就行了。
正確認識現實的模型:對錯與實用是兩碼事
當然,在工業大數據的基礎上,我們有機會在保障精度的同時追求真實性,這就是所謂的“第四范式”。但這個事情非常難,可能需要一二十年的功夫,因此多數企業在做選擇時要慎重。精度、正確性和它的應用范圍,有可能是存在矛盾的,要根據實際的需求來決定。
理解實用的模型:精度與可靠性
實用模型的關鍵有三點:精度、應用范圍,以及二者是否是可知和穩定。眾所周知,工業領域對于穩定性的要求非常高,模型正確的時候能帶來好處,但錯誤的時候同樣會帶來壞處。人們常說的平均精度高,就是需要在過程穩定的時候高,而穩定可能占了99%的情況,但人們往往是在過程不穩定的時候需要模型。
傳統模型往往只適合特殊情況,因此,如果精度不能持續,精度再高都沒用。工業大數據之所以能適合于各種各樣的場景,是因為它能拿到對象方方面面的屬性,且提供了更多角度來識別場景,以便在具體場景下,也能做識別和精度調整。
此外,很多人對機器學習也有理解偏差。首先,機器學習并不意味著要做多么復雜的模型;另外,智能化時代的模型往往針對大系統,而大系統的參數本身是不斷漂移的,如果沒有跟著漂移的機制,模型用幾天就慢慢不能用了,所以針對生產過程的模型,機器學習就是來應對模型參數漂移的。
此外,只要是基于數據的定量模型,幾乎都會有誤差,當然有的邏輯模型可能沒有誤差,或者有的能知道有多大誤差等。因此,我們就要考慮誤差和應用場景需求的匹配,這非常重要。
實用模型的背后:數據質量是關鍵
模型使用的根本是高質量的數據。當建立數學模型的時候,人們總希望它的穩定度高,而現實中不穩定是一種常態,對同一對象,這個月和下個月建出的模型,它的數據參數會相差很遠。
有一個重要的原因是,我們建??倳谝粋€工作點,或者特定的場景附近,這樣做測量的時候,它的波動相當大的一部分,不是對象參數的波動,而是由于測量過程的干擾。測量精度決定了控制精度,測量誤差和實際波動,往往是處在一個數量級上的。
此外,在建模的時候,輸入誤差不可忽略,這就會導致“有偏估計”,即誤差最小的模型往往是錯的,因為輸入是錯的,誤差小是“錯錯得對”引發的。任何一種方程或是建模方法,只要你追求的是誤差最小,其實它都會偏離真實的問題。
因此,在模型精度不高時,首先應該關注的不是算法,而是數據質量。寶鋼信息技術的奠基人何麟生先生曾提過“數據不落地”,即為了保證數據的真實性,數據的產生和存儲過程不經過人。因為很多數據,不是為了建模而產生的,它的質量往往不能達到要求。這涉及到了數據采集過程的標準化,只有解決數據的質量問題,才能把數據建模做好。
工業大數據的意義在于促進智能化
除此之外,數據建模的基本條件,是要讓數據的因果關系能對應得上。這聽起來簡單,但做起來難。數據質量不僅是數據精度的問題,更重要的是數據對應關系,這與采樣頻度等因素息息相關。我們要知道,工業大數據并不等同于互聯網大數據。工業大數據數據“大”,并不能保證做的好,但是數據“大”能為提高數據質量創造條件,并為后期數據建模、根因分析鋪平道路。
軟件角度看模型:關鍵還是可靠
現代工業,尤其是自動化程度很高的行業,執行工藝都會讓計算機執行,所以現代化工業知識和訣竅,也都寫在計算機里面。因此如果不懂計算機軟件,是把握不住工藝的細節的,學習知識就會面對“天花板”。
從工業軟件的角度認識“模型”
早在20多年前,當時本人建議寶鋼公司重視數學模型,領導也給予了充分重視。通過知識和數學模型計算的融合,寶鋼經過10多年的努力,全部掌握了引進技術,徹底解決了這類問題,中國鋼鐵行業再也不會被卡脖子了。
那么,工藝的數學模型是什么?舉個例子,工業生產的過程中,在各種事件和場景變化下,我們想要控制某個參數,比如一個鋼胚的表面溫度,這和傳統控制的固定工作點做自動控制是不一樣的,需要計算和數學模型兩者間進行融合。
有一種計算機概念叫“自動機”,而工業界所說的數學模型,其實就是一種工業APP。要在工業場景不斷變化的過程中執行任務,完成控制靠自動化能力,而感知場景的不斷變化,則需要通過信息系統,因此,信息系統和控制系統的集成至關重要。
現如今,模型開發80%的時間都會花在保障可靠性上,這也是難點所在。比如要考慮模型運行是否會出現意外、歧義和異常,處理異常的方法是否完備等,為了穩定可靠性,模型的編程方式也會不一樣。
軟件開發追求的重點不是效率、新穎,而是穩定
結語
我個人認為,軟件編程開發適合“有罪推定”原則,即如果你不能證明你的代碼是正確的,你就要拿回去重寫。因為現場無小事,無論是軟件開發還是建模的過程,開發效率高、模型精度高都是次要的,安全穩定性才是最重要的,只有這個問題解決了,模型的實用性才能得到保障。
審核編輯 :李倩
-
建模
+關注
關注
1文章
316瀏覽量
61466 -
數字化
+關注
關注
8文章
9326瀏覽量
63123 -
工業大數據
+關注
關注
0文章
72瀏覽量
8016
原文標題:郭朝暉:回答工業大數據建模的兩個靈魂拷問
文章出處:【微信號:控制工程中文版,微信公眾號:控制工程中文版】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
工業大數據管理平臺是什么?有什么功能?
京東工業大模型Joy industrial重磅發布
如何把兩個數據返回給調用函數
ADC124S021同時使用兩個通道,兩個通道的轉換數據發生串擾怎么解決?
德州儀器推出兩個全新系列實時微控制器
如何讓兩個設備通過4G進行點對點數據映射

單相電機兩個繞組都在定子上嗎
ad如何設置兩個元器件的距離
功放機AB兩個聲道輸出怎么接
LMK05318具有兩個頻域的超低抖動網絡同步器時鐘數據表

評論