文本分析(從原始人類語言中發(fā)現(xiàn)隱藏模式以實(shí)現(xiàn)更好的決策和預(yù)測的過程)為工業(yè)和預(yù)測性維護(hù)系統(tǒng)提供了多種好處。這些分析使工程師能夠利用原始文本數(shù)據(jù)輕松生成有關(guān)維護(hù)記錄的見解,并構(gòu)建故障預(yù)測算法以預(yù)防潛在問題。
以非公路商業(yè)空間為例,在建筑工地使用重型設(shè)備:如果一臺(tái)重型設(shè)備發(fā)生故障,它可能會(huì)在修復(fù)系統(tǒng)所需的時(shí)間和成本以及停機(jī)時(shí)間之間成為代價(jià)高昂的故障。施工停滯時(shí)的現(xiàn)場。傳統(tǒng)上,來自該設(shè)備的遙測數(shù)據(jù)已被用于構(gòu)建可預(yù)測未來故障的預(yù)測性維護(hù)模型。但是,機(jī)械師和操作員的文字說明中也包含有關(guān)過去故障及其原因的寶貴信息。工程師可以利用這些文本數(shù)據(jù)來增強(qiáng)預(yù)測性維護(hù)模型,并識(shí)別應(yīng)該解決的模式和故障模式。
文本分析的挑戰(zhàn)在于非結(jié)構(gòu)化的原始文本數(shù)據(jù)集的龐大數(shù)量,這可能會(huì)使分析工具不堪重負(fù)。這使得工程師更難快速、直觀地提取用戶可能獲得的所有有價(jià)值的信息。然而,工程師可以通過正確的工具和堅(jiān)持端到端的工作流程來克服這些障礙。
當(dāng)談到端到端的文本分析工作流程時(shí),工程師需要知道什么?工作流程有四個(gè)主要階段:
圖 1. 端到端文本分析工作流程。
第 1 階段:數(shù)據(jù)訪問和探索
文本數(shù)據(jù)將來自多種來源,包括數(shù)據(jù)庫、內(nèi)部文件存儲(chǔ)庫和 Internet,并采用多種格式。正確準(zhǔn)備數(shù)據(jù)是成功工作流程的關(guān)鍵因素。適當(dāng)?shù)臄?shù)據(jù)準(zhǔn)備將原始文本數(shù)據(jù)清理并預(yù)處理為“清理數(shù)據(jù)”以進(jìn)行分析。
以詞云為例。該模型將數(shù)據(jù)轉(zhuǎn)換為一種格式,使工程師能夠快速輕松地可視化正在使用的單詞以及數(shù)據(jù)池中最常用的短語。當(dāng)與應(yīng)用他們的領(lǐng)域?qū)I(yè)知識(shí)的工程師結(jié)合使用時(shí),詞云等可視化有利于更大的文本分析工作流程,因?yàn)楣こ處熆梢院苋菀椎匕l(fā)現(xiàn)數(shù)據(jù)可能遺漏的地方或需要更多清理的地方,因?yàn)樗麄兞私饨o定的典型問題或問題環(huán)境或用例。
第 2 階段:數(shù)據(jù)預(yù)處理
這些可視化還有助于指導(dǎo)需要采取的下一步行動(dòng)。如圖 2 所示,停用詞(不增加價(jià)值的低信息詞)很常見,它們的存在會(huì)影響可視化結(jié)果。在工程師開始模型開發(fā)過程之前,他們必須清理原始文本數(shù)據(jù),以便過濾掉這些“停用詞”并輸入真實(shí)、重要的數(shù)據(jù)以傳遞給建模過程。預(yù)處理階段允許用戶從原始文本中提取有意義的單詞。
數(shù)據(jù)清洗通常是數(shù)據(jù)分析中最耗時(shí)的部分,根據(jù)數(shù)據(jù)量,清洗步驟可能需要多次迭代。但是,由于投入額外的時(shí)間和所需資源而產(chǎn)生的投資回報(bào)率允許稍后在文本分析工作流程中建立更準(zhǔn)確和成功的模型。在許多情況下,干凈的詞云會(huì)傳遞更多關(guān)于文本頁面上實(shí)際內(nèi)容的信息。
圖 2. 預(yù)處理數(shù)據(jù)。
Text Analytics Toolbox等工具通過為文本數(shù)據(jù)的預(yù)處理、分析和建模提供算法和可視化,幫助用戶為模型構(gòu)建過程做好準(zhǔn)備,從而為解決數(shù)據(jù)清理痛點(diǎn)的工程師提供支持。
這些工具從流行的文件格式中提取文本,對來自設(shè)備日志、新聞提要、調(diào)查、操作員報(bào)告和社交媒體等來源的原始文本進(jìn)行預(yù)處理,提取利用文本、數(shù)字和其他類型的數(shù)據(jù),將文本轉(zhuǎn)換為數(shù)字表示,然后構(gòu)建統(tǒng)計(jì)模型。
第 3 階段:預(yù)測模型構(gòu)建
清理和預(yù)處理數(shù)據(jù)后,就可以開始使用機(jī)器或深度學(xué)習(xí)算法構(gòu)建預(yù)測模型了。
這就是文本分析的優(yōu)勢所在:它發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式并以直觀的格式顯示它們,使用戶能夠消化數(shù)據(jù),然后采取糾正措施來解決問題,然后再進(jìn)一步進(jìn)入工作流程。
以將純文本數(shù)據(jù)轉(zhuǎn)化為數(shù)字形式為例。工程師可以應(yīng)用諸如“詞袋”之類的建模方法,它根據(jù)提供的文本數(shù)據(jù)創(chuàng)建一個(gè)數(shù)字矩陣,顯示每個(gè)詞的使用頻率。然后,工程師可以從那里使用預(yù)測模型,例如潛在狄利克雷分配 (LDA) 模型,該模型可以擬合到詞/頻矩陣,以發(fā)現(xiàn)文本數(shù)據(jù)集中隱藏的主題和見解。
如圖 3 所示,LDA 模型可以生成與數(shù)據(jù)中的“隱藏主題”相關(guān)的詞云,顯示模式如何從將文本數(shù)據(jù)擬合到該預(yù)測模型中開始出現(xiàn),有助于為相應(yīng)問題的創(chuàng)建解決方案提供信息。
圖 3. 使用 LDA 方法自動(dòng)識(shí)別工廠報(bào)告數(shù)據(jù)中的主題。主題 2 與電子問題有關(guān)。主題 3 與流體系統(tǒng)的問題有關(guān)。
一旦模型(例如上面示例中的模型)使用新的敘述進(jìn)行測試以驗(yàn)證模型的預(yù)測是否正確,就可以建立自動(dòng)警報(bào),以便系統(tǒng)在任何需要注意的問題上向響應(yīng)團(tuán)隊(duì)發(fā)送標(biāo)志。如果位置數(shù)據(jù)也可用,結(jié)果會(huì)發(fā)現(xiàn)某些主題(例如,標(biāo)記的問題)與其位置數(shù)據(jù)之間存在相關(guān)性,因此該模型還可以通過使用多個(gè)數(shù)據(jù)流來補(bǔ)充文本數(shù)據(jù),提醒響應(yīng)團(tuán)隊(duì)注意基礎(chǔ)設(shè)施方面潛在的更大問題。
第 4 階段:洞察力和預(yù)測模型部署
使用文本分析設(shè)置模型并驗(yàn)證可接受的性能后,有多種方法可以與工程團(tuán)隊(duì)和/或管理層共享結(jié)果和模型,包括生成報(bào)告或交互式筆記本(例如,MATLAB 實(shí)時(shí)編輯器)、溝通將數(shù)據(jù)傳輸?shù)阶烂婊?Web 應(yīng)用程序(例如,MATLAB App Designer),或?qū)?yīng)用程序托管在生產(chǎn)服務(wù)器或 Web 應(yīng)用程序服務(wù)器上。
對于工業(yè)自動(dòng)化、機(jī)械、汽車制造、航空航天設(shè)計(jì)或能源分配等行業(yè)的工程師來說,文本分析可以幫助他們執(zhí)行復(fù)雜的數(shù)值分析,以識(shí)別可以帶來更好結(jié)果并改進(jìn)預(yù)測性維護(hù)等功能的想法和概念組。
審核編輯:郭婷
-
matlab
+關(guān)注
關(guān)注
186文章
2983瀏覽量
231189 -
編輯器
+關(guān)注
關(guān)注
1文章
807瀏覽量
31328 -
航空航天
+關(guān)注
關(guān)注
1文章
399瀏覽量
24524
發(fā)布評論請先 登錄
相關(guān)推薦
NX CAD軟件:數(shù)字化工作流程解決方案(CAD工作流程)
![NX CAD軟件:數(shù)字化<b class='flag-5'>工作流程</b>解決方案(CAD<b class='flag-5'>工作流程</b>)](https://file1.elecfans.com/web2/M00/05/C8/wKgZomberEOAN841AAAsGK6TY38525.png)
模數(shù)轉(zhuǎn)換電路的四個(gè)過程
AI工作流自動(dòng)化是做什么的
LJ40B4-20J/EZ常開型接近開關(guān)工作流程及接線圖
如何使用自然語言處理分析文本數(shù)據(jù)
用CPLD控制ADS7229,工作流程是怎么樣的?
淺談無刷電機(jī)的工作流程
![淺談無刷電機(jī)的<b class='flag-5'>工作流程</b>](https://file1.elecfans.com/web1/M00/F4/E0/wKgaoWcy7C6AE8OpAAAyDPM9qmo802.png)
邏輯組件中的流程塊節(jié)點(diǎn)通常出于什么用途
人員定位系統(tǒng)的原理和工作流程
![人員定位系統(tǒng)的原理和<b class='flag-5'>工作流程</b>](https://file1.elecfans.com/web2/M00/FA/C7/wKgZomaOVE6ATBiTAAIaQb9eKY0750.png)
利用TensorFlow實(shí)現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型
卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用
自動(dòng)化IC封裝模擬分析工作流程
![自動(dòng)化IC封裝模擬<b class='flag-5'>分析</b><b class='flag-5'>工作流程</b>](https://file1.elecfans.com/web2/M00/C2/1B/wKgZomXgKimAKUIdAAA9lGgn6AA745.png)
Linux啟動(dòng)流程基本分析
![Linux啟動(dòng)<b class='flag-5'>流程</b>基<b class='flag-5'>本分析</b>](https://file1.elecfans.com//web2/M00/E5/25/wKgaomY_EnCAZEZEAABmJsWW0ew914.png)
鴻蒙原生應(yīng)用元服務(wù)-訪問控制(權(quán)限)開發(fā)工作流程相關(guān)
Ansys與SynMatrix合作,簡化無線通信射頻濾波器設(shè)計(jì)工作流程
![Ansys與SynMatrix合作,簡化無線通信射頻濾波器設(shè)計(jì)<b class='flag-5'>工作流程</b>](https://file1.elecfans.com/web2/M00/C7/59/wKgZomYTTK2AHj7cAAAjHXQRVwk902.jpg)
評論