以數字化技術和能源互聯網理念為驅動的“數字新基建”對現有調度自動化系統的數字化轉型提出新的挑戰,該文考慮調控數據存儲規模、數據加工復雜度和數據服務多樣化的需求,提出電網調控大數據平臺的體系架構。在此基礎上,研究了多源調控數據集成與融合、異構數據庫分層統一存儲、調控數據資產管理、大數據算法引擎等關鍵技術,實現全業務、全場景的電網調控數據匯集、加工和資產管理。該技術方案為調控云智能分析應用提供了存儲、數據和算法的有力支撐。
0 引言
電網調度自動化系統作為電網運行的重要技術支撐,伴隨著三代電網的發展而不斷完善[1],系統建設也從引進消化逐步發展為全面國產化,經過多年運行積累了豐富詳實的數據資源。然而,煙囪型的建設模式使這些數據分散在不同調度機構、不同專業、不同安全區,存在系統獨立維護、數據類型多樣、統一決策困難等問題[2],當前依托于確定性公式、模型、參數及孤立式數據的電網分析模式,將難于應對特高壓交直流混聯大電網運行風險不斷累積、新能源消納矛盾突出、市場化改革快速推進等諸多挑戰。
近年來,隨著計算能力提升、數據爆發增長、機器學習算法進步、投資力度加大,大數據技術迎來了繁榮時期,在引領新一輪科技革命和產業變革中扮演著重要角色,受到各國政府、學術界和產業界的廣泛關注[3]。大數據技術與物聯網、云計算技術共同為電網調控領域的再次創新提供了推動力。大數據思維將各種數據資源從簡單的處理對象轉變為生產的基礎要素,與大能源思維融合為大能源系統廣泛互聯、開放互動及高度智能提供有力支撐。大數據技術[4-5]涵蓋了從信息產生、采集、存儲、轉換、集成、挖掘分析等全生命周期,需要具備從不同類型的多源異構數據中,快速提煉出有價值信息的能力。
電力大數據既是“AI+電力”的重要基礎[6-9],也是銜接智能電網與人工智能應用的橋梁。電力系統擁有來自能量管理系統(energy management system,EMS)、調度管理系統(operation management system,OMS)、生產管理系統(production management system,PMS)、廣域監測系統(wide area measurement system,WAMS)、配電管理系統(distribution management system,DMS)、電能量計量系統(tele-meter reading system,TMR)、地理信息系統(geographic information system,GIS)等多個業務系統的結構化、半結構化和非結構化數據,具備大數據的規模大、數據多樣、價值密度低和高速性等特性,智能電網大數據技術研究已廣泛開展,其中包括針對電網調控領域特定場景的大數據平臺及應用研究[10-14],實踐成果展現了大數據在存儲、計算、分析挖掘等方面的技術優勢。但已有研究成果多從單一或特定場景構建大數據挖掘分析,未從支撐調控全景數據接入、數據標準統一、數據共建共享和調控業務分析的角度考慮大數據平臺的體系架構與支撐能力建設[15-16]。隨著以新能源為主體的新型電力系統建設開展,調度運行對擴展數據管理的范疇,以及提升數據深度應用支撐能力提出了新的需求,而當前調控運行信息分布分散、數據分析挖掘深度不夠,還存在數據存儲時間長短不一、缺乏統籌規劃、數據冗余重復以及缺少調控領域挖掘算法等問題[17]。調控云平臺是解決上述問題的一種可行方法,其總體架構指出需要突破的模型數據平臺、運行數據平臺、實時數據平臺和大數據平臺關鍵技術[17]。其中大數據平臺實現數據采集、數據存儲、數據處理、數據分析挖掘等功能,為大數據存儲、計算、分析等提供統一的平臺支撐。
為充分發揮調控全景數據資源優勢,實現調控業務精益管理,本文結合調控云“資源虛擬化、數據標準化、應用服務化”的調度信息化支撐體系[17],從支撐調度智能分析、驅動業務發展的角度,對調控云中大數據平臺的總體架構設計展開論述,并詳細闡述了大數據平臺關鍵技術,為后續大數據技術在電網調控領域的研究與發展提供了有益參考。
1 系統總體架構1.1 體系架構
調度自動化系統既是工業控制系統,也屬傳統意義上的信息化系統,具有雙重屬性。為實現未來強耦合互聯電網的全業務場景支撐,未來新一代調度自動化主站系統將過渡到雙平臺模式,由生產控制平臺與調控云平臺組成“一體兩翼”,形成“雙輪驅動”的應用態勢。生產控制平臺繼承智能電網調度控制系統(D5000)成果,服務于“雙高”電網一體化運行控制目標,有效支撐“綠色低碳、安全高效”能源體系運轉。調控云是面向電網調度業務的云服務平臺,其PaaS層數據平臺細分為模型數據平臺、運行數據平臺、實時數據平臺、大數據平臺和人工智能平臺等5個部分。其中大數據平臺是調控海量數據管理與數據服務中心,一方面實現海量數據的匯集與存儲,另一方面實現數據加工、數據分析挖掘等功能,將數據資源進行資產化,通過數據服務的形式實現數據共享共用。大數據平臺在調控云的功能定位如圖 1所示,大數據平臺構建于基礎資源和公共組件之上,與模型數據平臺、運行數據平臺和實時數據平臺之間存在約束關系,為人工智能平臺提供數據、樣本和計算環境,通過數據服務支撐大數據應用。
圖 1 大數據平臺在調控云的功能定位Fig. 1 Logic structure of the big data platform in dispatching and control cloud
1.2 數據特點
智能電網大數據按數據來源分為電網內部數據和外部數據,按結構化特征分為結構化數據、半結構化數據和非結構化數據,按時變性分為靜態數據和動態數據,其中動態數據按采樣頻率和生命周期覆蓋從微秒級到年度級[18-19]。智能電網大數據具有來源分散、數據量大、種類多、價值大的特征。
調控大數據平臺管理的數據涵蓋智能電網大數據,為適應以新能源為主體的新型電力系統發展要求,還需要在此基礎上將數據的范圍擴展到跨電網層級,將數據種類擴展到負荷側資源、一次能源、二次設備和外部環境,以清晰描述和呈現電網空間特性,提供電力系統運行控制和計算分析的數據環境。
調控大數據平臺管理的數據種類覆蓋傳感測量、計算產生的自動化運行數據、調度管理產生的各類管理信息和能量交易產生的市場交易數據等。自動化運行數據主要包括廠站電氣量、設備開關量、外部環境、一次能源、可控負荷、廠站非電氣量以及衍生的各類指標、標簽等等。廠站電氣量主要包括發電廠、變電站、開關站、換流站電氣設備的電壓、電流、有功、無功、頻率等,對象范圍將擴展分布式電源、虛擬電廠等各類新型數據對象;設備開關量包括斷路器、刀閘、接地刀閘,擴展到繼電保護、系統保護、安控裝置、通信設備、自動化設備等;外部環境包括雷電、線路覆冰、山火,擴展到溫度、風力、降雨(雪)、臺風、地震;一次能源數據新增煤炭、天然氣、風能、太陽能、水能相關信息;可控負荷新增電動汽車、充電樁、空調、電采暖、大工業用戶負荷、蓄能鍋爐和儲能等;廠站非電氣量包括變壓器抽頭、變壓器油溫、發電環保數據,擴展網安信息。管理信息主要包括發電計劃、停電計劃、輸電計劃、資產數據、技術標準、全業務流程以及各類報表等等,可擴展基建施工、設備巡視、營銷服務等信息。市場交易數據主要包括交易電價、交易計劃、合同信息等等。
根據上述調控大數據范疇可知,調控大數據平臺存儲管理的數據需要兼顧自動化運行數據、管理信息和市場交易數據特征,對應的系統功能兼具工業自動化系統、管理信息系統和金融系統的特性,對調控大數據平臺提出技術挑戰。此外,為適應“統一管理、分級調度”的調度管理模式,調控大數據基于兩級大數據平臺分布存儲,對調控大數據平臺的數據統一管理和共享共用也提出了相應的技術要求。
1.3 部署模式
在部署模式上,大數據平臺遵循調控云總體架構設計,采用主導、協同節點兩級部署方式,其部署結構如圖 2所示。其中主導節點(國分大數據平臺)部署220kV以上主網模型數據及運行數據匯集處理,實現大數據匯集、處理及分析挖掘,并擔負全網調控數據資產統一管理角色;協同節點(省級大數據平臺)部署省調管轄范圍內全網模型并實現對應運行數據匯集、處理及分析挖掘,并遵從調控數據資產管理要求。兩級大數據平臺通過資源高速同步網部署統一的運行數據服務以實現不同電壓等級運行數據的透明共享,確保在主導節點和協同節點均能獲取到全網全電壓等級運行數據。
圖 2 電網調控大數據平臺部署示意圖Fig. 2 Deployment of regulate big data platform
1.4 軟件架構
電網調控大數據平臺軟件功能上的基礎組件與工業大數據相關行業類似,但適應電網“統一管理、分級調度”的特點、數據分散采集的特點,以及遵循調控云架構“資源虛擬化、數據標準化、應用服務化”的要求,技術功能上更側重數據的統一管理和服務的共建共享。大數據平臺一方面實現電網海量數據的匯集與存儲,實現物理分布、邏輯統一的數據管理;另一方面實現數據加工、數據分析挖掘等功能,將數據進行資產化,并通過數據服務的形式實現數據共享共用。
大數據平臺主導與協同節點的技術路線一致,本文重點從國分大數據平臺角度介紹。大數據平臺軟件體系架構如圖 3所示,按照“存、通、用”的設計思路,結合調控運行和管理業務數據特點及應用需求,在Hadoop等基礎組件之上,從數據處理角度將大數據平臺功能分為數據匯集、數據加工、數據服務3層,以及數據管理和數理方法等支撐功能。
圖 3 電網調控大數據平臺的體系架構Fig. 3 Technology architecture of the regulate big data platform
數據匯集面向廣域分布式業務系統,通過消息總線匯集來自SCADA、OMS、PMS、DMS、WAMS、TMR、GIS、調度計劃、負荷預測、綜合智能告警、現貨市場技術支持系統、數值天氣預報、二次設備監視等多種廣域異構源系統的調控數據,通過數據交換方式匯集來自政府、氣象、公共服務部門、商業機構、電力市場成員和互聯網的調控中心外部數據,技術上通過流式采集或者ELT(抽取、加載、轉換)工具完成數據同步。
數據加工將匯集存儲的原生數據通過算法加工、計算、聚合形成可讀取、更具有使用價值的數據,典型調控數據加工結果包括統計特征值、指標數據、標簽數據,例如發電有功功率日最大值、日最小值,線路年可用率、發電機年利用小時數、預測準確率、計劃執行偏差率等等。
數據服務通過國分、省級大數據平臺的統一數據服務接口將大數據平臺存儲管理的各類數據提供給上層應用,以自助式數據分析建立數據價值應用生態,促進數據內增值、外增效,為高效互動、智能開放的能源互聯網調度管理提供技術支撐。
此外,為解決調控大數據缺乏統籌規劃、數據冗余重復等問題,配置數據管理功能,實現兩級大數據平臺的數據統一管理。數據管理建立涵蓋數據資產規劃、數據資源目錄、數據資產目錄等功能的數據資產管理體系,實現數據分布感知、價值激活和價值評估的統一管理,同時具備數據檢測、計算管理、主題管理、數倉目錄和數據血緣等功能,提高多源、多類型、多調控對象在各級調控中心的匯集和加工效率,實現物理分布、邏輯統一的數據標準化。為支持數據深度分析挖掘,配置豐富的數理方法,支持涵蓋數理統計、機器學習及深度學習的上百種調控通用和專用算法。
2 電網調控大數據平臺關鍵技術
調控大數據平臺的關鍵技術包括多源調控數據集成與融合技術、異構數據庫分層統一存儲技術、面向調控對象的調控數據資產管理技術和面向業務分析的數理方法引擎等。
2.1 多源調控數據集成與融合技術
為實現電網調度信息的全局統一規劃,實現跨專業、跨調度機構的數據共享,調控云建立了電力調度通用數據對象結構化設計機制[20],確立了對象ID編碼規則、元數據建模規則。本文結合電力調度通用數據對象結構化設計方法,設計調控數據編碼、多源數據匯集、多源數據質量和異構調控信息融合方法,解決海量調控數據標準化管理、數據全面匯集和數據共建共享問題。
2.1.1 調控數據編碼
大數據平臺管理了海量的調控數據,既包括電網模型數據,也包括電網運行數據、文資數據和知識數據。截止到2021年5月,國分大數據平臺管理的數據量已達到1.46萬億條,數據規模超過2000萬個,數據種類超過600個,其具有多源異構、規模大、更新速度快、價值密度低且時間序列性強的特點,傳統數據處理技術難以滿足應用對數據進行多維度分析的需求。針對調控數據大量來自終端設備采集和派生的特點,本文在電力調度通用數據對象ID編碼的基礎之上設計了一種調控數據組合編碼方法,實現更為精細的調控數據建模。調控數據編碼表示為四元組 《 對象類編碼,對象編碼,數據管理機構代碼,數據編碼 》 ,其中對象類編碼對應電力調度通用數據對象ID的4位“大類碼”、“小類碼”,對象編碼對應電力調度通用數據對象的ID,數據管理機構代碼對應電力調度通用數據對象結構化設計的數據管理機構代碼,數據編碼是8位全局唯一類型編碼。
典型的調控數據編碼如表 1所示。大數據平臺處理的數據以電網一次設備運行數據為主,也包括設備的參數數據、環境數據、操作數據,以及交易數據、社會經濟數據等等,調控數據編碼可以精確表述上述調控數據更細粒度的物理含義,且調控數據編碼在兩級大數據平臺之間充分共享,保證了兩級大數據平臺之間數據定義的一致性,為實現多級調控中心全域數據統一建模奠定了基礎。調控數據編碼按照上述四元組的規則編制和擴展,新增調控數據類別時,依據新增數據對象的對象類編碼和數據對象編碼進行擴充,即可形成新的數據編碼,具有良好的可擴展性。隨著業務發展存量調控數據不再匯集管理時,可將對應數據歸檔,同時該調控數據編碼狀態置為當前無效,該機制為調控數據的全生命周期管理提供支持。
2.1.2 多源數據匯集技術
電力系統的海量數據集成技術已得到應用,例如電力營銷系統數據集成、特高壓電網調度自動化系統數據集成和配電網規劃數據集成等[21-23]。
大數據平臺采用廣域分布式部署架構,數據取自SCADA、OMS、TMR等等多類源端調控系統以及調控云上的各類業務應用。運行數據源端部署于國調、網調、省調、地調以及外部系統接口端等,數據主要采用基于消息的多源數據分布式匯集方法,定義電力、電量、計劃、預測、氣象、告警、事件等各類數據的消息報文規范,并基于調控云廣域消息總線完成分布式數據匯集。運行數據源端和大數據平臺的基礎模型均取自模型數據平臺,由運行數據源端管理ID映射表,映射到源端調控系統的模型對象ID。在發送數據時,運行數據源端通過ID映射表讀取源端調控系統對象數據并按照映射的云端對象ID上送至大數據平臺。截止到2021年5月,調控大數據平臺已經部署的運行數據源端已超過20種、300個。為保證數據匯集的可靠性和實時性,大數據平臺融合KAFKA和FLINK等流計算技術,建立多消費者實例負載均衡等技術提高數據吞吐能力、可靠性和實時性。并針對廣域環境下通訊中斷或流程銜接不緊密導致數據斷流的風險,進一步建立數據補發、補召機制,對特定時間點數據進行源端補發或者云端補召。考慮數據準確性和可靠性要求,大數據平臺采用多源機制,針對重要一次設備的電力電量數據等由國網省多個源端系統采集及存儲。
2.1.3 多源數據質量管理技術
能否實現數據到信息的挖掘,與數據質量密切相關。MIT等機構對數據質量管理開展了多項研究[24-26],國內也有學者開展了電力數據質量表征、評估和提升技術研究[27-30],大數據平臺在此基礎之上針對電網調控數據特點對數據檢測與清洗技術進一步優化。在數據檢測環節中,根據電網運行數據的特點對數據質量問題進行分類,依據數據的完整性、及時性、準確性等質量檢測維度,針對每類質量問題定制質量診斷方法,并根據現有的問題和特征,預測未來的數據質量問題。在數據清洗環節,根據電網運行數據多源異構、規模大、更新速度快、價值密度低且時間序列性強的特點,完成全網多源數據處理、缺失值處理、異常值處理、合理值處理,并完成質量治理反饋。
全網多源數據處理策略是根據運行數據關聯的電力調度數據對象所屬調度管轄權默認選取,并在默認數據源數據質量異常時,自動選擇其他正常數據源的數據。例如省級調度機構調管對象的數據優先選擇對應來自省級數據管理機構的數據序列,當省級數據管理機構數據異常時選擇國調或網調數據源。
缺失值處理采用均值或中位數等統計特征量替代、人工神經網絡或決策樹等機器學習方法補充方式處理,并在數據質量位中標記,便于人工干預修正。缺失值處理策略適用于調控數據中的典型連續型數值序列,例如電力電量的采集計算值、計劃數據及預測數據等。
異常值處理針對由于人工錯誤、數據采集設備故障、通信信道故障或其他因素導致的和數據樣本偏離正常值的問題進行修正。大數據平臺設計監督式、非監督式和半監督式3類方式實現異常值處理。監督式由專家對異常數據進行標記訓練,并在此基礎上建立分類模型對其他數據進行判別;非監督式采用統計指標、距離指標等異常指標判斷數據異常;半監督式基于部分專家標記異常數據樣本,并與非監督式方法結合進行判定。異常值處理策略適用于典型連續型電氣量,例如發電電力、受電電力等。
合理值處理基于電力系統本體特征,采用多個調控對象或者同一調控對象的多個屬性進行綜合分析識別數據質量異常,主要方法包括平衡分析、閾值分析、電力電量分析、潮流分析、狀態估計等等。典型的例如通過變電站功率平衡分析,識別出線的有功數據異常;通過頻率上下限閾值分析,識別頻率值異常;通過電力數據的積分計算,識別電量數據異常;通過狀態估計,辨識壞數據等等。合理值處理策略需要結合數據和業務特征開展,適用典型連續型電氣量數據、氣象數據和指標數據等等。
2.1.4 異構調控數據信息融合
大數據平臺管理了調控領域的海量異構數據,既包括來自監控系統的運行數據,也包括調度管理產生的業務數據,以及來自外部的環境、經濟等關聯數據。這些來自不同業務系統源的數據常常具有關聯性或互補性,通過對多領域多源數據融合,可以挖掘出傳統方法無法獲得的知識。大數據平臺的數據融合主要采用多視角數據融合和基于相似性的數據融合方法。
多視角數據融合方法將與某一電網調度數據對象相關的多源異構數據進行融合,獲得對該電網調度數據對象更為全面和準確的認知。以電網數據對象為例,目前已融合363類數據,將與特定電網對象相關的總加、電量、頻率、拓撲、氣象、日前計劃、日前預測、故障、拉路、限電、錯避峰等數據通過電網對象關聯起來,這樣既可以在時間分析上預測未來信息,也可以在因果分析上追溯故障影響范圍等。為進一步強化多視角數據融合,大數據平臺將典型的指標和統計特征值[31]納入平臺范疇,根據對象特性和業務需求,按時間、空間、目標、業務等不同維度,給出指標計算和特征值統計方法,為實時控制、設備檢修、清潔能源消納等電網運行管理提供量化依據。
基于相似性的數據融合方法針對2個調控數據對象存在一定相似性的現象,將一個調控數據對象的數據用于對另一個類似調控數據對象的數據分析。以電網特性分析為例,在分析外送型電網運行特征時,當某一地區電網歷史數據不足以支撐數據挖掘算法時,可以選擇與之相似的另一個電網對象的數據進行分析加權,得出支持度較高的分析結果。為進一步強化相似性數據融合,大數據平臺建立標簽管理機制,形成例如創新高、極熱無風、柔性電網、外送型電網、潮汐型電網等若干典型標簽,利用業務應用提供的關鍵詞進行信息組織,提高電網業務數據聚類效率。
為進一步強化融合數據管理,大數據平臺建立了主題管理機制,將主題數據按照業務主題域劃分,面向用戶提供主題概覽、應用分析表管理、相關聯數據查詢等功能,以多層級可視化方式展示主題、應用、表類型和表,減少重復計算,實現數據共享。
2.2 異構數據庫分層統一存儲技術
如圖 4所示,大數據平臺采用異構數據庫混合部署方案,形成軟硬件分層解耦的混合存儲模式,充分發揮各類數據庫的技術優勢,實現海量數據的全息存儲與計算分析,提升平臺整體的數據服務效率。
圖 4 異構數據庫統一存儲與訪問Fig. 4 Unified storage and access of heterogeneous data
針對離線數據,將其存儲于易擴展的分布式存儲系統,承擔復雜的、時間窗口要求不高的、關聯較低的批量任務處理與海量歷史數據存儲。針對在線數據,將百億級以上時序數據存儲于分布式列數據庫(hadoop database,HBASE)中,承擔時序數據快速檢索任務;將千萬以上的海量結構化數據存儲于大規模并行數據庫(massively parallel processing database,MPP)中,承擔數據實時關聯、匯總分析、查詢與可視化任務;將千萬以內的小規模結構化數據存儲關系庫(relational database,RDB)中,承擔常規事務處理任務;將設備關聯圖譜、故障關聯圖譜等大規模關系網絡數據存儲于圖數據庫(graph database,GDB)中,承擔圖的匹配、關鍵字查詢、分類、聚類和頻繁子圖挖掘等基于圖論的數據挖掘任務。
為實現存儲在HBASE、MPP、RDB、GDB中調控數據的透明訪問,在服務接口層實現統一數據服務,數據服務基于后端管理的數倉目錄元數據實現在線、離線數據異構存儲訪問的統一。數倉目錄從物理層模型、電網對象模型、數據對象類型等3個維度,對數據庫、數據表、表結構信息和調控數據編碼等元數據信息進行統一管理,如圖 5所示。
圖 5 調控大數據多維存儲模型示例Fig. 5 An example of a multi-dimensional storage model for regulating big data
2.3 面向調控對象的調控數據資產管理技術
數據作為資源,伴隨著大數據時代支撐數據交換共享和數據服務應用的技術發展,不斷積淀的數據才可以逐步發揮數據的價值[33-35]。大數據平臺引入數據資產管理機制,定義調控數據資產及分類原則,實現數據資產管理功能,以支持調控數據全域范圍內準確規劃、定義和共享。
2.3.1 調控數據資產定義
數據資產是由企業擁有或者控制的,能夠為企業帶來未來經濟利益的,以物理或電子的方式記錄的數據資源[36],如文件資料、電子數據等。在企業中,并非所有的數據都構成數據資產,數據資產是能夠為企業產生價值的數據資源。
大數據平臺中管理的調控數據資產包括電網模型數據、運行數據、文資數據和知識數據等,是具有調控業務分析挖掘價值的數據資源,具有準確、一致、規范的定義。調控數據資產按照數據特征分類管理,分類采用線分類法和面分類法[37],分類維度包括業務屬性、數據屬性、時間屬性。
2.3.2 調控數據資產管理技術
大數據平臺的數據資產管理位于分析應用層和基礎平臺層之間,處于承上啟下的重要地位。對上支持以價值發現為導向的應用開發,對下實現數據全生命周期的管理,目標是整合調控數據架構、設計數據模型,提高數據存儲與操作的交互性,注重數據使用的安全合規性,以及數據價值的管理。調控數據資產管理技術主要包括數據資產規劃、數據資產目錄以及數據資產價值評估等。
數據資產規劃對各類對象的數據資產進行規劃管理,對數據資產類型和屬性建模,規范定義數據的業務含義和物理含義,明確數據匯集來源范圍,提升數據接入匯集、數據融合過程中的一致性。數據資產目錄對各類調控對象的數據資產可視化展示,通過靈活便捷的數據統計查詢,提高調控多源海量數據的訪問效率,并通過數據血緣追蹤數據的變化過程。數據資產價值評估從數據的熱度、時效、質量和價值密度等多個維度評估管理數據的價值屬性。
2.4 面向業務分析的數理方法引擎2.4.1 面向電網調控業務分析的主流算法
調控業務具有復雜程度高、準確性高、針對性強等需求,分析數據具有規模大、數據多樣化、價值密度低等特點,本節綜述了特征提取、關聯分析、聚類分析、趨勢預測、知識發現等主流算法特性及在電網規劃、檢修、建設、運行、監控等業務的適用性[38-39]。
1)特征提取。
特征提取是最大程度地刪除特征數據中各種冗余屬性,最終保留下有用的關鍵特征信息。特征提取算法常被用于電網穩定性評估、電力現貨市場、電能質量分析、狀態診斷等場景。目前,針對電力系統運行狀態的分析,常用的特征提取方法主要有主成分分析、屬性約簡方法、混合互信息法等。
2)關聯分析算法。
關聯分析算法能夠發現用傳統的方法無法發現的項與項或屬性與屬性間的關系規律,當業務存在業務關聯、因素屬性較多及需要進行共性關聯量化分析的時候,算法優勢明顯。因此關聯分析算法可以被用于設備故障分析及診斷、電能消費分析、設備家族缺陷分析等場景,有助于實現數據價值挖掘。目前關聯分析常用的算法有Apriori算法和FP-Growth算法。
3)聚類分析算法。
聚類分析是一種探索數據分組的統計方法,協助用戶進行更好的理解數據類別,當業務存在樣本缺乏明確的屬性、需要進行探索數據分類的時候,算法優勢明顯。如大規模電網系統負荷數據進行多維度、快速的分類,從而有效辨識系統負荷特性,協助制定合理和友好的負荷管理策略。聚類分析算法可以被用于用電行為特性分析、新能源發電預測、負荷分析等場景,為挖掘潛在的用戶、新能源及可控負荷提供數據支撐。常用的聚類算法包括層次化聚類算法、劃分式聚類算法、基于密度及網格的聚類算法等。
4)預測算法。
預測算法主要建立基于歷史、實時、外部環境等數據信息的預測模型,實現預測精度的提升,使預測的過程更為智能化、科學化,以預測的精確化支撐業務分析的精細化。因此預測算法可以被用于電力負荷預測、新能源發電預測、故障分析、成本預算、穩定性評估等場景,為對應業務場景提供數據支撐。目前常用的算法包括回歸分析、時間序列模型、神經網絡、隨機森林等。
2.4.2 數理方法引擎
考慮電網一體化及各類業務數據分散分布的特點,針對多源異構數據在時間維度、空間維度、應用維度等的關聯性,構建適用于電網調控運行的數理分析算法引擎,通過可視化、流程化的算法組件模式,實現更友好更便捷更高效地數據分析交互任務。
數理分析算法引擎的功能包括數據源管理、組件管理、工程管理、模型管理、任務調度管理,通過數據庫接口、離線文件方式獲取待分析數據,通過拖拽組件的方式進行算法任務編排,將數據輸入輸出、數據預處理、挖掘建模、模型評估等環節通過流程化的方式進行連接,通過任務調度實現數據源及算法工程的定時運行。
數理分析算法引擎融合多類算法框架與編程語言,解決了業務人員挖掘分析算法編程成本高、算法驗證與比較過程復雜的問題,在工程應用過程中,減少數據挖掘分析驗證與試錯周期。
3 工程應用
大數據平臺已經在國調、天津、四川、冀北等調控云工程中示范應用,實現了上述關鍵技術的部署測試,已經開展并完成了35kV以上電網運行數據的匯集與融合,提升了海量運行數據的質量,提升了大數據分析加工能力,實現了運行數據共享服務。
1)建立了調控數據全面匯集的技術體系。
截止到2021年5月,采用資產化建模形成600多個數據資產種類,匯集數據總量達到1.46萬億條,數據歷史可追溯至2010年。已經匯集的運行數據包括電力、電量、計劃、預測、告警、故障、氣象等,已經匯集的文資數據包括接線圖、標準制度等。通過持續開展的數據資產化以及數據匯集工作,可以逐步解決調控運行信息在各級調度機構分布分散管理,數據存儲時間長短不一、缺乏統籌規劃、數據冗余重復等問題。
2)提升了全網運行數據質量。
大數據平臺在通用檢測算法基礎上,結合了電網業務規則,形成28類校驗規則,并依據數據的一致性、完整性、及時性、準確性等質量檢測維度構建可配置、易擴展的電網全景數據校驗規則庫,每天定期對運行數據質量進行評估,通過多源數據的關聯互校核和長時間尺度海量遙測數據的綜合評估方法提升了數據問題檢出能力。國分大數據平臺日均匯集數據約18億條,通過算法規則改進,日檢出問題從6450個提高到6838個,問題檢出率提高了6.02%。進一步通過數據采集、融合、校驗、修正的全鏈路閉環管理體系運作,全面提升了全網運行數據質量。
3)提升了調控數據分析加工能力。
在基礎指標算法方面,目前國分大數據平臺已經加工形成主變負載率、線路可用率、頻率合格率、潮流越限運行累計時間和機組利用小時數等200余個常用調控運行指標,并建立了這些指標的涵義、計算方法、計量單位等標準。
在標簽算法方面,目前國分大數據平臺已經形成電網負荷創新高、發電創新高、線路重載、線路越限等30余個標簽,對快速進行電網和一次設備長周期特性分析提供支持。
在分析挖掘應用方面,實現了降溫及采暖負荷分析、短期系統負荷預測、停電窗口期智能編排等應用。
4)實現了調控數據應用服務的共建共享。
大數據平臺通過數據服務接口調用的形式將各類調控數據提供給上層應用。
數據服務分為原生數據服務和衍生數據服務兩大類。進一步按照數據類別細分,原生數據服務包括電力容器生熟數據服務、一次設備生熟數據服務、電量類生熟數據服務、電力容器特征值數據服務、一次設備特征值數據服務、檢修計劃數據服務、告警類數據服務、負荷預測類數據服務、電能計劃類數據服務等;衍生數據服務包括指標定義與查詢服務、標簽生成服務與標簽查詢服務、交流線路指標數據服務、變壓器指標數據服務、發電廠指標數據服務、發電機指標數據服務等。截止2021年5月,大數據平臺已經建設36類數據服務,實際運行測試平均服務響應時間不超過630ms,并實現了國分與省級大數據平臺之間的服務互通,采用全網通用數據對象ID即可直接獲取到所需的運行數據,實現全網海量運行數據按需服務、實時共享。
4 結論
電網調控大數據平臺依托調控云平臺構建,形成主導、協同節點兩級的“物理分布、邏輯統一”部署模式。針對調控大數據兼具工業自動化數據、管理信息和金融數據特性,在模型數據平臺實現電網模型統一管理的基礎之上,引入數據資產管理的方法,建議全網唯一的數據編碼,實現全網調控數據資產統一管理,明確數據標準、數據范圍、數據治理方法等。針對海量數據的全息存儲與計算分析需求,設計異構數據庫混合存儲模式,充分發揮各類數據庫的技術優勢,并在服務接口層通過統一數據服務實現數據透明訪問,提升平臺整體的數據服務效率。針對自動化運行數據周期采樣和多源管理的特點,引入多源數據匯集、多源數據清洗和異構融合技術,解決多源調控數據集成與融合問題,提高了調控數據的完整性、一致性、規范性,為調控智能分析應用提供高質量的數據支撐。
目前該平臺在國網省調控中心進行試點建設,在調控數據全面匯集、數據質量持續提升、數據分析手段持續豐富、數據應用全面共建共享等方面取得突出成效。以調控大數據平臺為基礎,積極探索大數據技術在提升調度業務智能化水平潛在能力,從大電網安全管控、市場化運行、清潔能源消納、源網荷儲調度等調控核心業務場景開展大數據技術的實踐與應用,是下一步需要重點研究的內容。
審核編輯:黃飛
評論