戰斗機嵌入式訓練系統中的智能虛擬陪練
摘智能化“實虛”對抗是現代先進戰斗機嵌入式訓練系統的重要功能需求。自主空戰決策控制技術在未來空戰裝備發展中扮演關鍵角色。將當前的功能需求和發展中的技術結合起來,得到了空戰智能虛擬陪練的概念。先進控制決策技術的引入使得智能虛擬陪練能夠幫助飛行員完成復雜的戰術訓練,而訓練中真實的對抗場景為技術的驗證提供了理想的環境,大量的訓練數據為技術的持續迭代優化提供了保障。作為可學習和進化的空戰戰術專家,智能陪練在人機對抗和自我對抗中不斷優化,當其具備與人相當甚至超越人的戰術能力時,可應用于未來的無人空戰系統。智能虛擬陪練需要具備4項基本能力:智能決策能力、知識學習能力、對抗自優化能力和參數化表示能力。對其包含的關鍵技術進行了分析,提出并實現了一個基于模糊推理、神經網絡和強化學習的解決方案,展示了其各項基本能力及目前達到的空戰水平。未來更多的模型和算法可在智能虛擬陪練的框架中進行驗證和優化。
現代戰斗機裝備的嵌入式訓練系統一般有“實對實”訓練和“實對虛”訓練2種模式[1]。其中“實對實”訓練是最接近實戰的模式,但占用資源多,組織難度大,且存在“假想敵”扮演逼真度有限的問題。“實對虛”訓練通過計算機生成數字虛擬目標,可以對“假想敵”的平臺、武器和傳感器性能進行模擬,能夠根據訓練需要生成任意的交戰場景,從而有效提高空戰訓練的針對性,擴大訓練覆蓋面,提升訓練效率[2]。
空戰戰術訓練要求虛擬目標具備一定的智能水平[3]。通過建立空戰規則庫和戰術庫,賦予虛擬目標基本的戰術響應能力,使“實”、“虛”之間可以進行簡單的對抗[4-5]。通過將空戰戰法分解為時序動作,可以實現對某些特定戰法的模擬[6]。進一步提高虛擬目標的智能水平,實現更復雜更有針對性的戰術演練,是嵌入式訓練系統的客觀需求[7-8]。
拋開具體的訓練場景,將虛擬目標視作一個獨立的空戰智能體,虛擬目標智能化所需解決的核心問題即為自主空戰的決策與控制。而以實現無人機自主空戰為目標,國內外進行了各類研究探索[9-11]。其中常用的模型包括影響圖[12-13]、矩陣博弈[14]、微分對策[15]、動態規劃[16-18]、模糊推理[19-23]、貝葉斯網絡[24-25]等。這些模型大體上可以分為2類,一類是通過建立各式各樣的“優勢函數”,將空戰問題轉化為優化問題求解;另一類則是模仿人類思維過程建立基于規則的模型。基于“優勢函數”的模型為保證其可解性,一般將空戰問題大幅簡化,采用的“優勢函數”大多欠缺嚴格的物理依據,或者忽略了空戰中的重要約束(如中距導彈的中制導過程),導致其實用價值有限。基于規則的模型在處理簡單戰術的時候較為合適,但隨著輸入參數和戰術選擇的增多,遭遇到維數爆炸問題。
隨著近年來深度學習引領的人工智能技術的又一次大爆發[26-27],自主空戰決策控制的研究有了新的突破方向。基于神經網絡和強化學習的模型開始進入研究人員的視線,在解決空戰機動決策[28-32]、路徑規劃[33]和目標分配[34]等方面初步顯示了其能力。機器學習算法帶來了新的方向,同時也暴露了該領域研究存在的客觀問題。空戰對抗非零和的數學本質決定了先驗知識對模型的重要性[35],機器學習算法本身也需要大量的數據作為基礎,而先進戰斗機之間的空戰對抗數據目前多產生于航空兵部隊的內部訓練中,研發人員不易接觸[36];基于各類機器學習技術的模型需要一個持續的迭代優化過程,而機載軟件的安全性要求決定了其不能頻繁更換;在各類簡化環境下訓練得到的模型在真實對抗中的性能有待檢驗。
結合虛擬目標智能化提升和自主空戰技術發展2方面的需求,本文提出智能虛擬陪練的概念。智能虛擬陪練,是具備自主決策控制能力的空戰戰術訓練虛擬對手,及其自主空戰能力學習進化支持體系。其依托于機載嵌入式訓練系統,此外還有配套的維護和開發系統。不同于目前的虛擬目標,智能虛擬陪練不再是為完成某些特定訓練情景任務而設計,而是具備完整獨立的空戰決策和控制能力,在幫助飛行員訓練的同時自身也在不斷進化。
通過引入自主空戰決策控制技術,使智能虛擬陪練能夠滿足復雜空戰戰術演練的需求;通過賦予智能虛擬陪練監督學習能力,使其能夠學習“假想敵”戰術特點,從而滿足針對性訓練需要;通過對嵌入式訓練系統記錄的對抗數據的整理分析,為模型的機器學習提供先驗知識和優化訓練樣本;通過賦予智能虛擬陪練對抗優化能力,使其能夠在“人機”對抗和機器自對抗中不斷進化;通過實現核心模型的便捷配置,為模型算法的快速迭代提供途徑。
智能虛擬陪練不僅是未來嵌入式訓練系統“實虛對抗”功能(如圖1所示)的重要組成,還是自主空戰決策控制技術迭代優化和實驗驗證的重要工具,是空戰訓練和新技術研發耦合進步的紐帶,為下一步從虛擬走向真實,從陪練走向主角打下基礎。
1 智能虛擬陪練的能力需求
智能虛擬陪練的運行場景如圖2所示。智能虛擬陪練不僅要實現嵌入式訓練系統實虛對抗的智能化,還要實現其自主空戰能力的不斷進化。智能虛擬陪練的基本能力要求包括以下3項。
1.1 智能戰術決策和控制
智能虛擬陪練能夠根據任務目標(奪取制空權、要地防守、區域突襲等),綜合考慮交戰雙方的平臺性能(機動性能、滯空時間、隱身性能等)、武器性能(武器射程、導引頭截獲距離、命中概率等)和傳感器性能(探測距離范圍和角度范圍),對空中態勢做出快速合理的戰術響應。其機動動作的控制應為實現相應機動目的的最優或次優解。
與專家經驗和戰術資料不同,空戰對抗演習數據中沒有顯式的規則,需要用相應的識別算法挖掘出其中的戰術決策知識。
1.2 空戰戰術對抗優化
經過對空戰先驗知識的學習,智能虛擬陪練可以具備基本的空戰能力。人機對抗和機器自對抗可以進一步優化模型和提升戰術水平。人機對抗,既包括空戰專家在模擬器上與智能虛擬陪練的對抗,也包括飛行員在空中進行的實虛對抗訓練。對抗數據可存入數據庫用于模型的自動優化。
機器自對抗是智能虛擬陪練自動優化的重要手段。通過采用大規模并行計算等手段,機器自對抗可在較短時間內積累大量的對抗數據。通過機器自對抗,不僅可以對監督訓練得到的戰術決策模型進行調整優化,還可以自動探索空戰戰術,發現未被人發現和使用過的戰術。
1.3 核心模型參數化表示
智能虛擬陪練的核心決策控制模型實現參數化表示,可通過軟件配置文件加載,從而實現模型的便捷更換。對用戶來說,根據訓練任務的不同,可以靈活選擇決策控制模型。對研發方來說,智能虛擬陪練的決策控制模型一直處于訓練優化的進程中,在得到階段性成果后即可快速投入測試和使用。
2 智能虛擬陪練的關鍵技術
按照上述基本能力要求,可以得到智能虛擬陪練的基本功能邏輯,進一步可以將智能虛擬陪練進行詳細的功能劃分,如圖3所示。
智能虛擬陪練分為應用端和開發維護端。應用端由傳感器模擬、決策控制核心模型、武器接口模擬和飛機平臺模擬4個部分組成。決策控制核心模型包含態勢計算、決策計算和戰術控制計算3個模塊。開發和維護端包含先驗規則庫、基于規則的決策控制模型,參數化決策控制模型,以及對抗運行環境。
2.1 應用端關鍵技術
2.1.1 態勢計算
態勢計算一直是空戰決策控制研究的重點問題,常用的模型包括指標體系[37]、D-S證據理論[38]、貝葉斯網絡[39]等。近年來基于神經網絡的態勢評估方法也不斷出現[40-41]。智能虛擬陪練的態勢計算要求必須考慮交戰雙方的平臺、武器和傳感器性能。目前常用的主觀構建的各類優勢函數,普遍缺乏對性能因素的定量考慮。建立基于空戰物理規律的態勢評估模型,是實現空戰智能決策控制所需解決的首要問題。
2.1.2 決策計算
以空中敵我運動參數,我方平臺狀態、武器狀態、傳感器狀態,以及態勢計算得到的角色任務、目標威脅度、我方導彈命中概率等參數為輸入,進行戰術決策計算。
決策計算的實現有2種思路。一種是“推演”式決策。決策模型在決策過程中,需要同時模擬雙方的戰術響應進行多步推演,根據推演的結果進行戰術選擇。AlfaGo等棋類人工智能使用的MCTS[42]算法即為典型的“推演”式決策;另一類則是“反應式”決策,也即決策模型是決策輸入到輸出的直接映射,決策計算一步完成。本質上“反應式”決策模型是一個從態勢輸入到最優響應戰術的函數。目前空戰領域研究的多為“反應式”決策模型。“推演式”決策的理論研究是一個值得期待的方向。
在使用復雜機器學習算法時,需要考慮機載嵌入式環境的硬件資源限制。
2.1.3 戰術控制計算
戰術控制包括飛機平臺機動控制、武器控制和傳感器控制。現代先進戰斗機配備放寬靜穩定電傳飛控系統。為發揮飛機最大的機動性能,在飛控系統內設計高級戰術機動動作庫,戰術決策輸出則為動作選擇。每一個戰術機動都設有其優化目標和限制條件,飛控系統基于此求解最優控制策略。高級戰術機動包含的要素如表1所示。
傳感器的輻射狀態、工作模式和搜索區域是重要的戰術控制對象。武器則是發射流程和發射模式需要控制。
2.1.4 傳感器模擬
為了提高智能虛擬陪練的逼真度,各類傳感器的數字模型需要對其性能參數和工作邏輯進行模擬。例如,雷達有搜索模式和跟蹤模式的區別,搜索范圍受框架角限制[43],存在速度過零現象等。
2.2 開發維護端關鍵技術
2.2.1 從專家經驗、戰術資料中識別戰術規則
從專家和戰術資料的自然語言表述中,識別出決策模型適用的空戰戰術規則,一般即為“IF-THEN”形式。
2.2.2 從對抗數據中識別戰術規則
嵌入式訓練系統記錄的對抗數據,需要進行時空對準、航跡關聯等操作后,才能轉化為信息完備的空中交戰態勢。從交戰中飛行員駕駛飛機的運動參數和狀態變化,識別其采取了什么戰術(智能虛擬陪練則是直接記錄了戰術決策過程),這樣才能得到“IF-THEN”形式的規則。
2.2.3 基于規則的決策模型產生參數化決策模型
基于規則的模型便于建立,參數化模型則便于進行自動優化和模型配置。由規則模型訓練參數化模型已證明可行[44]。另一種思路則是將規則模型本身參數化,如美國某公司提出的進化模糊推理系統[23,45],其中對模糊推理系統的隸屬度函數和規則都進行了參數化。
2.2.4 智能虛擬陪練自對抗優化
近年來引起廣泛關注的AlfaGo[42]、AlfaGo Zero[46]、AlfaStar模型等展現了基于深度強化學習的智能體的強大的自對抗優化能力。美國某公司則號稱其使用遺傳算法優化模糊推理樹,實現了超越專家飛行員的空戰水平[23,45],其核心也是模型自對抗。智能虛擬陪練的自對抗優化,不僅能實現對先驗知識的優化,還可以充分挖掘既有戰術庫的潛能,甚至創造目前沒有的空戰策略。此外,通過自對抗優化,智能虛擬陪練能夠自動適應平臺、武器或傳感器性能的變化,使其具備高度的各向兼容性。
2.2.5 對抗運行環境
智能虛擬陪練自對抗需要在高速并行計算環境下運行,除了硬件平臺的支持,模型算法也需要適配[47-48]。
3 智能虛擬陪練的解決方案
3.1 解決方案
為驗證上述智能虛擬陪練功能邏輯合理性和相關關鍵技術的可行性,本文提出了一個初步解決方案并進行了實驗驗證。下面介紹方案的關鍵技術和實驗驗證情況。圖4為這個方案的應用端部分,其中決策計算部分包含模糊推理和神經網絡2個模型,在不同的階段需要使用不同的模型。
3.1.1 傳感器和武器
傳感器層包括了紅外告警和雷達、雷達告警的仿真模型。各模型中除引入了各項性能限制外,還加入了重要的工作邏輯,如雷達搜索和跟蹤模式的切換等。武器為中距導彈。其仿真模型包括發動機推力模型、導彈氣動模型和導引頭模型。
3.1.2 態勢計算
在態勢計算方面,拋棄了傳統的基于主觀賦權或優勢函數的態勢評估方法,以平臺、武器和傳感器性能為依據,按照空戰物理原理建立了空戰態勢評估模型。態勢評估模型的典型輸出示例如表2所示。
在這個解決方案中,態勢計算模塊除對單機交戰態勢進行評估計算,還可以完成編隊角色分配和目標分配的計算工作。
3.1.3 空戰戰術庫和規則庫
以超視距空戰為研究對象,分析和整理了經典的超視距空戰戰術,構建了戰術動作庫,如表3所示。以人工方式識別專家經驗和戰術資料中的戰術規則,構建了戰術規則庫。共得到10種戰術動作,60條 戰術規則。為每一個戰術動作設計相應的控制律,將其封裝成高級戰術動作控制器。
3.1.4 模糊推理戰術決策模型
在規則庫和戰術庫的基礎上,建立一個模糊推理戰術決策模型[23]。對模糊推理模型進行了參數化改造,使其推理規則、模糊隸屬度函數等均可以進行參數化表示,如圖5所示(編碼“0”表示該項輸入/輸出未被引用)。將隸屬度函數的各個關鍵點用其坐標來表示,調節關鍵點坐標即可完成對隸屬度函數的調節。任意一條規則包含其引用的輸入和輸出,以及各項輸入輸出的語義值。將模糊推理系統涉及的所有輸入和輸出按序編碼,對語義也作編碼處理,就可以簡單的實現對規則的參數化表達。
通過調節推理規則和模糊隸屬度函數參數,使決策模型的響應與規則庫中的經驗知識基本一致。
使用配置該模型的紅藍雙方進行模擬對抗,對抗場景和雙方的武器配置隨機生成,記錄紅藍雙方各自的決策輸入和輸出。以實驗中的一次模型生成周期中的數據為例,紅藍對抗得到總計2 204場的對抗數據,對應4 408架次的模型決策序列。
3.1.5 神經網路戰術決策模型
模糊推理模型相互對抗產生的數據為參數化模型的建立提供了初始樣本。建立了一個BP神經網絡模型。網絡結構為輸入30維,輸出10維,2隱層,網絡權值參數總量為1 541。用上述對抗數據對其進行有監督訓練。隨后使用該模型組織紅藍模擬對抗,對抗裁決器根據交戰結果分別給予紅藍雙方獎勵或懲罰。神經網絡決策模型使用記錄的對抗過程數據和最后的獎懲進行強化學習,實現模型優化,決策模型生成過程如圖6所示。對抗優化過程的實現參考文獻[47-48]中的深度學習神經網絡(DQN)算法。這里沒有使用文獻[47-48]中的深度卷積神經網絡,這是由于在此問題中,決策輸入是由傳感器輸出和態勢計算輸出組成的一維狀態向量,而不是卷積神經網絡擅長處理的二維圖像信息。
在DQN處理的棋類和電視游戲中,決策通常是從一個相對固定的初始狀態開始的。而在實際空戰中,交戰初始條件,包括雙方的初始態勢和初始武器配置,是在一定范圍內隨機的。棋類游戲中雙方初始態勢為均衡,而空戰決策模型必須能夠處理初始態勢非均衡的交戰問題。這就使得初始條件對交戰結果的影響在對抗優化中不可忽略。如圖7所示,初始已經處于絕對劣勢的一方,無論作出何種戰術決策,都會被擊落。在這種情況下,仍直接按照勝獎敗懲的原理給予決策模型反饋,強化學習算法將難以收斂。
這里采取了一種“主-客”機制來解決這個問題:雙方完成一次對抗后,互換初始條件,綜合2場對抗的結果來進行獎懲,以消除初始態勢的影響。在圖7中,假設擊落獎勵1,被擊落獎勵-1,否則獎勵0。采用2場獎勵平均的方法進行綜合。那么在互換態勢前后,雙方相互擊落一次,因此各自得到獎勵為0。而如果有一方能夠在處于劣勢時不被擊落,那么綜合2場結果其將被獎勵0.5,對方則獎勵-0.5。
3.1.6 性能評估
選擇空戰交換比作為決策模型性能的評估標準。交換比定義為一方被擊落次數與擊落對方次數的比。
3.2 基本能力驗證
第1節所述4項基本能力中,參數化表示能力已由模型的本身特性確保,另外3項需要進行實驗驗證。
3.2.1 先驗知識學習能力
神經網絡模型在完成對2 204場對抗數據的學習后,其決策輸出與模糊推理模型輸出的對比如圖8所示。可以看出,神經網絡輸出在保持其趨勢和模糊推理模型基本一致的基礎上,反復震蕩的現象明顯減少了。在完成有監督訓練后,神經網絡模型對模糊推理模型的交換比為1∶1.16。這顯示了神經網絡完全掌握了模糊推理規則庫中的先驗知識。同時由于其克服了模糊推理模型輸出震蕩的問題,性能略有提升。
進一步的,在具體的仿真對抗場景下驗證智能虛擬陪練對戰術規則的掌握情況。對抗中紅藍雙方使用相同版本的決策模型。
1) 三代機對三代機基本戰術
圖9中紅藍雙方均為三代機平臺,傳感器武器配置相同。雙方初始態勢為均勢(同高度同速度),迎頭進入空戰。雙方各自躲掉前2發導彈(第2發圖中未顯示),在此過程中雙方持續下降高度,武器射程縮短,雙方距離逐漸縮小。紅方最后掉頭時機不當被擊落。紅藍雙方為同版本模型但決策出現差異的原因在于對抗中存在隨機擾動因素,包括傳感器探測誤差和決策模型的戰術隨機探索。從這里可以看出,在平臺、傳感器和武器性能相同且初始態勢一致的前提下,決定空戰勝負的即是決策的細微差異。圖10展示了雙方從第2次攻擊到對抗結束的決策輸出。在實際的三代機超視距空戰中,適時置尾規避敵機導彈,再回轉繼續攻擊,是常見且合理的戰術。
2) 三代機對四代機基本戰術
圖11中紅方為三代機平臺,藍方為四代機平臺。藍方具有隱身優勢。雙方初始態勢為均勢,迎頭進入空戰。藍方先發現紅方。紅方在收到雷達告警后,開始做切向機動,破壞藍方跟蹤的同時逼近藍方,成功規避藍方第1發導彈。最終紅方逼近到雷達可以發現藍方的距離,雙方相互攻擊,紅方因開火時間晚先被擊落,但其導彈已對藍方構成致命威脅。圖12展示了雙方對抗全程的決策輸出。三代機利用雷達的過零現象逼近四代機,是不多的可以取得一定效果的戰術選擇。
通過仿真對抗實驗可以看出,智能虛擬陪練掌握了不同平臺性能配置下的基本超視距空戰戰術,其戰術響應合理正確,與已知的空戰經驗知識基本符合。
3.2.2 對抗自優化能力
在神經網絡完成第1輪1 291場對抗優化后,對模糊推理模型的交換比提高到1∶2.73。在完成第2輪765場對抗優化后,對模糊推理模型的交換比提高到1∶3.6。交換比的提高顯示了自對抗對神經網絡模型的優化效果。
3.2.3 智能決策綜合能力
構建復雜對抗場景,對解決方案中的態勢計算和決策模型進行更全面的能力驗證。這里以雙機編隊和單機的對抗作為仿真實驗場景。
紅藍雙方均為三代機平臺,傳感器和武器配備相同。紅方為雙機編隊,1號機前突,2號 機掩護。紅方1號機和藍方飛機相互攻擊。在導彈逼近到危險距離后,雙方開始機動規避。此時紅方2號機加速前突進行攻擊占位。紅方1號 機和藍方飛機各自成功規避導彈后開始掉頭。此時紅方1號機處于掩護位置,紅方2號機處于前突位置,紅方編隊完成了角色輪轉。藍方飛機掉頭后遭到紅方2號機導彈攻擊,不得不再次機動規避。此時紅方2號機繼續加速前突。在藍方規避掉導彈后,紅方2號機在超音速狀態下再次發射導彈。由于距離近,導彈初速高,藍方未能規避被擊落。此時紅方1號機也已到達攻擊發起位置,準備下一輪攻擊。
在這個對抗過程中,態勢計算模塊進行了正確合理的角色和任務分配,戰術決策模型在正確合理的時機選擇了導彈發射、置尾規避和回轉進攻等戰術動作,顯示了智能虛擬陪練在復雜對抗場景下具備較好的戰術決策能力。
該解決方案驗證了前面提出的智能虛擬陪練的功能邏輯和開發維護流程的合理性,證明了其中主要關鍵技術的可行性。此驗證方案中使用的規則庫和戰術庫內容較少,神經網絡規模較小,未使用并行計算,未實現規則的自動識別。模型裝機后得到人機對抗數據,其中智能虛擬陪練的決策記錄可直接供神經網絡模型回放強化學習,人的決策過程數據仍需要進行人工識別。
智能虛擬陪練的核心,也即空戰戰術決策和控制,是一個在迅速發展的研究熱點,各類模型算法,只要符合前面提出的基本功能要求,都可以通過智能虛擬陪練進行驗證和迭代。
4 從智能虛擬陪練到自主空戰
從智能虛擬陪練到自主空戰(如圖14所示),主要是從傳感器、武器和飛機平臺仿真模型,到真實的傳感器、武器和飛機平臺接口。智能虛擬陪練的決策和控制模型,則可以直接應用到無人自主空戰系統中。無人自主空戰系統,既可以在現有有人機平臺上改裝,也可以是專門研制的制空型無人機。智能虛擬陪練的自對抗優化能力,使其能夠適應平臺的變化。無論是哪一類平臺,智能虛擬陪練的意義在于,使這些無人自主空戰系統快速具備與人類飛行員相當甚至更好的戰術決策和控制能力,使其綜合作戰效能得到提升。
5 結 論
本文提出的智能虛擬陪練,既是空戰訓練發展的客觀需求,又是自主空戰技術實驗驗證的工具。拋開具體的有限的訓練情景,把智能虛擬陪練視作具有完全自主能力的空戰智能體,分析了其基本能力要求,得到其4項基本能力,即智能決策能力、學習能力、對抗自優化能力和參數化表示的能力。據此設計了智能虛擬陪練的功能邏輯,并識別出了其中的關鍵技術。其中,基于規則的決策模型可以用來訓練參數化模型,而參數化模型進行自對抗優化。以模糊推理模型、神經網絡模型和強化學習算法實現了一個初步的智能虛擬陪練解決方案,實驗表明其能夠滿足4項基本能力要求,在不同平臺配置和不同場景下均能進行合理的戰術決策和控制。未來自主空戰領域的新模型、新算法,均可在智能虛擬陪練的框架下,按照4項基本能力的要求進行實驗驗證和迭代優化。
審核編輯:湯梓紅
-
傳感器
+關注
關注
2564文章
52724瀏覽量
764785 -
嵌入式
+關注
關注
5144文章
19575瀏覽量
315830 -
戰斗機
+關注
關注
1文章
135瀏覽量
15791
發布評論請先 登錄
評論