Open Access
Issue
JNWPU
Volume 43, Number 6, December 2025
Page(s) 1173 - 1182
DOI https://doi.org/10.1051/jnwpu/20254361173
Published online 02 February 2026

© 2025 Journal of Northwestern Polytechnical University. All rights reserved.

Licence Creative CommonsThis is an Open Access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

微分博弈是博弈理论的重要组成, 通常采用微分方程组来表示运动过程的动态连续变化, 是处理双方或多方动态机动对抗的数学工具[1]。针对追踪导引、目标拦截等典型对抗任务[2], 现有研究基于定量微分博弈理论建立博弈框架, 结合迭代方法, 采用动态规划[34]、启发式算法[56]等完成博弈策略的求解, 取得了较好的效果。

然而, 微分博弈理论的应用常面临两方面问题。一方面, 博弈参与方难以获取对手的完全信息, 形成了不完全信息的博弈场景[7]。针对这一问题, 汤旭等[8]设计了基于广义卡尔曼滤波的行为学习信息估计算法, 在对手控制矩阵不完全情况下, 提出了一种满足近似纳什均衡的微分博弈控制策略; Li等[9]分析了不完全信息下追踪-逃逸的微分博弈对抗策略, 提出了支付函数系数的无迹滤波在线估计方法, 解决了目标加速度未知的问题; Cavalieri等[10]使用双积分系统构建动力学模型, 研究了对手动力学信息不完全的情况, 将缺失参数视为扩展状态变量, 通过增广原动力学矩阵的方式, 形成了动力学信息不明确情况下的改进博弈策略。

另一方面, 微分博弈策略求解复杂, 限制了其在动态对抗环境中的实际应用, 需要寻求高效的策略生成方法, 以降低求解复杂性对工程应用的影响。Satak[11]提出了一种博弈支付函数的近似方法, 通过级数展开方式得到系数表达式, 并采用观测目标的状态信息更新系数值, 实现计算效率的提升; 程瑞锋等[1213]将近似动态规划思想引入导引对策, 利用零效控制参量对系统进行降阶处理, 并通过终端条件获得当前状态的反向求解结果, 从而将有约束的微分博弈策略转化为连续决策的动态规划问题, 降低了求解计算量; Sun等[14]在求解纳什均衡解的基础上, 对黎卡提方程进行逆向积分, 利用当前状态与理想状态的差分共轭更新状态值, 有效简化了追逃微分策略的求解过程。

受海洋环境随机干扰影响, 光电、水声等探测信息呈现不完全特征, 特别是浅水环境, 观测具有离散性与非均匀性, 信息以离散形态输入, 相邻时间点存在信息缺失, 且输入时间点分布非均匀。这种水下特有的不完全态势观测信息破坏了现有研究所需的连续性条件, 导致博弈策略解析解难以求得, 计算量显著增大。本文采用离散、非均匀的信息时间序列描述信息不完全特性, 推导了离散时间间隔内的对策形式, 并构造了状态估计的策略表达式。在此基础上, 通过马尔科夫方法构建状态转移支付函数, 以阈值条件筛选观测信息中的关键状态转移节点, 从而提高策略生成效率。通过仿真试验构建不完全信息场景, 验证本文方法的策略有效性与生成速度。

1 完全信息的策略生成

2 相对运动关系

在浅水环境中, 来袭追踪方的弹道深度较浅, 不具备足够垂直机动条件, 对应的逃跑方策略受垂直深度方向影响较小, 可视为追逃双方运动处于同一平面, 运动方程为 , 相对运动关系[1]满足(1)式。

(1)

式中:X(t)表示两方追逃航行体的相对运动状态 ;p和e表示追踪航行体与逃跑航行体;为平面追逃的位置与速度变量。表示运动的输入控制, , 代表加速度控制。表示二阶标准维纳过程, 且与初始状态X(0)相互独立。

完全信息的微分博弈场景具备连续性条件, 即各方在任何时刻知道必要且准确的状态信息, 不受观察、通信等条件的限制, 且系统的状态是确定性的, 不考虑控制器在工作过程中产生的误差与延迟等对运动状态的影响。由此, 采用微分博弈理论, 根据运动学方程与机动能力假设, 可求解双方最优的导引控制, 即纳什微分对策解。

3 纳什微分对策求解

考虑一种无限时域下的追逃博弈过程, 其二次型支付函数可表示为

(2)

式中, 采用 表示矩阵正定条件, 满足, 。对于博弈追踪方, 希望在控制量消耗最小的前提下减小二者的相对距离, 逃跑方相反。为了保证无限时域线性二次型博弈追逃过程解的存在性, 模型参数()需满足充分(且几乎必要)的条件为: 存在满足通用代数黎卡提方程式(见(3)式)。

(3)

根据(3)式给出的结果, 博弈双方以纳什微分对策求解得到半正定鞍点解, 其反馈控制形式如(4)~(5)式所示。

(4)

(5)

式中,P是满足(3)式的解。可以看到, 鞍点条件下的纳什微分对策由追逃双方当前的相对运动状态决定。在控制具有随机性条件下, 策略对应的支付期望值如(6)式所示。

(6)

式中, Tr表示矩阵的迹。根据极小极大原理[15], 纳什微分对策得到的博弈鞍点策略对满足(7)式。

(7)

4 不完全信息的策略生成

5 不完全信息场景描述

受限于水下探测能力, 航行体实际观测的不完全信息表现为离散与非均匀2个特点: 在某一观测时间点, 航行体接收到信息, 在下一次观测信息到达前无信息输入, 存在信息缺失, 即信息输入为离散时间序列; 信息输入的时间点间隔不相等, 即信息输入时间序列的分布非均匀。

在信息不完全情况下, 能够获得的信息有限。无限时域内信息输入的次数n满足上界限制(8)式。

(8)

式中:b代表观测信息输入次数的上界;n(T)为时域T内获得的信息总数, 假设信息输入的时间序列为, 其中τk严格递增。

获取到的信息离散、非均匀,纳什微分对策求得的反馈策略所需x(t)连续性无法得到保证, 必须依赖有限的观测得到博弈策略。设定追逃博弈中的追踪方采用水下观测方式, 所得信息具有不完全特点; 逃跑方可于任意时刻获取观测信息, 满足完全信息的连续性条件。对于追踪方, 需利用现有的离散、非均匀信息序列, 在存在信息缺失的条件下, 给出控制策略, 直至下一次观测信息到达。

逃跑方观测满足连续性条件, 并认为其无法获知对手的观测策略, 且观测信息输入次数上界未知。为保证博弈的对抗效果, 假定逃跑方将采用保守策略, 按纳什微分对策结果给出的反馈控制形式执行机动控制, 即(5)式给出的形式。

在任意时间点t, 可用于追踪方的观测信息集表示为

(9)

而用于控制决策的信息集为

(10)

两者区别在于当前t时刻是否展开观测, 即是否成立。对于初始时刻, 定义。追逃双方的容许控制边界表示为

6 离散观测信息的对策推导

在逃跑方采取如(5)式所示的纳什微分对策时, 追踪航行体的理论最优对策为(6)式形式。然而, 信息输入的离散特点导致(6)式无法计算。对此, 开展离散信息输入时间序列的对策研究。

定义, 代入支付函数(2)式的结果如(11)式所示。

(11)

式中, , 且正定。将公式代入运动方程组中, 得到(12)式。

(12)

式中, 满足, 进一步定义

由二次型支付函数的分离定理[16], 支付函数可以写成表示不受决策方控制策略影响的独立项JI, 及依赖于所选择控制策略的非独立项Jd, 进一步改写如(13)式所示。

(13)

根据极小极大原理, 博弈的最优控制条件为优化非独立项Jd。根据(13)式, 在信息缺失的相邻2次观测间隔中, 追踪方的反馈控制形式可表示为(14)式。

(14)

式中, 是利用观测信息得到的对于x(t)的状态估计结果。τ(t)代表在距离给定的t时刻最近一次观测信息输入的时间。将运动状态(1)式代入(14)式, 可以得到(15)式。

(15)

基于维纳过程特性, 可以得到(16)式。

(16)

对(15)式求期望, 结合(16)式, 得到(17)式。

(17)

由此, 根据有限观测信息得到的状态估计结果如(18)式所示。

(18)

由(14)式得到的反馈控制形式, 进一步简化得到(19)式。

(19)

(19) 式给出了估计的形式, 且表明了的值由信息输入时间序列决定。误差表示为

(20)

将由(19)式得到的反馈控制形式与结合, 支付函数结果为

(21)

7 基于马尔科夫的策略求解方法

如(19)式所示, 离散观测信息的微分对策为分段函数, 受信息输入时间序列影响。实际信息输入时间序列具备非均匀分布特性, 即并不成立, 无法获得信息输入时间序列的表示。这将给策略求解带来困难, 采用马尔科夫方法, 改进策略的求解计算方法。

支付函数的求解目标为, 控制运动状态估计误差满足如(22)式的微分方程形式。

(22)

且有

采用符号δ(t)∈{0, 1}用来表示接收到观测信息。δ(t)=1代表在t时刻接收到观测信息, 反之则未收到观测结果。

定义为信息年龄, 用来表示当前时点距离上一次观测结果到达的时间差。由Δ(t)的形式可知, 满足马尔科夫决策过程(23)式

(23)

定义状态转移矩阵可以表示为

(24)

将(21)式与(24)式结合, 得到

(25)

根据(1)式给出的运动方程, 结合(25)式, 得到满足(8)式的状态转移支付函数与约束形,如(26)式所示。

(26)

采用h来表示时间步长, 令t=kh, 表示离散时间点, 则非均匀分布的信息输入时间序列表示为。其中为严格递增的非负整数序列。

通过时间步长, 信息年龄表示为, 改写(23)式为

(27)

式中,

对于任何t=kh的时刻, 支付形式写为

(28)

被定义为

状态转移支付函数Jh可表示为(29)式。

(29)

式中, 的计算结果与Δkδk的取值相关, Δk则会因δk的取值迭代更新而被重置。原有问题转化为带约束的马尔科夫形式, 支付目标如(29)式所示, 状态转移方程如(27)式所示, 约束形式如(8)式所示。

对于, 构建状态转移矩阵代表在当前状态s, 执行行为a后, 转移至下一个状态s′的转移概率。为解决带约束博弈问题, 增广拉格朗日形式的状态转移支付函数如(30)式所示。

(30)

式中:为拉格朗日乘子。通过增广拉格朗日形式, 将博弈支付转化为无约束条件下的最小化问题。

定义价值函数, 根据贝尔曼方程式[17], 价值函数的下确界表示为

(31)

根据(29)式中的形式, 随Δk增大而变大, 价值函数为单调增函数, 满足(32)式。

(32)

由(31)式可知, 。对于iN0, 存在

由(32)式与, 存在满足

(33)

当信息年龄Δk的函数满足(33)式条件时, 可认为当前状态转移矩阵Q使支付函数大小发生了较大变化。这表明, 通过的阈值条件, 确定关键的状态转移节点, 从而减少状态转移的节点计算数。

定义达到阈值前的有限状态空间, 对于, 认为执行信息输入, 发生状态转移, 即; 对于, 则有δ*=0。由(33)式可得, 即存在θ∈[0, 1], 满足

(34)

对于, 认为接收到信息输入, 即δ*=1, 则有

(35)

式中, 的平均值, 且与博弈的初始观测状态相互独立。由(35)式简化得到(36)式。

(36)

反之, 对于, 可以得到对应关系式。综合(34)式与(36)式, 得到

(37)

(37) 式给出了ηλi的隐式表达式, 其中θ∈[0, 1], ηλi为整数。

由此, 非均布的信息输入时间序列可表示为

(38)

结合(19)式, 可以计算生成不完全信息的博弈策略。

8 博弈仿真试验

9 仿真参数设计

为验证本文博弈策略生成方法在不完全信息条件下的有效性与计算速度, 设定平面二维追逃场景, 如前文所述, 追踪方的观测信息为不完全状态, 起始状态与参数组合如表 1所示。

表1

追逃仿真试验参数设置

对于(1)式中的运动状态方程, 采用数值方法开展近似迭代, 基于四阶经典Runge-Kutta方法, 提高数值近似精度, 如(39)式所示。

(39)

式中,。通过选择合适的步长获取近似精确解。对于求解随机微分方程, 采用Maruyama改进的Euler方法,如(40)式所示。

(40)

式中, 符合独立高斯过程。考虑状态方程的随机项存在, 支付计算结果为多次仿真试验的平均值。

追逃仿真试验的初始状态设置如图 1所示。

thumbnail 图1

追逃仿真初始状态

对于马尔科夫方法的阈值计算, 可采用迭代二分搜索算法来进行λ*的求解, 并由(37)式解得。考虑到追逃双方的控制函数中包含了偏差项, 在试验中取10轮运行平均结果。

10 仿真运行环境

仿真试验的硬件运行环境为台式计算机, CPU为Intel Core I5-9400 @2.9 GHz、处理器速度为2 904 MHz, 核芯显卡为Intel UHD Graphics 630、内存为16 GB、操作系统为Windows7, 软件编译平台为Matlab, 版本号R2019a。

11 仿真验证结果

为展示验证结果, 选取博弈期为[0, tf], 绘制追逃运动轨迹。图 2展示了完全信息情况下, 纳什微分对策的追逃双方运动轨迹, 即追踪航行体的最优对抗策略。可以看到在当前参数设置与博弈期时长内, 采用纳什微分对策的追踪方可提前完成追捕任务。

thumbnail 图2

完全信息场景下的纳什微分对策轨迹

首先, 验证离散观测信息对策的有效性, 选取固定观测时间间隔, 即观测率1/tz, 此时双方控制方程中包含偏差项。逃跑方采取完全信息纳什微分对策给出的保守运动控制策略, 即(5)式的反馈控制形式。

图 3展示了10轮运行中某轮的追逃轨迹, 其中, 图 3a)的追踪方根据(14)式的反馈控制形式与(19)式给出的离散观测信息对策结果, 得到控制策略; 图 3b)则不进行状态估计的控制策略调整, 在信息缺失时, 以上一次信息输入结果为反馈输入执行控制。

thumbnail 图3

离散观测形态下不同控制策略的追逃博弈轨迹

图 3所示, 在离散信息输入间隔场景下, 由于信息的缺失, 不进行控制策略调整的追踪方未能在所选定的博弈期内成功捕获目标, 而调整了控制策略的追踪方则完成了捕获任务。

进一步地, 表 2展示了2种追踪方控制策略下, 博弈期内的支付大小、平均相对距离与捕获时间。可以看到, 不进行控制策略调整的追踪方在消耗了更多资源的情况下(支付更大)未能实现更好的追捕效果。

表2

追踪方不同控制策略效果对比

进一步地, 验证采用2.3节给出的基于马尔科夫的不完全信息博弈策略生成方法。根据固定观测时间间隔tz, 计算同等条件下观测数上界b=tf/tz。非均匀信息输入如图 4所示。

thumbnail 图4

非均匀信息输入时间序列

其中, 观测步长取h=0.01tz图 5给出了本文提出的不完全信息博弈策略生成方法得到的追逃轨迹, 在博弈期内, 追踪方完成追捕任务。

thumbnail 图5

不完全信息博弈策略生成方法的追逃博弈轨迹

表 3给出离散观测对策与不完全信息博弈策略在博弈期内的平均支付大小、相对距离与捕获时间。可以看到, 改进的博弈策略可进一步提升追踪方能力, 实现了更好的追捕效果。

表3

追踪方不同观测策略效果对比

为验证不完全信息博弈策略生成方法的效果, 图 6给出了采用完全信息策略与采用不完全信息博弈策略的追逃双方相对距离随博弈时间的变化, 可以看到, 所提出的策略生成方法在观测受限情况下, 依然能达到与完全信息条件相近的博弈效果, 证明了所提策略的有效性。

thumbnail 图6

相对距离随时间变化对比

12 仿真效果分析

方法稳定性方面, 分析信息输入次数的上界值b变化对策略有效性的影响。图 7给出了博弈期内的追踪方支付结果随b增加的变化。支付结果下界为完全信息给出的支付。随着b的增大, 可获得的信息变多, 支付值逐步逼近下界, 但在b增长到一定值时, 增加信息的效果不再显著。

thumbnail 图7

信息输入次数的上界值与支付值关系

计算时间步长参数h的大小对支付值的影响。图 8展示了h在[0.01tz, 0.1tz]之间均匀分布的情况下, 支付值随h的变化。随着h不断增大, 追踪方支付值变差。这是因为在较小h的情形下, 对系统连续性逼近将更好。然而, h的取值将影响策略的计算效率, 较小的h意味着马尔科夫过程推进的步数增多, 需综合考虑策略有效性与计算资源选取h值。

thumbnail 图8

时间步长变化与支付值关系

运算速度方面, 采用每秒浮点数运算次数(FLOPS)[18]与求解CPU时间来评估方法的时间复杂度与算力消耗量, 衡量比较算法运行速度, 结果如表 4所示。表 4结果显示, 基于不完全信息策略生成方法FLOPs显著低于纳什微分对策方法, 表明所提方法在运算速度层面的优势。

表4

算法运行速度对比

与其他算法的效果对比方面, 选择采用纯跟踪策略、比例导引策略、微分博弈策略以及不完全信息对抗策略4类策略的追踪方, 对比其在相同观测输入下的追踪成功概率, 每组策略运行50次, 结果如表 5所示, 不完全信息对抗策略的效果优于其他3类策略。

表5

不同策略追踪方成功概率

13 结论

本文提出的水下不完全信息博弈对抗策略生成方法, 采用离散、非均匀的时间序列描述不完全观测信息, 基于二次型支付的分离定理与极小极大原理建立相邻信息输入间隔内的状态估计策略表达, 并以阈值条件确认基于马尔科夫状态转移的关键状态转移节点, 实现快速高效的策略生成。通过仿真试验, 验证了本文所述策略生成方法的有效性与高效率, 解决不完全信息条件下博弈对抗策略生成的工程应用问题。后续将进一步改进策略生成算法, 提高对抗策略生成速度, 提升复杂多应用场景的算法可用性。

References

  1. SINGH S KREDDY P V. Dynamic network analysis of a target defense differential game with limited observations[J]. IEEE Trans on Control of Network Systems, 2022, 10(1): 308–320 [Google Scholar]
  2. WANG ZhongWEN ZhiwenCAI Weijun, et al. Research on game strategy of underwater attack and defense process in typical situation[J]. Journal of Northwestern Polytechnical University, 2023, 41(4): 774–783 [Article] (in Chinese) [Google Scholar]
  3. WANG ZiyaoTANG ShengjingGUO Jie, et al. Adaptive 3-dimensional differential game guidance for hypersonic attack and defense[J]. Acta Armamentarii, 2023, 44(8): 2342–2353 (in Chinese) [Google Scholar]
  4. WANG QiLIAO Zhizhong. Computational intelligence game guidance law based on online adaptive dynamic programming[J]. Aerospace Control, 2022, 40(6): 39–45 (in Chinese) [Google Scholar]
  5. WEI NaLIU Mingyong. Target allocation decision of incomplete information game based on Bayesian Nash equilibrium[J]. Journal of Northwestern Polytechnical University, 2022, 40(4): 755–763 [Article] (in Chinese) [Google Scholar]
  6. YE DSHI MSUN Z. Satellite proximate interception vector guidance based on differential games[J]. Chinese Journal of Aeronautics, 2018, 31(6): 1352–1361 [Article] [Google Scholar]
  7. SUN BZENG Y RSU Z N. Task allocation in multi-AUV dynamic games based on interval ranking under uncertain information[J]. Ocean Engineering, 2023, 288(1): 116057 [Google Scholar]
  8. TANG XuYE DongXIAO Yanet al. Epsilon Nash equilibrium differential game strategy for spacecraft terminal pursuit-evasion under incomplete information[J]. Journal of Astronautics, 2024, 45(1): 63–73 (in Chinese) [Google Scholar]
  9. LI Z YZHU HLUO Y Z. An escape strategy in orbital pursuit-evasion games with incomplete information[J]. Science China Technological Sciences, 2021, 63(3): 559–570 [Google Scholar]
  10. CAVALIERI K A, SATAK N, JURTADO J E. Incomplete information pursuit-evasion games with uncertain relative dynamics[C]//AIAA Guidance, Navigation, and Control Conference, National Harbor, USA, 2014: 13-17 [Google Scholar]
  11. SATAK N. Behavior learning in differential games and reorientation maneuvers[D]. College Station: Texas A & M University, 2013 [Google Scholar]
  12. CHENG Ruifeng. Interception and tracking of underwater maneuvering target based on differential games guidance[D]. Xi'an: Northwestern Polytechnical University, 2019 (in Chinese) [Google Scholar]
  13. CHENG RuifengLIU WeidongGAO Li'e, et al. Underwater active defense intercept guidance method based on differential game[J]. Journal of Northwestern Polytechnical University, 2016, 34(5): 851–856 [Article] (in Chinese) [Google Scholar]
  14. SUN J, YONG J. Linear-quadratic stochastic two-person nonzero-sum differential games: open-loop and closed-loop Nash equilibria[J]. Stochastic Processes and their Applications, 2019, 129(2): 381–418 [Article] [Google Scholar]
  15. ISAACS R. Differential games[M]. New York: John Wiley & Sons, 1965 [Google Scholar]
  16. MAITY D, BARAS J S. Optimal strategies for stochastic linear quadratic differential games with costly information[C]//2016 IEEE 55th Conference on Decision and Control, 2016: 276-282 [Google Scholar]
  17. AGGARWAL S, ZAMAN M, BASTOPCU M, et al. Weighted age of information-based scheduling for large population games on networks[J]. IEEE Journal on Selected Areas in Information Theory, 2023, 4: 682–697 [Article] [Google Scholar]
  18. NIU Liyuan. Research on confronting policy generation method of multi-agent system based on reinforcement learning[D]. Changsha: National University of Defense Technology, 2022 (in Chinese) [Google Scholar]

All Tables

表1

追逃仿真试验参数设置

表2

追踪方不同控制策略效果对比

表3

追踪方不同观测策略效果对比

表4

算法运行速度对比

表5

不同策略追踪方成功概率

All Figures

thumbnail 图1

追逃仿真初始状态

In the text
thumbnail 图2

完全信息场景下的纳什微分对策轨迹

In the text
thumbnail 图3

离散观测形态下不同控制策略的追逃博弈轨迹

In the text
thumbnail 图4

非均匀信息输入时间序列

In the text
thumbnail 图5

不完全信息博弈策略生成方法的追逃博弈轨迹

In the text
thumbnail 图6

相对距离随时间变化对比

In the text
thumbnail 图7

信息输入次数的上界值与支付值关系

In the text
thumbnail 图8

时间步长变化与支付值关系

In the text

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.