A prediction and correction reentry guidance method based on BP network and deep Q-learning network

Kuan WANG; Xunliang YAN; Bei HONG; Wenjiang NAN; Peichen WANG

doi:10.1051/jnwpu/20254320201

Open Access

Issue		JNWPU Volume 43, Number 2, April 2025


Page(s)		201 - 211
DOI		https://doi.org/10.1051/jnwpu/20254320201
Published online		04 June 2025

JNWPU 2025, 43(2): 201–211

A prediction and correction reentry guidance method based on BP network and deep Q-learning network

基于BP网络和DQN的预测-校正再入制导方法

Kuan WANG (王宽)¹, Xunliang YAN (闫循良)¹, Bei HONG (洪蓓)², Wenjiang NAN (南汶江)¹ and Peichen WANG (王培臣)¹

¹ School of Astronautics, Northwestern Polytechnical University, Xi'an 710072, China
² Beijing Institute of Astronautical Systems Engineering, Beijing 100076, China

Received: 21 March 2024

Abstract

A prediction and correction reentry guidance method based on the BP network and the deep Q-learning network (DQN) is proposed to address the issues of low computational efficiency and difficulty in the online application of a traditional numerical prediction and correction guidance algorithm. This method adopts the design concept of longitudinal and lateral guidance decoupling. For longitudinal guidance, a residual range prediction BP network is constructed and trained, and the predicted range deviation is used to correct the pitch angle profile parameters. For lateral guidance, firstly, the state and action space needed by the reinforcement learning are constructed to solve re-entry guidance problems. Secondly, the decision points are determined and the reward function that considers comprehensive performance is designed. The reinforcement learning training network is constructed to achieve tilt reversal decision-making through the learning network. Simulations are carried out with the CAV-H reentry gliding as example. The simulation results show that compared with the traditional numerical prediction and correction method, the longitudinal guidance method based on the BP network is significantly superior in terminal accuracy and computational efficiency. Compared with the traditional lateral guidance method based on the heading angle corridor, the lateral guidance method based on the DQN has considerable computational accuracy and fewer reversal times.

摘要

针对传统数值预测-校正制导算法计算效率低、难以在线应用等问题, 提出了一种基于BP网络和深度Q学习网络(DQN)的预测-校正制导方法。该方法采用纵、侧向制导解耦设计思想, 在纵向制导方面, 构建并训练了剩余航程预测BP网络, 利用预测航程偏差校正倾侧角幅值剖面参数; 在侧向制导方面, 针对再入制导问题构建强化学习所需的状态、动作空间; 确定决策点并设计考虑综合性能的奖励函数; 构建强化学习训练网络, 进而通过学习网络实现倾侧反转决策。以CAV-H再入滑翔为例进行仿真, 结果表明: 与传统数值预测-校正方法相比, 所提基于BP网络的纵向制导方法具有相当的终端精度和较高的计算效率; 与传统基于航向角走廊的侧向制导方法相比, 所提基于DQN的侧向制导方法具有相当的计算精度以及更少的反转次数。

Key words: reentry guidance / prediction and correction / BP network / reinforcement learning / deep Q-learning network

关键字 : 再入滑翔制导 / 预测-校正 / BP网络 / 强化学习 / 深度Q学习网络

This is an Open Access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

作为再入滑翔飞行器的关键技术之一, 再入制导算法是提升其飞行自主性、任务自适应性和智能化水平的重要手段[1]。然而, 复杂多变的临近空间飞行环境、大升阻比气动外形、再入飞行特性和典型作战任务使得再入飞行阶段面临多种约束的影响, 这给再入制导算法的设计带来了较大挑战。近年来, 随着智能制导概念[2]的提出, 未来复杂多变的战场环境对制导算法的自主性、智能性、实时性和抗干扰能力提出了新的要求。传统再入制导算法中, 标准轨迹跟踪制导算法[3]难以充分利用飞行器的剩余飞行能力来满足终端约束[4]; 而数值预测-校正制导算法[5]的预测效率普遍较低, 难以实现在线实时计算。因此, 部分学者逐步将工作重心聚焦于具有在线应用能力的自主智能制导方法研究。

近年来, 以强化学习为代表的智能算法广泛应用于机器人、无人机控制等复杂系统[6–7]。在再入制导领域, 国内外学者也已经开展相关研究。自主智能制导方法主要包括基于神经网络预测的方法和基于强化学习的方法, 但相关研究成果目前仍难以应用于实际问题。其中, 在强化学习方面, 高嘉时[8]将深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法应用于升力式再入滑翔飞行器的智能再入滑翔轨迹优化, 验证了该方法的可行性; 郭冬子等[4]基于DDPG对随机强扰动条件下的离线飞行轨迹进行网络训练, 寻找不同环境影响条件下的最优动作网络, 以用于在线干扰条件下的制导轨迹规划; Cheng等[9]提出了一种基于Actor-Critic算法的跨周期迭代预测-校正制导方法, 该方法具有较高的计算效率。针对再入滑翔时间约束制导问题, 方科等[10]设计了基于深度Q学习网络(deep Q-learning network, DQN)的时间可控再入制导律, 该算法可确定倾侧角符号, 进而控制飞行时间。Wu等[11]在数值预测-校正算法的基础上, 结合双延迟深度确定性策略梯度算法和传统航向角走廊, 设计了考虑禁飞区规避的再入制导方法; 张晚晴等[12]结合纵向的高精度解析解和基于DQN的智能横程机动决策器, 完成了时间可控再入制导律设计。但以上方法仍需要通过数值积分方法预测飞行状态, 因此存在较多积分运算, 计算效率较低。

为增强制导算法的在线实时性能, 部分学者采用了神经网络预测方法替代传统的数值积分进行终端状态预测。Li等[13]通过增广预测-校正算法获取样本数据以训练神经网络, 并采用多层BP网络逼近高升阻比飞行器实时飞行状态与制导指令的关系, 但该算法的样本库构建耗时较长, 任务适用性较差; Shi等[14]设计了基于BP网络的预测-校正方法, 该方法通过分析当前状态与飞行航程的变化规律, 降低了训练样本数量, 提升了训练效率, 但制导精度存在不足; 章吉力等[15]在数值预测方法基础上, 进行拉偏情况下全飞行包线内的弹道仿真, 进而用深度BP网络得到制导指令与剩余航程的映射关系, 提升了制导算法的计算效率, 但该算法的侧向制导部分仍采用了传统航向角偏差走廊, 因此存在倾侧反转次数过多的问题。

因此, 为了提升再入制导方法的实时性、自主性和智能化水平, 同时保证终端精度, 本文提出了一种基于BP网络和DQN的预测-校正制导方法。该方法通过BP网络预测代替传统数值积分过程, 提升了算法的计算效率; 此外, 与基于航向角走廊的侧向制导方法相比, 所设计基于DQN的侧向制导方法能够兼顾终端精度, 降低倾侧反转次数, 避免了轨迹末段多次反转带来的控制可行性差的问题。最终, 通过CAV-H再入滑翔多任务制导仿真, 验证了本文方法的精度、适用性和计算实时性。

1 再入制导问题描述

1.1 运动模型

假设地球为旋转圆球, 建立以时间为自变量的无量纲三自由度质心运动方程

Mathematical equation (1)

式中, 等号左侧均为无量纲状态量X=[r, θ, ϕ, V, γ, ψ]^T对时间的导数, r为无量纲地心距; θ, ϕ分别为经度和纬度, V为无量纲速度, γ为当地弹道倾角, ψ为航迹偏航角, υ为倾侧角; 地球旋转对应的哥氏加速度C_ψ, C_γ以及牵连加速度 Mathematical equation 可参考文献[16]。无量纲升力L和阻力D的计算公式为

Mathematical equation (2)

式中: m为飞行器质量; Mathematical equation 为海平面重力加速度; R_e为地球平均半径; C_L, C_D分别为升、阻力系数; 大气密度ρ采用ρ=ρ₀e^-h/h_s进行计算, 其中ρ₀表示海平面大气密度, h为飞行高度, h_s取7 200 m。

1.2 约束模型

1.2.1 过程约束

过程约束主要包括驻点热流密度、动压、总过载、准平衡滑翔条件等约束[16], 相应模型如(3)式所示。

Mathematical equation (3)

式中: Mathematical equation , q, n分别为热流密度、动压、总过载; k_Q为热流密度系数; , q_max以及n_max分别为飞行任务允许的热流密度、动压、过载峰值; υ_QEGC表示平衡滑翔倾侧角。其中, 热流密度、动压、过载3种约束属于"硬约束", 再入过程中飞行器必须严格满足, 而准平衡滑翔条件属于"软约束"。

1.2.2 控制约束

控制量取攻角α和倾侧角υ, 对其约束主要为限制幅值及变化率, 其中, 对倾侧角的约束为

Mathematical equation (4)

式中: υ_max为倾侧角幅值上限; Mathematical equation 为倾侧角变化率上限。

综合考虑热防护及航程能力, 预设攻角剖面为速度的分段线性函数[17], 如(5)式所示。

Mathematical equation (5)

式中: α_max, α_max(L/D)分别为最大飞行攻角和最大升阻比攻角; V_a和V_b为攻角曲线的分段参数, 其大小可综合考虑飞行器防热及航程需求加以确定。

1.2.3 终端约束

再入滑翔的终端高度、速度、经度、纬度约束为

Mathematical equation (6)

式中: 下标f表示状态终端值; h_f^*, V_f^*, θ_f^*, ϕ_f^*均为飞行任务给定的终端约束值。

定义无量纲能量

Mathematical equation (7)

根据终端能量管理要求, 将能量作为截止条件, 则有

Mathematical equation (8)

为便于后续算法设计, 将终端经纬度约束转化为剩余航程约束, 如(9)式所示。

Mathematical equation (9)

式中: s_{togo, f}为剩余航程, 即飞行器在地面上的投影与目标点之间的球面距离; s_f^*为剩余航程约束值。

因此, 再入制导问题可描述为: 在初始状态、模型及环境参数等不确定因素影响下, 通过设计合理的攻角、倾侧角控制指令, 将飞行器成功引导至期望目标, 并满足飞行动力学方程、过程、控制、终端状态等约束。由于攻角指令已根据航程和防热需求事先确定, 上述问题可归结为多约束条件下倾侧角指令υ的求解问题。

2 再入制导算法

根据轨迹特性的不同, 本文将再入滑翔轨迹分为初始下降段与滑翔段。初始下降段飞行高度较高、气动力作用较小, 难以对轨迹进行有效控制, 因此该段采用零倾侧角进行开环控制。当飞行高度第一次下降至设定高度h_down时, 转入滑翔段飞行。

滑翔段则采用一种基于BP网络和DQN的预测-校正制导方法, 该方法包括纵向制导和侧向制导, 其中, 纵向制导包括倾侧角幅值剖面参数化设计、基于BP网络的剩余航程预测、控制量校正算法等环节, 用于计算倾侧角幅值; 侧向制导包括基于侧向运动的状态和动作空间选取、决策点确定、考虑综合性能的奖励函数设计、训练网络构建等环节, 用于倾侧反转决策。

2.1 纵向制导

2.1.1 倾侧角幅值剖面参数化设计

为使倾侧角幅值剖面光滑变化, 将倾侧角幅值剖面|υ(E)|设计为关于当前能量点E_k及终端能量点E_f处倾侧角幅值指令的线性函数, 即

Mathematical equation (10)

式中: υ_k表示第k个制导周期的制导指令; υ_f为一预设常数, 可综合考虑机动能力和交班要求确定。

2.1.2 基于BP网络的剩余航程预测

本文采用BP神经网络来构建当前飞行状态、控制量到剩余航程的非线性映射关系, 从而取代计算较为耗时的数值积分过程进行航程预测。一旦神经网络训练完成, 即可通过简单的几步矩阵相乘运算, 在较短时间内给出期望的航程预测结果, 下面给出BP网络构建方法。

1) 网络结构设计

网络层数、各层神经元数量以及输入和输出是网络结构设计的关键部分。为了降低网络复杂程度以提高网络性能, 网络的神经元需要尽量减少, 同时确保输出能够被输入唯一确定。此外, 隐藏层数需要结合所研究的问题动态调整。为保证在线计算效率, 本文采用单隐层BP神经网络来逼近当前飞行状态、倾侧角与剩余航程的非线性复杂映射关系。

考虑实际飞行过程和(1)式, 为预测三维空间内的剩余航程, 需要将方向和经、纬度差作为输入量。此外, 高度、速度、弹道倾角和倾侧角直接影响了纵向运动, 也应作为输入。因此, 网络输入层神经元选取为高度h、速度V、当地弹道倾角γ、航迹偏航角ψ、弹目经度差Δθ=θ_f-θ、弹目纬度差Δϕ=ϕ_f-ϕ、倾侧角幅值|υ_k|, 即输入层维度为7。对于纵向预测算法的输出层而言, 待预测终端参数只有预测剩余航程s_togo(E_f), 故输出层维度为1。

因此, 设计用于预测剩余航程的神经网络, 其结构如图 1所示。网络各层间的激活函数均选为Sig-moid函数。此外, 采用文献[18]所提方法优化网络结构, 获得隐藏层神经元数n_hide=50。

图1

剩余航程预测网络结构

2) 网络训练

训练样本由成对的输入、输出数据构成。为提升网络泛化能力, 航迹偏航角需要覆盖全射向, 其余状态量也需要覆盖整个飞行包络。

训练样本通过文献[19]的数值预测-校正算法获得, 样本遍历参数设置如表 1所示。具体获取方法为: 首先, 对网络输入状态量高度h、速度V、当地弹道倾角γ、航迹偏航角ψ、弹目经度差Δθ、弹目纬度差Δϕ、倾侧角幅值|υ_k|遍历; 然后将遍历获得的状态[h, V, γ, ψ, Δθ, Δϕ, |υ_k|]作为初始状态进行数值预测仿真, 得到实际的剩余航程 Mathematical equation ; 最后, 对满足约束条件的输入和输出状态进行无量纲处理并存储于样本库中。

通过仿真可以获得10⁵量级的训练样本。抽取样本库中的90%作为训练集样本, 5%作为验证集样本, 5%作为测试集样本。经过训练后, 输入测试集中航程为6 000 km左右的某个样本进行滑翔全程的剩余航程预测, 并与实际剩余航程作差以验证网络的准确性。

由图 2可知, 航程预测网络存在一定的预测误差, 但能够保持在60 km(相对误差约1%)以内, 且随飞行器接近目标而逐渐下降, 轨迹后段的预测误差在5 km(相对误差约0.1%)以内, 与文献[15]的测试误差较为类似, 说明本文所训练的剩余航程预测网络具有较好的拟合精度。

图2

预测航程误差曲线

表1

样本遍历参数设置

2.1.3 控制量校正算法

控制量校正算法包括基础算法和修正算法[19], 其中, 基础算法用于生成满足终端航程约束的基准倾侧角幅值指令, 修正算法则通过对基准指令修正完成过程约束的施加。

1) 基础校正算法

首先, 设计目标函数

Mathematical equation (11)

对于当前迭代周期k的能量E_k和倾侧角|υ_k|, 通过剩余航程预测网络, 得到预测剩余航程s_{togo, f}。之后, 采用牛顿迭代方法校正更新|υ_k|, 直至满足终止条件 Mathematical equation , ε为某一小量。迭代公式为

Mathematical equation (12)

为对高度变化率和过程约束进行限制, 将(12)式得到的倾侧角|υ_k|作为后续修正算法的基准。

2) 施加准平衡滑翔条件(quasi-equilibrium glide condition, QEGC)的修正算法

为减轻再入弹道跳跃特性, 本节通过高度变化率反馈对基础校正算法进行修正。对于纵向制导, 升力在纵向平面内的分量为Lcosυ_k。考虑到滑翔飞行器主要通过调整纵向平面内的升力分量来进行机动, 故可通过调整气动升力在纵平面的分量实现预期的纵向弹道特性。

加入高度变化率反馈项对升力进行修正, 实际的升力分量可描述为

Mathematical equation (13)

式中: υ_k为迭代(12)式得到的指令; υ_cmd为施加QEGC修正后的指令; Mathematical equation 和分别表示当前高度变化率和参考高度变化率, 可结合任务需求进行设计; k_QEGC为制导增益。

给出QEGC条件

Mathematical equation (14)

由于h≪R_e, 故r=(h+R_e)/R_e≈1, 则有

Mathematical equation (15)

根据文献[19]的推导过程, 最终得到QEGC修正的倾侧角指令υ_cmd, 如(16)式所示。

Mathematical equation (16)

3) 过程约束修正算法

本节通过约束当地弹道倾角γ实现过程约束的施加。根据文献[19]的推导过程, 得到

Mathematical equation (17)

同理, 可以得到驻点热流密度、动压约束对应的伪控制参数

Mathematical equation (18)

Mathematical equation (19)

因此, 为满足过程约束限制, 参考当地弹道倾角γ_ref取值应满足(20)式。

Mathematical equation (20)

即可获得满足全部过程约束的倾侧角指令。

Mathematical equation (21)

式中, k_n为制导增益。

4) 控制量生成策略

综上, 本文采用的控制量校正算法为: 首先, 根据航程约束, 基于基础校正算法获得|υ_k|; 之后, 为使弹道保持较好的阻尼特性和较小的振荡幅度, 通过QEGC对|υ_k|进行修正; 同时, 当过程约束接近设定峰值时, QEGC条件不再适用, 此时制导指令主要受过程约束限制, 即

Mathematical equation (22)

为了满足终端高度、速度, 将h_f^*作为平衡滑翔高度代入(22)式中的L, 进而根据(7)式和(8) 式完成终端约束施加。此外, 相较于文献[19], 本文方法在上述控制量校正方法基础上, 将航程的数值积分预测替换为计算高效的航程预测神经网络, 显著提升了制导方法的计算效率。

2.2 侧向制导

2.2.1 DQN算法原理

DQN算法[20]包含当前Q网络和目标Q网络两部分, 并通过2个网络间的梯度计算, 实现网络权值更新。为便于后续算法设计, 以飞行器实时状态定义状态空间S, 以控制量定义动作空间A, 并根据各种约束条件来设定奖励函数R(s₁; a; s₂)。

在每个训练周期内, 智能体从样本池随机抽取样本(s_t, a_t, R_t, s_t+1), 同时, 通过梯度下降公式对当前Q网络参数θ进行更新, 如(23)式所示。

Mathematical equation (23)

式中: η表示Q网络学习率, L(θ) 为损失函数

Mathematical equation (24)

目标Q网络与当前Q网络具有相同结构, 为提高训练稳定性, 采用软更新模式对网络权值更新[8], 如(25)式所示。

Mathematical equation (25)

式中, τ表示目标网络更新率。

训练完成后, DQN采用当前Q网络对当前状态s_t下能够采取的所有动作a_t∈A对应的累计奖励Q(s_t, a_t|θ)进行预测, 并输出最大值Q_max(s_t, a_t|θ)对应的动作a_t以进入下一状态s_t+1。

2.2.2 基于DQN的制导算法

1) 状态和动作空间选取

结合再入制导问题描述可知, 侧向制导算法的主要任务是调整飞行器的航向, 使其满足终端位置约束。由于高度h、当地弹道倾角γ对飞行器航向不存在影响, 因此, 综合考虑再入飞行器的航程和终端偏差, 状态空间可表示为

Mathematical equation (26)

式中: Δθ为当前点与目标点之间的经度差, 即Δθ=θ_f-θ; Δϕ为当前点与目标点之间的纬度差, 即Δϕ=ϕ_f-ϕ; V为速度; ψ为航迹偏航角; s_togo表示剩余航程。各物理量均为无量纲量。

由于倾侧角符号仅有正、负2个选项, 即侧向制导输出需要执行的动作a∈{0, 1}, 其中0表示倾侧角符号为负, 1表示倾侧角符号为正。因此, 动作空间为

Mathematical equation (27)

2) 决策点确定

考虑到强化学习算法在每个决策点处完成制导指令更新, 因此需要结合再入问题选取决策点。由于终端飞行时间t_f未给定而终端能量E_f为已知条件, 选择对整个能量区间[E₀, E_f]进行分段, 将离散的能量点E={E₀, E₁, …, E_f} 作为DQN的决策点。在积分过程中, 当前能量达到决策点对应的能量时, 根据此时的状态更新制导指令。

考虑到滑翔后段具有视线角变化剧烈的特性, 故需要更加频繁地决策。因此, 选取前面疏后面密的余弦函数分段方式, 如(28)式所示。

Mathematical equation (28)

式中: N表示整个再入飞行任务的决策点数。

3) 奖励函数设计

在每个决策点处, 学习算法根据当前状态和决策的动作获取奖励, 最终通过累计奖励Q对网络参数进行调整。奖励函数的设计是否合理直接决定了强化学习的效果。因为侧向制导的主要目的是保证位置偏差尽量小的同时减少倾侧角反转次数, 所以结合混合奖励函数设计方法, 将奖励函数R_t(E) 设计为如(29)式所示形式[12]。

Mathematical equation (29)

式中

Mathematical equation

式中: |Δs_{togo, f}|表示剩余航程偏差; s₀表示初始待飞航程; B表示倾侧角总反转次数; ξ表示反转次数的权重。为防止学习过程中梯度消失或梯度爆炸, 应该ξ·B略小于前面的常数项奖励。

根据奖励函数设计方法, DQN算法仅在终端能量处获得奖励, 在其余决策点处奖励均为0。

4) 训练网络构建

基于上述DQN算法模型, 构建训练DQN模型所需的深度Q网络, 网络结构如图 3所示。

图3

深度Q网络

该网络的作用是根据当前状态s_t=[Δθ, Δϕ, V, ψ, s_togo]和由动作空间中选择的动作a_t=sign(υ)预测累计奖励Q(s_t, a_t)。因此, 输入层包含s_t和a_t共6个神经元。为了保证拟合误差足够小的同时精简网络结构, 隐藏层采用3层, 每层神经元数量为50个, 各层间的激活函数采用ReLU函数。输出层为Q(s_t, a_t), 只有1个神经元, 同样采用ReLU函数作为激活函数。各层网络均为BP网络。

2.3 三维制导算法框架

综上, 基于BP网络和DQN的预测-校正制导算法的具体实施步骤为:

步骤1 采用经典数值预测-校正算法[19]获得训练样本并对BP航程预测网络进行离线训练;

步骤2 对DQN网络进行离线训练, 得到累计奖励预测网络Q(s_t, a_t|θ);

步骤3 给定初始倾侧角υ=0, 进行初始下降段积分, 直至飞行高度第一次下降至h_down, 此后转入滑翔段制导;

步骤4 在第k个制导周期内, 采用纵向预测-校正算法计算倾侧角幅值|υ_k|;

步骤5 调用Q(s_t, a_t|θ), 根据当前状态s_t获得倾侧角符号sign(υ_k), 生成当前倾侧角指令υ_k;

步骤6 进行制导周期内的弹道积分推进, 更新飞行状态;

步骤7 当前能量满足E≤E_f时, 则制导结束; 否则, k=k+1, 转至步骤4。

3 仿真分析

3.1 仿真条件

以CAV-H[21]为对象开展再入制导仿真。初始状态约束设为高度h₀=80 km, 速度V₀=6 500 m/s, 纬度ϕ₀=30°, 经度θ₀=30°, 当地弹道倾角γ₀=0°, 航迹偏航角ψ₀=340°; 终端状态约束设置为: 高度h_f^*=25 km, 速度V_f^*=2 000 m/s, 纬度ϕ_f^*=70°, 经度θ_f^*=-40°, 预留剩余航程s_f^*=50 km; 过程约束设置为: n_max=3, Mathematical equation , q_max=100 kPa; 控制约束设置为: υ_max=80°, ; 制导周期为1 s, 积分步长为10 ms; 起滑点高度h_down=50 km。所有仿真均在搭载Intel(R) Core(TM) i7-11700 2.5 GHz处理器的台式机完成, 仿真环境为Pycharm平台。

3.2 网络训练仿真

首先针对标称条件下的再入任务进行DQN网络离线训练。采用经典数值预测-校正算法[19]获取训练样本, 对DQN算法进行3 000次离线网络训练, 强化学习算法的训练网络超参数如表 2所示。

离线训练情况如图 4所示。由图 4a)可知, DQN算法前期的探索过程具有较强的随机性, 累计奖励呈现频繁振荡波动特性, 经过1 000次左右的训练后奖励逐渐提升, 最终在3 000次左右的训练后可认为网络得到了最优动作。由图 4b)可知, 终端位置偏差随着训练次数的增加逐渐下降, 最终收敛至0附近。以上仿真结果表明, DQN算法具有处理侧向制导问题的可行性, 网络收敛性较好。

图4

DQN算法训练曲线

表2

强化学习网络超参数

3.3 标称条件下算法性能分析

1) 可行性验证

为进一步分析所提算法在标称条件下的性能, 将本文所设计算法与现有算法进行对比, 其中算法1为文献[19]所提基于数值预测校正+航向角走廊的方法, 算法2为文献[15]所提基于BP网络预测校正+航向角走廊的方法, 算法3为本文方法。仿真结果如图 5和表 3所示。

图5

可行性仿真曲线

由表 3可知, 相较于算法1, 算法2和算法3的平均指令计算时间明显减少, 这是因为BP网络在训练后只需要简单的代数计算即可直接预测终端状态, 不需要复杂的积分运算, 因而具有较好的在线实时性。由图 5a)可知, 3种算法的高度-速度曲线基本一致, 表明所提算法采用BP神经网络预测的结果可以较好地逼近数值积分。由图 5b)可知, 算法1和算法2的侧向制导由于采用了航向角偏差走廊, 在整个再入滑翔过程中共进行了8次反转, 且集中出现于轨迹末段, 而算法3的反转次数为4次, 这是因为DQN算法将倾侧反转次数加入了奖励函数, 从而使飞行器能够兼顾较高的终端精度和较少的倾侧反转次数, 易于控制系统实现。由图 5c)可知, 3种方法由于在纵向制导部分均加入了过程约束修正, 因而所得飞行轨迹均满足过程约束要求。

以上结果表明, 本文所提算法具有较好的可行性和计算实时性; 与经典数值预测-校正算法[19]相比, 本文算法具有明显的计算效率优势; 与现有BP网络预测-校正+航向角走廊制导算法[15]相比, 本文算法具有相当的计算精度和更少的倾侧反转次数。

2) 多任务适用性验证

在标称条件下针对不同航程、不同射向的再入任务进行仿真, 以验证所提算法的多任务适用性。4组算例的仿真条件如表 4所示, 其余仿真条件与3.1节一致, 其中, 算例1为离线训练所采用的条件。

仿真结果如表 5所示。由结果可知, 4组仿真算例的终端偏差较小, 表明所提制导方法对于不同航程、射向的再入任务适用性较强, 同时验证了所设计BP航程预测网络和DQN网络具有较好的泛化能力。可见, 基于BP网络和DQN的预测-校正制导算法对于不同任务具有较好的适应能力, 且所构建的神经网络具有较好的泛化能力。

表3

可行性仿真终端偏差

表4

适用性仿真条件

表5

适用性仿真终端偏差

3.4 拉偏条件下算法性能分析

为验证所提制导算法在扰动条件下的鲁棒性, 以表 4中算例1为例进行1 000次蒙特卡洛打靶, 初始状态和气动参数偏差服从均值为零的正态分布, 极限拉偏条件如表 6所示。

仿真所得结果如图 6和表 7所示。由表 7可知, 终端高度、速度偏差均值及标准差均较小, 表明所提制导算法具有较好的鲁棒性, 可满足再入制导需求。由图 6a)可知, 在拉偏条件下, 受到过程约束修正算法的影响, 所提算法仍能满足设置的过程约束边界。由图 6b)可知, 终端位置散布较为集中, 主要分布在1 km以内, 精度较好。

图6

打靶结果

表6

参数拉偏设置

表7

扰动条件下终端参数

4 结论

针对传统数值预测-校正制导方法计算效率低, 难以在线应用等问题, 提出了一种基于BP网络和DQN的再入制导方法, 理论分析和仿真结果表明:

1) 所提方法具有较好的可行性、实时性、多任务适用性和鲁棒性, 且在多任务和拉偏条件下能够自主地获取制导指令, 无需人为调节参数, 具有较好的自主性;

2) 相较于现有数值预测-校正制导算法, 所提方法采用BP网络预测剩余航程, 具有计算效率更高的优势; 此外, 相较于传统基于航向角走廊的侧向制导方法, 所提方法采用DQN网络实现反转点的自主决策, 在保证精度的同时减少了反转次数;

3) 所提方法通过离线训练完成制导模型的训练与优化设计, 在线制导过程中仅利用网络直接进行决策, 避免了大量的在线数值计算, 具有较好的在线应用潜力。

References

ZHANG Yuanlong, XIE Yu. Review of trajectory planning and guidance methods for gliding vehicles[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(1): 023377 (in Chinese) [Google Scholar]
ZHAO S, ZHU J W, BAO W Met al. High-dynamic intelligent maneuvering guidance strategy via deep reinforcement learning[J]. Journal of Aerospace Engineering, 2023, 237(11): 154–165 [Google Scholar]
LEAVITTE J A, MEASE K D. Feasible trajectory generation for atmospheric entry guidance[J]. Journal of Guidance, Control and Dynamics, 2007, 30(2): 473–481 [Article] [Google Scholar]
GUO Dongzi, HUANG Rong, XU Hechuanet al. Research on gradient guidance method for depth deterministic strategy of reentry aircraft[J]. Systems Engineering and Electronic, 2022, 44(6): 1942–1949 (in Chinese) [Google Scholar]
XUE S, LU P. Constrained predictor-corrector entry guidance[J]. Journal of Guidance, Control, and Dynamics, 2010, 33(4): 1273–1281 [Article] [Google Scholar]
LUO X L, CHEN C, ZENG C N, et al. Deep reinforcement learning for joint trajectory planning, transmission scheduling, and access control in UAV-assisted wireless sensor networks[J]. Sensors, 2023, 23(10): 423–434 [Google Scholar]
LI J, CAO S, LIU X J, et al. Trans-UTPA: PSO and MADDPG based multi-UAVs trajectory planning algorithm for emergency communication[J]. Frontiers in Neurorobotics, 2023, 16(1): 432–440 [Google Scholar]
GAO Jiashi. Research on trajectory optimization and guidance methods for lift type re-entry vehicles[D]. Wuhan: Huazhong University of Science and Technology, 2019 (in Chinese) [Google Scholar]
CHENG Y, SHUI Z S, XU C, et al. Cross-cycle iterative unmanned aerial vehicle reentry guidance based on reinforcement learning[C]//IEEE International Conference on Unmanned Systems, 2019: 587-592 [Google Scholar]
FANG Ke, ZHANG Qingzhen, NI Kun, et al. Reentry guidance law under flight time constraints[J]. Journal of Harbin Institute of Technology, 2019, 51(10): 90–97 (in Chinese) [Google Scholar]
WU T C, WANG H L, LIU Y H, et al. Learning-based interfered fluid avoidance guidance for hypersonic reentry vehicles with multiple constraints[J]. ISA Transactions, 2023, 39(1): 139–150 [Google Scholar]
ZHANG Wanqing, YU Wenbin, LI Jinglinet al. Intelligent lateral maneuvering and re-entry coordinated guidance for aircraft based on longitudinal analytical solutions[J]. Acta Armamentarii, 2021, 42(7): 1400–1411 (in Chinese) [Google Scholar]
LI Z, SUN X, HU C, et al. Neural network based online predictive guidance for high lifting vehicles[J]. Aerospace Science and Technology, 2018, 82(3): 149–160 [Google Scholar]
SHI Y, WANG Z. Onboard generation of optimal trajectories for hypersonic vehicles using deep learningJournal of Spacecraft and Rockets 2021582400414 [Article] [Google Scholar]
ZHANG Jili, LIU Kai, FAN Yazhuo, et al. Predictor-corrector switching reentry guidance method based on neural network range estimation model[J]. Tactical Missile Technology, 2020, 1(5): 93–100, 164 (in Chinese) [Google Scholar]
ZHAO Jiang, ZHOU Rui. Predictor-corrector reentry guidance based on feedback bank angle control[J]. Acta Armamentarii, 2015, 36(5): 823–830 (in Chinese) [Google Scholar]
WANG Xiao, GUO Jie, TANG Shengjinget al. Analytical reentry guidance method based on quasi-equilibrium glide[J]. Acta Armamentarii, 2019, 40(1): 58–67 (in Chinese) [Google Scholar]
MOZER M C, SMOLENSKY P. Skeletonization: a technique for trimming the flat from a network via relevance assessment[C]//Proceedings of the 2nd International Conference on Neural Information Processing Systems, 1988: 107-115 [Google Scholar]
LU P. Entry guidance: a unified method[J]. Journal of Guidance, Control, and Dynamics, 2014, 37(3): 713–728 [Article] [Google Scholar]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90 [CrossRef] [Google Scholar]
PHILLIPS T H. A common aero vehicle(CAV) model, description, and employment guide[R/OL]. (2003-01-15)[2024-03-01]. [Article]. [Google Scholar]

All Tables

样本遍历参数设置

强化学习网络超参数

可行性仿真终端偏差

适用性仿真条件

适用性仿真终端偏差

参数拉偏设置

扰动条件下终端参数

All Figures

	图1 剩余航程预测网络结构
In the text

	图2 预测航程误差曲线
In the text

	图3 深度Q网络
In the text

	图4 DQN算法训练曲线
In the text

	图5 可行性仿真曲线
In the text

	图6 打靶结果
In the text

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.

[] ZHANG Yuanlong, XIE Yu. Review of trajectory planning and guidance methods for gliding vehicles[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(1): 023377 (in Chinese) [Google Scholar]

[R2] ZHAO S, ZHU J W, BAO W Met al. High-dynamic intelligent maneuvering guidance strategy via deep reinforcement learning[J]. Journal of Aerospace Engineering, 2023, 237(11): 154–165 [Google Scholar]

[R3] LEAVITTE J A, MEASE K D. Feasible trajectory generation for atmospheric entry guidance[J]. Journal of Guidance, Control and Dynamics, 2007, 30(2): 473–481 [Article] [Google Scholar]

[] GUO Dongzi, HUANG Rong, XU Hechuanet al. Research on gradient guidance method for depth deterministic strategy of reentry aircraft[J]. Systems Engineering and Electronic, 2022, 44(6): 1942–1949 (in Chinese) [Google Scholar]

[R5] XUE S, LU P. Constrained predictor-corrector entry guidance[J]. Journal of Guidance, Control, and Dynamics, 2010, 33(4): 1273–1281 [Article] [Google Scholar]

[R6] LUO X L, CHEN C, ZENG C N, et al. Deep reinforcement learning for joint trajectory planning, transmission scheduling, and access control in UAV-assisted wireless sensor networks[J]. Sensors, 2023, 23(10): 423–434 [Google Scholar]

[R7] LI J, CAO S, LIU X J, et al. Trans-UTPA: PSO and MADDPG based multi-UAVs trajectory planning algorithm for emergency communication[J]. Frontiers in Neurorobotics, 2023, 16(1): 432–440 [Google Scholar]

[] GAO Jiashi. Research on trajectory optimization and guidance methods for lift type re-entry vehicles[D]. Wuhan: Huazhong University of Science and Technology, 2019 (in Chinese) [Google Scholar]

[R9] CHENG Y, SHUI Z S, XU C, et al. Cross-cycle iterative unmanned aerial vehicle reentry guidance based on reinforcement learning[C]//IEEE International Conference on Unmanned Systems, 2019: 587-592 [Google Scholar]

[] FANG Ke, ZHANG Qingzhen, NI Kun, et al. Reentry guidance law under flight time constraints[J]. Journal of Harbin Institute of Technology, 2019, 51(10): 90–97 (in Chinese) [Google Scholar]

[R11] WU T C, WANG H L, LIU Y H, et al. Learning-based interfered fluid avoidance guidance for hypersonic reentry vehicles with multiple constraints[J]. ISA Transactions, 2023, 39(1): 139–150 [Google Scholar]

[] ZHANG Wanqing, YU Wenbin, LI Jinglinet al. Intelligent lateral maneuvering and re-entry coordinated guidance for aircraft based on longitudinal analytical solutions[J]. Acta Armamentarii, 2021, 42(7): 1400–1411 (in Chinese) [Google Scholar]

[R13] LI Z, SUN X, HU C, et al. Neural network based online predictive guidance for high lifting vehicles[J]. Aerospace Science and Technology, 2018, 82(3): 149–160 [Google Scholar]

[R14] SHI Y, WANG Z. Onboard generation of optimal trajectories for hypersonic vehicles using deep learningJournal of Spacecraft and Rockets 2021582400414 [Article] [Google Scholar]

[] ZHANG Jili, LIU Kai, FAN Yazhuo, et al. Predictor-corrector switching reentry guidance method based on neural network range estimation model[J]. Tactical Missile Technology, 2020, 1(5): 93–100, 164 (in Chinese) [Google Scholar]

[] ZHAO Jiang, ZHOU Rui. Predictor-corrector reentry guidance based on feedback bank angle control[J]. Acta Armamentarii, 2015, 36(5): 823–830 (in Chinese) [Google Scholar]

[] WANG Xiao, GUO Jie, TANG Shengjinget al. Analytical reentry guidance method based on quasi-equilibrium glide[J]. Acta Armamentarii, 2019, 40(1): 58–67 (in Chinese) [Google Scholar]

[R18] MOZER M C, SMOLENSKY P. Skeletonization: a technique for trimming the flat from a network via relevance assessment[C]//Proceedings of the 2nd International Conference on Neural Information Processing Systems, 1988: 107-115 [Google Scholar]

[R19] LU P. Entry guidance: a unified method[J]. Journal of Guidance, Control, and Dynamics, 2014, 37(3): 713–728 [Article] [Google Scholar]

[R20] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90 [CrossRef] [Google Scholar]

[R21] PHILLIPS T H. A common aero vehicle(CAV) model, description, and employment guide[R/OL]. (2003-01-15)[2024-03-01]. [Article]. [Google Scholar]