Open Access
 Issue JNWPU Volume 39, Number 5, October 2021 1057 - 1063 https://doi.org/10.1051/jnwpu/20213951057

This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

## 2 算法流程

1) 视觉感知算法模块

2) 决策控制算法模块

Actor网络使用梯度上升的方式优化θμ, θμ梯度求解方式如(15)式所示。

1. 初始化DDPG参数：θ, θ′, μ, μ′;

2. 创建YOLO目标定位训练数据集S;

//训练YOLO目标定位神经网络

3. for episode=1 to n1 do

4.随机从样本集S中抽取一个批次b;

5.训练YOLO网络参数m;

6. end for;

//模仿学习部分

7. for episode=1 to n2 do

8.随机从样本D中抽取一个批次b;

9.监督学习训练DDPG网络参数θ, μ;

10. end for;

11. 模仿学习训练完成得到初始策略A;

//强化学习训练部分

12. for episode=1 to n3 do

13.for t=1 to T-1 do

14. 摄像设备捕捉输入图像i;

15. YOLO网络定位目标所在图像位置;

16. 透视变化算法获取目标坐标信息st;

17. 使用策略A获取行为at=A(stg);

18. 执行at得到新的状态st+1, 并获得奖励值rt;

19. 存储(stg, at, rt, st+1g)到R中;

20. HER算法重新采样新目标，计算奖励值存储到R中;

21.end for;

22.for t=0 to n4 do

23. 从经验回放池R中随机采样一个批次B;

24. 在B上对策略A进行优化;

25. end for;

26. end for;

 图1透视变换得到目标相对于载物台的准确XOY平面坐标信息
 图2DDPG算法整体优化过程

## 3 实验设计与分析

 图3机械臂三维空间控制仿真环境

### 3.1 目标识别与定位实验

 图4YOLO目标检测输入数据
 图5目标定位损失、目标识别损失、精确度、召回率、校验集目标定位损失、校验集目标识别损失，mAP 0.5以及mAP∈[0.5, 0.95]

### 3.2 强化学习策略控制实验

 图6机械臂拾取-放置任务IL-DDPG-HER与DDPG-HER成功率实验对比分析

