课程Notebook
- 第一章、强化学习介绍环境搭建
- Sarsa
- DQN
- Policy Gradient
- DDPG
大作业完成心得
题目:四轴飞行器悬停任务
四轴飞行器状态简介:
初始模型(动作固定):
可以看到当四个螺旋发动机电压值固定时,动作[1.0, 1.0, 1.0, 1.0],将使无初速度的飞行器垂直向上或向下运动。
训练trick总结:
1.多轮迭代,按训练的情况手动调整学习率
第一轮训练,经过八十万个step,回报终于从-8000多变成正数
第N轮训练,当效果好时降低学习率。到了后期回报稳定在八千上下
2.将Actor的输出动作从四个旋翼的电压尽量相似,在前期训练时新增一个调整项,用调整项对四个旋翼的电压做修正,使得4个旋翼的最终电压差异不会太大
最后八千分的交互范例如下,可以看到相比初始固定模型,此时模型已能较快达到悬停。