摘要
空中交通流量的急剧增加使得空域运行复杂度持续加大,迫切需要空管的智能化改进。冲突探测与解脱是空管的核心组成部分,前期研究初步证实了使用强化学习方法进行冲突解脱智能决策生成的可行性。针对关键的奖励函数设计环节,本文首先介绍了使用强化学习进行冲突解脱的运行框架,然后对国内外研究中使用的奖励函数进行归纳和分析,最后给出了冲突解脱强化学习方法的奖励函数设计准则与建议。希望通过本文给研究者以启发,优化智能冲突解脱关键环节,促进智慧空管落地应用。
- 单位
空中交通流量的急剧增加使得空域运行复杂度持续加大,迫切需要空管的智能化改进。冲突探测与解脱是空管的核心组成部分,前期研究初步证实了使用强化学习方法进行冲突解脱智能决策生成的可行性。针对关键的奖励函数设计环节,本文首先介绍了使用强化学习进行冲突解脱的运行框架,然后对国内外研究中使用的奖励函数进行归纳和分析,最后给出了冲突解脱强化学习方法的奖励函数设计准则与建议。希望通过本文给研究者以启发,优化智能冲突解脱关键环节,促进智慧空管落地应用。