摘要

随着航天事业的蓬勃发展,空间碎片尤其是低轨碎片已成为航天任务不可忽视的威胁。考虑到碎片清除的紧迫性和成本,低轨多碎片主动清除(ADR)技术成为缓解现状的必要手段。针对大规模多碎片主动清除任务规划问题,首先,基于任务规划的最大收益模型,提出一种强化学习(RL)优化方法,并依照强化学习框架定义了该问题的状态、动作以及收益函数;其次,基于高效启发因子,提出一种专用的改进蒙特卡罗树搜索(MCTS)算法,该算法使用MCTS算法作为内核,加入高效启发算子以及强化学习迭代过程;最后,在铱星33碎片云的全数据集中检验了所提算法有效性。与相关MCTS变体方法以及贪婪启发算法对比,所提方法能在测试数据集上更高效地获得较优规划结果,较好地平衡了探索与利用。