摘要

在传感器网络目标锁定过程中,针对如何保证快速有效锁定目标问题,提出了一种基于动作采样并借助UCB动作选择的多智能体强化学习(ASUCBQ)算法。该方法将多个传感器构建成一个多智能体系统,采用集中训练-分散执行(centralized training with decentralized execution, CTDE)的框架,在集中训练更新联合动作Q值和UCB值时,并没有遍历所有联合动作,而只对部分联合动作进行采样并求取最大Q值和UCB值。在动作选择和执行阶段,每个传感器又分别选择动作。此外,为避免局部最优情况的发生,该方法借助了基于置信度上界(upper confidence bound, UCB)的动作选择思想,通过对动作值估计的不确定性使传感器去探索更多的动作,通过对探索率的动态调整,更好地实现了强化学习“利用”和“探索”之间的平衡。仿真实验表明:该方法可以有效地锁定传感器网络中的目标,降低了在训练过程中的计算量。