摘要
在实时未知通信环境中,干扰机通过自主交互学习尽快找到最优干扰策略是智能干扰对抗的关键。现有基于强化学习的干扰决策优化方法常常需要在大量交互后才能趋近于最优,而在通信对抗中所需的多参数联合优化问题极大地增加了干扰决策选择空间,导致现有强化学习类方法难以适用于时间受限的对抗环境。提出了一种逐级离散干扰决策(jamming bandit based on stepwise discretization, JBSD)方法,通过干扰参数逐级离散方法细化并缩小了多干扰参数选择空间,通过干扰摇臂剪枝机制对低收益干扰参数进行了消除。数值仿真结果表明,在时间受限的实时干扰环境中,方法具有更快的干扰策略寻优速度和更高的平均干扰收益。
-
单位哈尔滨工业大学(威海)