摘要

电磁频谱管控的智能对抗方法、系统、设备及介质,其方法为:搜索观察次数最多的信道以及确定后门功率,确保后门攻击的效率;选择可行中毒动作以及设置诱导奖励,能够避免修改全局奖励可能导致更高的修改成本和复杂性;采用集中式训练和去中心化执行框架来进行频谱管控的多智能体强化学习(MADRL)和后门植入;系统、设备及介质能够基于电磁频谱管控的智能对抗方法,进行电磁频谱管控;任何涉及频谱管控的强化学习任务均可植入本发明后门进行后门攻击;中毒动作的选择采用可行动作选择方案,相比最坏动作和非最优动作选择策略,减少了计算;设置诱导奖励,降低算法的复杂度;本发明具有更高的效率和更广的通用性。