摘要

为了实现低成本物联网无线设备的定位,提出了一种基于深度强化学习(DRL)的无监督无线节点定位优化算法.将连续无线定位过程建模为马尔可夫决策过程(MDP),提出了一种新的奖励设置机制,该机制能从未标记的无线接收信号强度(RSS)中实现鲁棒的地标数据提取.使用RSS测量值和代理位置来构建DRL模型的输入,以减少模型重训练的需求.并使用模拟实验对所提出的算法进行了评估.实验结果表明,与现有的无监督算法相比,本算法能实现更低的无线定位误差,并能进行自监督的学习.

  • 单位
    安徽商贸职业技术学院